Update app.py
Browse files
app.py
CHANGED
@@ -1,174 +1,140 @@
|
|
1 |
import gradio as gr
|
2 |
import torch
|
3 |
-
from
|
4 |
-
|
5 |
-
import time # Um die Generierungszeit zu messen
|
6 |
|
7 |
-
# ---
|
8 |
-
|
9 |
-
|
10 |
-
DEVICE = "cpu" # Explizit CPU verwenden
|
11 |
-
print(f"Verwende Gerät: {DEVICE}")
|
12 |
|
13 |
-
# Lade
|
14 |
-
|
15 |
-
|
|
|
16 |
|
17 |
-
|
18 |
-
print("
|
|
|
19 |
|
20 |
-
|
|
|
|
|
21 |
try:
|
22 |
-
|
23 |
-
|
24 |
-
|
|
|
|
|
|
|
|
|
25 |
except Exception as e:
|
26 |
-
print(f"Fehler beim Laden
|
27 |
-
|
28 |
-
|
29 |
-
|
30 |
-
|
31 |
-
|
32 |
-
|
33 |
-
|
34 |
-
|
35 |
-
|
36 |
-
|
37 |
-
|
38 |
-
|
39 |
-
|
40 |
-
|
41 |
-
|
42 |
-
|
43 |
-
|
44 |
-
|
45 |
-
|
46 |
-
|
47 |
-
|
48 |
-
|
49 |
-
|
|
|
|
|
|
|
|
|
50 |
)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
51 |
|
52 |
-
print(f"\nStarte Bildgenerierung auf CPU für Prompt: '{prompt}'")
|
53 |
-
print(f" Negative Prompt: '{negative_prompt}'")
|
54 |
-
print(f" Schritte: {num_inference_steps}, Guidance: {guidance_scale}")
|
55 |
-
print(f" Dimensionen: {width}x{height}, Seed: {seed}")
|
56 |
-
print(" Dies kann auf der CPU einige Minuten dauern...")
|
57 |
|
58 |
-
|
59 |
|
60 |
-
#
|
61 |
-
|
62 |
-
|
63 |
-
|
64 |
-
|
65 |
-
|
66 |
-
|
67 |
-
|
68 |
-
|
69 |
|
|
|
|
|
|
|
|
|
70 |
|
71 |
-
|
72 |
-
|
73 |
-
|
74 |
-
|
75 |
-
|
76 |
-
negative_prompt=negative_prompt if negative_prompt else None,
|
77 |
-
num_inference_steps=int(num_inference_steps),
|
78 |
-
guidance_scale=guidance_scale,
|
79 |
-
height=int(height),
|
80 |
-
width=int(width),
|
81 |
-
generator=generator
|
82 |
-
)
|
83 |
-
image = result.images[0]
|
84 |
-
end_time = time.time()
|
85 |
-
duration = end_time - start_time
|
86 |
-
print(f"Bild erfolgreich generiert in {duration:.2f} Sekunden.")
|
87 |
-
return image
|
88 |
-
except Exception as e:
|
89 |
-
print(f"Fehler bei der Bildgenerierung: {e}")
|
90 |
-
raise gr.Error(f"Fehler bei der Bildgenerierung auf CPU: {e}")
|
91 |
|
92 |
-
#
|
93 |
-
|
|
|
|
|
|
|
|
|
|
|
94 |
gr.Markdown(
|
95 |
"""
|
96 |
-
#
|
97 |
-
|
98 |
-
**Achtung:**
|
99 |
-
|
100 |
"""
|
101 |
)
|
102 |
-
|
103 |
-
|
104 |
-
|
105 |
-
|
106 |
-
|
107 |
-
|
108 |
-
|
109 |
-
|
110 |
-
|
111 |
-
|
112 |
-
|
113 |
-
|
114 |
-
|
115 |
-
|
116 |
-
|
117 |
-
|
118 |
-
|
119 |
-
|
120 |
-
|
121 |
-
|
122 |
-
minimum=1, maximum=20, value=7.5, step=0.1, label="Guidance Scale (CFG)"
|
123 |
-
)
|
124 |
-
with gr.Row():
|
125 |
-
# Standardauflösung für v1.5 ist 512x512. Kleinere Auflösungen sind schneller auf CPU.
|
126 |
-
height_slider = gr.Slider(
|
127 |
-
minimum=256, maximum=512, value=512, step=64, label="Höhe"
|
128 |
-
)
|
129 |
-
width_slider = gr.Slider(
|
130 |
-
minimum=256, maximum=512, value=512, step=64, label="Breite"
|
131 |
-
)
|
132 |
-
seed_input = gr.Number(
|
133 |
-
label="Seed (-1 oder leer für zufällig)", value=-1, precision=0
|
134 |
-
)
|
135 |
-
generate_button = gr.Button("Bild generieren (langsam auf CPU!)", variant="primary")
|
136 |
-
|
137 |
-
with gr.Column(scale=1):
|
138 |
-
image_output = gr.Image(label="Generiertes Bild", type="pil")
|
139 |
-
gr.Markdown("### Beispiel-Prompts:")
|
140 |
-
gr.Examples(
|
141 |
-
examples=[
|
142 |
-
["Ein Astronaut reitet ein Pferd auf dem Mars, digitale Kunst", "", 20, 7.5, 512, 512, -1],
|
143 |
-
["Ein impressionistisches Gemälde eines Sonnenuntergangs über einem Lavendelfeld", "Menschen, Gebäude", 15, 8.0, 512, 512, -1],
|
144 |
-
["Ein niedlicher Corgi-Hund als Pixel-Art-Charakter", "fotorealistisch", 25, 7.0, 512, 512, 12345],
|
145 |
-
],
|
146 |
-
inputs=[prompt_input, negative_prompt_input, steps_slider, guidance_slider, height_slider, width_slider, seed_input],
|
147 |
-
outputs=image_output,
|
148 |
-
fn=generate_image,
|
149 |
-
cache_examples=False # CPU-Generierung ist zu langsam zum Cachen während des Tests
|
150 |
-
)
|
151 |
-
|
152 |
-
generate_button.click(
|
153 |
-
fn=generate_image,
|
154 |
-
inputs=[
|
155 |
-
prompt_input,
|
156 |
-
negative_prompt_input,
|
157 |
-
steps_slider,
|
158 |
-
guidance_slider,
|
159 |
-
height_slider,
|
160 |
-
width_slider,
|
161 |
-
seed_input
|
162 |
],
|
163 |
-
|
164 |
-
|
|
|
|
|
165 |
)
|
|
|
|
|
166 |
|
167 |
-
# --- App
|
168 |
if __name__ == "__main__":
|
169 |
-
|
170 |
-
|
171 |
-
|
172 |
-
else:
|
173 |
-
print("\nStarte Gradio App. Öffne die angezeigte URL in deinem Browser.")
|
174 |
-
app.launch(share=False) # share=False für lokale Nutzung
|
|
|
1 |
import gradio as gr
|
2 |
import torch
|
3 |
+
from transformers import AutoModelForCausalLM, AutoTokenizer
|
4 |
+
import os
|
|
|
5 |
|
6 |
+
# --- Konfiguration ---
|
7 |
+
MODEL_ID = "deepseek-ai/DeepSeek-R1-0528-Qwen3-8B"
|
8 |
+
HF_TOKEN = os.getenv("HF_TOKEN") # Optional: Für private Modelle oder Zugriffsbeschränkungen
|
|
|
|
|
9 |
|
10 |
+
# --- Lade Modell und Tokenizer (explizit auf CPU) ---
|
11 |
+
print(f"Lade Tokenizer: {MODEL_ID}")
|
12 |
+
# Stelle sicher, dass trust_remote_code=True gesetzt ist, da Qwen3 dies oft benötigt
|
13 |
+
tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, trust_remote_code=True, token=HF_TOKEN)
|
14 |
|
15 |
+
if tokenizer.pad_token is None:
|
16 |
+
print("pad_token nicht gesetzt, verwende eos_token als pad_token.")
|
17 |
+
tokenizer.pad_token = tokenizer.eos_token # Wichtig für Batched Inference oder Padding
|
18 |
|
19 |
+
print(f"Lade Modell: {MODEL_ID} auf CPU. Dies kann einige Zeit dauern...")
|
20 |
+
# Versuche, das Modell in bfloat16 zu laden, um RAM zu sparen, wie auf dem Screenshot angedeutet.
|
21 |
+
# Wenn die CPU bfloat16 nicht gut unterstützt, könnte float32 stabiler, aber speicherintensiver sein.
|
22 |
try:
|
23 |
+
model = AutoModelForCausalLM.from_pretrained(
|
24 |
+
MODEL_ID,
|
25 |
+
torch_dtype=torch.bfloat16, # Versuche bfloat16 für geringeren RAM-Bedarf
|
26 |
+
device_map="cpu", # Explizit auf CPU laden
|
27 |
+
trust_remote_code=True,
|
28 |
+
token=HF_TOKEN
|
29 |
+
)
|
30 |
except Exception as e:
|
31 |
+
print(f"Fehler beim Laden mit bfloat16 ({e}), versuche float32...")
|
32 |
+
model = AutoModelForCausalLM.from_pretrained(
|
33 |
+
MODEL_ID,
|
34 |
+
torch_dtype=torch.float32, # Fallback auf float32
|
35 |
+
device_map="cpu",
|
36 |
+
trust_remote_code=True,
|
37 |
+
token=HF_TOKEN
|
38 |
+
)
|
39 |
+
|
40 |
+
model.eval() # In den Evaluationsmodus setzen (wichtig für Inferenz)
|
41 |
+
print("Modell und Tokenizer erfolgreich geladen.")
|
42 |
+
|
43 |
+
# --- Vorhersagefunktion für das ChatInterface ---
|
44 |
+
def predict(message, history):
|
45 |
+
# Formatieren der History und der aktuellen Nachricht für das Modell
|
46 |
+
# Qwen3 verwendet ein spezifisches Chat-Template
|
47 |
+
messages_for_template = []
|
48 |
+
for user_msg, ai_msg in history:
|
49 |
+
messages_for_template.append({"role": "user", "content": user_msg})
|
50 |
+
messages_for_template.append({"role": "assistant", "content": ai_msg})
|
51 |
+
messages_for_template.append({"role": "user", "content": message})
|
52 |
+
|
53 |
+
try:
|
54 |
+
# Anwenden des Chat-Templates
|
55 |
+
prompt = tokenizer.apply_chat_template(
|
56 |
+
messages_for_template,
|
57 |
+
tokenize=False,
|
58 |
+
add_generation_prompt=True # Wichtig für viele Modelle, um die AI-Antwort zu initiieren
|
59 |
)
|
60 |
+
except Exception as e:
|
61 |
+
print(f"Fehler beim Anwenden des Chat-Templates: {e}")
|
62 |
+
# Fallback, falls apply_chat_template Probleme macht (sollte bei Qwen3 aber gehen)
|
63 |
+
prompt_parts = []
|
64 |
+
for turn in messages_for_template:
|
65 |
+
prompt_parts.append(f"<|im_start|>{turn['role']}\n{turn['content']}<|im_end|>")
|
66 |
+
prompt = "\n".join(prompt_parts) + "\n<|im_start|>assistant\n"
|
67 |
|
|
|
|
|
|
|
|
|
|
|
68 |
|
69 |
+
inputs = tokenizer(prompt, return_tensors="pt", padding=True, truncation=True).to("cpu")
|
70 |
|
71 |
+
# Generierungsparameter (kannst du anpassen)
|
72 |
+
generation_kwargs = {
|
73 |
+
"max_new_tokens": 512,
|
74 |
+
"temperature": 0.7,
|
75 |
+
"top_p": 0.9,
|
76 |
+
"top_k": 50,
|
77 |
+
"do_sample": True,
|
78 |
+
"pad_token_id": tokenizer.eos_token_id, # Verhindert Warnungen und Probleme
|
79 |
+
}
|
80 |
|
81 |
+
print("Generiere Antwort...")
|
82 |
+
# Deaktiviere Gradientenberechnung für schnellere Inferenz und weniger Speicher
|
83 |
+
with torch.no_grad():
|
84 |
+
outputs = model.generate(**inputs, **generation_kwargs)
|
85 |
|
86 |
+
# Dekodiere nur die neu generierten Tokens
|
87 |
+
response_ids = outputs[0][inputs.input_ids.shape[-1]:]
|
88 |
+
response = tokenizer.decode(response_ids, skip_special_tokens=True)
|
89 |
+
|
90 |
+
print(f"Antwort: {response}")
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
91 |
|
92 |
+
# Für ChatInterface muss die Antwort als Stream (yield) oder als ganzer String zurückgegeben werden.
|
93 |
+
# Für CPU ist ein Stream nicht sinnvoll, da die Generierung ohnehin blockiert.
|
94 |
+
return response
|
95 |
+
|
96 |
+
# --- Gradio UI ---
|
97 |
+
# Verwende gr.Blocks für mehr Kontrolle über das Layout und Theme
|
98 |
+
with gr.Blocks(theme=gr.themes.Soft(), title="DeepSeek Qwen3 8B (CPU)") as demo:
|
99 |
gr.Markdown(
|
100 |
"""
|
101 |
+
# DeepSeek Qwen3 8B Chat (CPU)
|
102 |
+
Dies ist eine Demo des `deepseek-ai/DeepSeek-R1-0528-Qwen3-8B` Modells, das auf einer CPU läuft.
|
103 |
+
**Achtung:** Antworten können aufgrund der CPU-Inferenz **sehr langsam** sein (mehrere Minuten pro Antwort sind möglich).
|
104 |
+
Bitte habe Geduld.
|
105 |
"""
|
106 |
)
|
107 |
+
# ChatInterface ist ideal für eine ChatGPT-ähnliche UI
|
108 |
+
chatbot_interface = gr.ChatInterface(
|
109 |
+
fn=predict,
|
110 |
+
chatbot=gr.Chatbot(
|
111 |
+
height=600,
|
112 |
+
label="Chat",
|
113 |
+
show_label=False, # Macht es cleaner
|
114 |
+
bubble_full_width=False # ChatGPT-ähnlichere Bubbles
|
115 |
+
),
|
116 |
+
textbox=gr.Textbox(
|
117 |
+
placeholder="Stelle mir eine Frage...",
|
118 |
+
container=False, # Nimmt nicht die volle Breite ein
|
119 |
+
scale=7 # Lässt das Textfeld im Verhältnis zu Buttons wachsen
|
120 |
+
),
|
121 |
+
# title="DeepSeek Qwen3 8B Chat (CPU)", # Titel schon im Markdown oben
|
122 |
+
# description="...", # Beschreibung schon im Markdown oben
|
123 |
+
examples=[
|
124 |
+
["Hallo, wer bist du?"],
|
125 |
+
["Was ist die Hauptstadt von Frankreich?"],
|
126 |
+
["Schreibe ein kurzes Gedicht über KI."]
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
127 |
],
|
128 |
+
retry_btn="Wiederholen",
|
129 |
+
undo_btn="Letzte entfernen",
|
130 |
+
clear_btn="Chat löschen",
|
131 |
+
# submit_btn="Senden" # Standard-Senden-Button ist okay
|
132 |
)
|
133 |
+
gr.Markdown("Modell von [deepseek-ai](https://huggingface.co/deepseek-ai) auf Hugging Face.")
|
134 |
+
|
135 |
|
136 |
+
# --- Starte die App ---
|
137 |
if __name__ == "__main__":
|
138 |
+
# Share=True ist nicht nötig, wenn es auf HF Spaces läuft
|
139 |
+
# In_browser=True öffnet es lokal im Browser, wenn du es lokal testest
|
140 |
+
demo.launch()
|
|
|
|
|
|