robiro commited on
Commit
5a3f7ee
·
verified ·
1 Parent(s): 770631d

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +117 -151
app.py CHANGED
@@ -1,174 +1,140 @@
1
  import gradio as gr
2
  import torch
3
- from diffusers import StableDiffusionPipeline
4
- from PIL import Image
5
- import time # Um die Generierungszeit zu messen
6
 
7
- # --- Globale Konfiguration und Modellladung ---
8
- # Verwende das Modell aus deinem Textausschnitt
9
- MODEL_ID = "sd-legacy/stable-diffusion-v1-5"
10
- DEVICE = "cpu" # Explizit CPU verwenden
11
- print(f"Verwende Gerät: {DEVICE}")
12
 
13
- # Lade das Modell nur einmal beim Start der App
14
- # Für CPU: torch_dtype=torch.float32
15
- dtype = torch.float32
 
16
 
17
- print(f"Lade Modell '{MODEL_ID}' für CPU-Nutzung... Dies kann einige Minuten dauern und benötigt viel RAM.")
18
- print("Stelle sicher, dass du eine stabile Internetverbindung hast.")
 
19
 
20
- pipe = None # Initialisiere pipe als None
 
 
21
  try:
22
- pipe = StableDiffusionPipeline.from_pretrained(MODEL_ID, torch_dtype=dtype)
23
- pipe = pipe.to(DEVICE) # Auf CPU verschieben
24
- print("Modell erfolgreich geladen!")
 
 
 
 
25
  except Exception as e:
26
- print(f"Fehler beim Laden des Modells: {e}")
27
- print("Mögliche Ursachen:")
28
- print("- Keine Internetverbindung oder Hugging Face Hub nicht erreichbar.")
29
- print("- Nicht genügend RAM verfügbar. Versuche, andere speicherintensive Anwendungen zu schließen.")
30
- print("- Falsche Modell-ID (sollte hier aber korrekt sein).")
31
- # pipe bleibt None, was in generate_image abgefangen wird
32
-
33
- # --- Bildgenerierungsfunktion ---
34
- def generate_image(
35
- prompt: str,
36
- negative_prompt: str = "",
37
- num_inference_steps: int = 20, # Reduziert für schnellere CPU-Tests, erhöhe für bessere Qualität
38
- guidance_scale: float = 7.5,
39
- height: int = 512, # Standardauflösung für SD v1.5
40
- width: int = 512, # Standardauflösung für SD v1.5
41
- seed: int = -1 # -1 für zufälligen Seed
42
- ) -> Image.Image:
43
- """
44
- Generiert ein Bild basierend auf dem Prompt und anderen Parametern.
45
- """
46
- if pipe is None:
47
- raise gr.Error(
48
- "Modell konnte nicht geladen werden. Bitte überprüfe die Konsolenausgabe "
49
- "beim Start der App und starte die App ggf. neu, nachdem die Probleme behoben wurden."
 
 
 
 
50
  )
 
 
 
 
 
 
 
51
 
52
- print(f"\nStarte Bildgenerierung auf CPU für Prompt: '{prompt}'")
53
- print(f" Negative Prompt: '{negative_prompt}'")
54
- print(f" Schritte: {num_inference_steps}, Guidance: {guidance_scale}")
55
- print(f" Dimensionen: {width}x{height}, Seed: {seed}")
56
- print(" Dies kann auf der CPU einige Minuten dauern...")
57
 
58
- start_time = time.time()
59
 
60
- # Seed Handling
61
- generator = None
62
- if seed != -1 and seed is not None: # Stelle sicher, dass seed nicht None ist
63
- generator = torch.Generator(device=DEVICE).manual_seed(int(seed))
64
- else: # Zufälliger Seed
65
- # Generiere einen zufälligen Seed, um ihn später ggf. anzuzeigen oder zu verwenden
66
- current_seed = torch.seed()
67
- generator = torch.Generator(device=DEVICE).manual_seed(current_seed)
68
- print(f" Verwende zufälligen Seed: {current_seed}")
69
 
 
 
 
 
70
 
71
- try:
72
- # torch.inference_mode() ist gut für geringeren Speicherverbrauch und Geschwindigkeit
73
- with torch.inference_mode():
74
- result = pipe(
75
- prompt,
76
- negative_prompt=negative_prompt if negative_prompt else None,
77
- num_inference_steps=int(num_inference_steps),
78
- guidance_scale=guidance_scale,
79
- height=int(height),
80
- width=int(width),
81
- generator=generator
82
- )
83
- image = result.images[0]
84
- end_time = time.time()
85
- duration = end_time - start_time
86
- print(f"Bild erfolgreich generiert in {duration:.2f} Sekunden.")
87
- return image
88
- except Exception as e:
89
- print(f"Fehler bei der Bildgenerierung: {e}")
90
- raise gr.Error(f"Fehler bei der Bildgenerierung auf CPU: {e}")
91
 
92
- # --- Gradio Interface Definition ---
93
- with gr.Blocks(theme=gr.themes.Soft()) as app:
 
 
 
 
 
94
  gr.Markdown(
95
  """
96
- # 🖼️ CPU Bildgenerator mit Stable Diffusion v1.5
97
- Gib einen Text-Prompt ein, um ein Bild zu generieren.
98
- **Achtung:** Die Generierung auf der **CPU ist langsam** und kann mehrere Minuten pro Bild dauern!
99
- Das Laden des Modells beim ersten Start benötigt ebenfalls Zeit und RAM.
100
  """
101
  )
102
-
103
- with gr.Row():
104
- with gr.Column(scale=2):
105
- prompt_input = gr.Textbox(
106
- label="Prompt",
107
- placeholder="z.B. Ein fotorealistisches Bild einer Katze, die einen Hut trägt",
108
- lines=3
109
- )
110
- negative_prompt_input = gr.Textbox(
111
- label="Negativer Prompt (was vermieden werden soll)",
112
- placeholder="z.B. schlecht gezeichnet, unscharf, Text, Wasserzeichen, mutierte Hände",
113
- lines=2
114
- )
115
- with gr.Row():
116
- # Reduzierte Standard-Schritte für CPU, da es sonst zu lange dauert
117
- steps_slider = gr.Slider(
118
- minimum=5, maximum=50, value=20, step=1,
119
- label="Inferenzschritte (weniger = schneller, aber ggf. schlechtere Qualität)"
120
- )
121
- guidance_slider = gr.Slider(
122
- minimum=1, maximum=20, value=7.5, step=0.1, label="Guidance Scale (CFG)"
123
- )
124
- with gr.Row():
125
- # Standardauflösung für v1.5 ist 512x512. Kleinere Auflösungen sind schneller auf CPU.
126
- height_slider = gr.Slider(
127
- minimum=256, maximum=512, value=512, step=64, label="Höhe"
128
- )
129
- width_slider = gr.Slider(
130
- minimum=256, maximum=512, value=512, step=64, label="Breite"
131
- )
132
- seed_input = gr.Number(
133
- label="Seed (-1 oder leer für zufällig)", value=-1, precision=0
134
- )
135
- generate_button = gr.Button("Bild generieren (langsam auf CPU!)", variant="primary")
136
-
137
- with gr.Column(scale=1):
138
- image_output = gr.Image(label="Generiertes Bild", type="pil")
139
- gr.Markdown("### Beispiel-Prompts:")
140
- gr.Examples(
141
- examples=[
142
- ["Ein Astronaut reitet ein Pferd auf dem Mars, digitale Kunst", "", 20, 7.5, 512, 512, -1],
143
- ["Ein impressionistisches Gemälde eines Sonnenuntergangs über einem Lavendelfeld", "Menschen, Gebäude", 15, 8.0, 512, 512, -1],
144
- ["Ein niedlicher Corgi-Hund als Pixel-Art-Charakter", "fotorealistisch", 25, 7.0, 512, 512, 12345],
145
- ],
146
- inputs=[prompt_input, negative_prompt_input, steps_slider, guidance_slider, height_slider, width_slider, seed_input],
147
- outputs=image_output,
148
- fn=generate_image,
149
- cache_examples=False # CPU-Generierung ist zu langsam zum Cachen während des Tests
150
- )
151
-
152
- generate_button.click(
153
- fn=generate_image,
154
- inputs=[
155
- prompt_input,
156
- negative_prompt_input,
157
- steps_slider,
158
- guidance_slider,
159
- height_slider,
160
- width_slider,
161
- seed_input
162
  ],
163
- outputs=image_output,
164
- api_name="generate_image_cpu"
 
 
165
  )
 
 
166
 
167
- # --- App starten ---
168
  if __name__ == "__main__":
169
- if pipe is None:
170
- print("\nDas Modell konnte nicht geladen werden. Die Gradio-App wird nicht gestartet.")
171
- print("Bitte behebe die in der Konsole angezeigten Fehler und versuche es erneut.")
172
- else:
173
- print("\nStarte Gradio App. Öffne die angezeigte URL in deinem Browser.")
174
- app.launch(share=False) # share=False für lokale Nutzung
 
1
  import gradio as gr
2
  import torch
3
+ from transformers import AutoModelForCausalLM, AutoTokenizer
4
+ import os
 
5
 
6
+ # --- Konfiguration ---
7
+ MODEL_ID = "deepseek-ai/DeepSeek-R1-0528-Qwen3-8B"
8
+ HF_TOKEN = os.getenv("HF_TOKEN") # Optional: Für private Modelle oder Zugriffsbeschränkungen
 
 
9
 
10
+ # --- Lade Modell und Tokenizer (explizit auf CPU) ---
11
+ print(f"Lade Tokenizer: {MODEL_ID}")
12
+ # Stelle sicher, dass trust_remote_code=True gesetzt ist, da Qwen3 dies oft benötigt
13
+ tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, trust_remote_code=True, token=HF_TOKEN)
14
 
15
+ if tokenizer.pad_token is None:
16
+ print("pad_token nicht gesetzt, verwende eos_token als pad_token.")
17
+ tokenizer.pad_token = tokenizer.eos_token # Wichtig für Batched Inference oder Padding
18
 
19
+ print(f"Lade Modell: {MODEL_ID} auf CPU. Dies kann einige Zeit dauern...")
20
+ # Versuche, das Modell in bfloat16 zu laden, um RAM zu sparen, wie auf dem Screenshot angedeutet.
21
+ # Wenn die CPU bfloat16 nicht gut unterstützt, könnte float32 stabiler, aber speicherintensiver sein.
22
  try:
23
+ model = AutoModelForCausalLM.from_pretrained(
24
+ MODEL_ID,
25
+ torch_dtype=torch.bfloat16, # Versuche bfloat16 für geringeren RAM-Bedarf
26
+ device_map="cpu", # Explizit auf CPU laden
27
+ trust_remote_code=True,
28
+ token=HF_TOKEN
29
+ )
30
  except Exception as e:
31
+ print(f"Fehler beim Laden mit bfloat16 ({e}), versuche float32...")
32
+ model = AutoModelForCausalLM.from_pretrained(
33
+ MODEL_ID,
34
+ torch_dtype=torch.float32, # Fallback auf float32
35
+ device_map="cpu",
36
+ trust_remote_code=True,
37
+ token=HF_TOKEN
38
+ )
39
+
40
+ model.eval() # In den Evaluationsmodus setzen (wichtig für Inferenz)
41
+ print("Modell und Tokenizer erfolgreich geladen.")
42
+
43
+ # --- Vorhersagefunktion für das ChatInterface ---
44
+ def predict(message, history):
45
+ # Formatieren der History und der aktuellen Nachricht für das Modell
46
+ # Qwen3 verwendet ein spezifisches Chat-Template
47
+ messages_for_template = []
48
+ for user_msg, ai_msg in history:
49
+ messages_for_template.append({"role": "user", "content": user_msg})
50
+ messages_for_template.append({"role": "assistant", "content": ai_msg})
51
+ messages_for_template.append({"role": "user", "content": message})
52
+
53
+ try:
54
+ # Anwenden des Chat-Templates
55
+ prompt = tokenizer.apply_chat_template(
56
+ messages_for_template,
57
+ tokenize=False,
58
+ add_generation_prompt=True # Wichtig für viele Modelle, um die AI-Antwort zu initiieren
59
  )
60
+ except Exception as e:
61
+ print(f"Fehler beim Anwenden des Chat-Templates: {e}")
62
+ # Fallback, falls apply_chat_template Probleme macht (sollte bei Qwen3 aber gehen)
63
+ prompt_parts = []
64
+ for turn in messages_for_template:
65
+ prompt_parts.append(f"<|im_start|>{turn['role']}\n{turn['content']}<|im_end|>")
66
+ prompt = "\n".join(prompt_parts) + "\n<|im_start|>assistant\n"
67
 
 
 
 
 
 
68
 
69
+ inputs = tokenizer(prompt, return_tensors="pt", padding=True, truncation=True).to("cpu")
70
 
71
+ # Generierungsparameter (kannst du anpassen)
72
+ generation_kwargs = {
73
+ "max_new_tokens": 512,
74
+ "temperature": 0.7,
75
+ "top_p": 0.9,
76
+ "top_k": 50,
77
+ "do_sample": True,
78
+ "pad_token_id": tokenizer.eos_token_id, # Verhindert Warnungen und Probleme
79
+ }
80
 
81
+ print("Generiere Antwort...")
82
+ # Deaktiviere Gradientenberechnung für schnellere Inferenz und weniger Speicher
83
+ with torch.no_grad():
84
+ outputs = model.generate(**inputs, **generation_kwargs)
85
 
86
+ # Dekodiere nur die neu generierten Tokens
87
+ response_ids = outputs[0][inputs.input_ids.shape[-1]:]
88
+ response = tokenizer.decode(response_ids, skip_special_tokens=True)
89
+
90
+ print(f"Antwort: {response}")
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
91
 
92
+ # Für ChatInterface muss die Antwort als Stream (yield) oder als ganzer String zurückgegeben werden.
93
+ # Für CPU ist ein Stream nicht sinnvoll, da die Generierung ohnehin blockiert.
94
+ return response
95
+
96
+ # --- Gradio UI ---
97
+ # Verwende gr.Blocks für mehr Kontrolle über das Layout und Theme
98
+ with gr.Blocks(theme=gr.themes.Soft(), title="DeepSeek Qwen3 8B (CPU)") as demo:
99
  gr.Markdown(
100
  """
101
+ # DeepSeek Qwen3 8B Chat (CPU)
102
+ Dies ist eine Demo des `deepseek-ai/DeepSeek-R1-0528-Qwen3-8B` Modells, das auf einer CPU läuft.
103
+ **Achtung:** Antworten können aufgrund der CPU-Inferenz **sehr langsam** sein (mehrere Minuten pro Antwort sind möglich).
104
+ Bitte habe Geduld.
105
  """
106
  )
107
+ # ChatInterface ist ideal für eine ChatGPT-ähnliche UI
108
+ chatbot_interface = gr.ChatInterface(
109
+ fn=predict,
110
+ chatbot=gr.Chatbot(
111
+ height=600,
112
+ label="Chat",
113
+ show_label=False, # Macht es cleaner
114
+ bubble_full_width=False # ChatGPT-ähnlichere Bubbles
115
+ ),
116
+ textbox=gr.Textbox(
117
+ placeholder="Stelle mir eine Frage...",
118
+ container=False, # Nimmt nicht die volle Breite ein
119
+ scale=7 # Lässt das Textfeld im Verhältnis zu Buttons wachsen
120
+ ),
121
+ # title="DeepSeek Qwen3 8B Chat (CPU)", # Titel schon im Markdown oben
122
+ # description="...", # Beschreibung schon im Markdown oben
123
+ examples=[
124
+ ["Hallo, wer bist du?"],
125
+ ["Was ist die Hauptstadt von Frankreich?"],
126
+ ["Schreibe ein kurzes Gedicht über KI."]
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
127
  ],
128
+ retry_btn="Wiederholen",
129
+ undo_btn="Letzte entfernen",
130
+ clear_btn="Chat löschen",
131
+ # submit_btn="Senden" # Standard-Senden-Button ist okay
132
  )
133
+ gr.Markdown("Modell von [deepseek-ai](https://huggingface.co/deepseek-ai) auf Hugging Face.")
134
+
135
 
136
+ # --- Starte die App ---
137
  if __name__ == "__main__":
138
+ # Share=True ist nicht nötig, wenn es auf HF Spaces läuft
139
+ # In_browser=True öffnet es lokal im Browser, wenn du es lokal testest
140
+ demo.launch()