Spaces:

robiro
/

k8o1

Running

App Files Files Community

robiro commited on 6 days ago

Commit

8227d8e

verified ·

1 Parent(s): 5a3f7ee

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -38

app.py CHANGED Viewed

@@ -14,16 +14,14 @@ tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, trust_remote_code=True, toke
 if tokenizer.pad_token is None:
     print("pad_token nicht gesetzt, verwende eos_token als pad_token.")
-    tokenizer.pad_token = tokenizer.eos_token # Wichtig für Batched Inference oder Padding
 print(f"Lade Modell: {MODEL_ID} auf CPU. Dies kann einige Zeit dauern...")
-# Versuche, das Modell in bfloat16 zu laden, um RAM zu sparen, wie auf dem Screenshot angedeutet.
-# Wenn die CPU bfloat16 nicht gut unterstützt, könnte float32 stabiler, aber speicherintensiver sein.
 try:
     model = AutoModelForCausalLM.from_pretrained(
         MODEL_ID,
-        torch_dtype=torch.bfloat16, # Versuche bfloat16 für geringeren RAM-Bedarf
-        device_map="cpu",           # Explizit auf CPU laden
         trust_remote_code=True,
         token=HF_TOKEN
     )
@@ -31,70 +29,57 @@ except Exception as e:
     print(f"Fehler beim Laden mit bfloat16 ({e}), versuche float32...")
     model = AutoModelForCausalLM.from_pretrained(
         MODEL_ID,
-        torch_dtype=torch.float32, # Fallback auf float32
         device_map="cpu",
         trust_remote_code=True,
         token=HF_TOKEN
     )
-model.eval() # In den Evaluationsmodus setzen (wichtig für Inferenz)
 print("Modell und Tokenizer erfolgreich geladen.")
 # --- Vorhersagefunktion für das ChatInterface ---
 def predict(message, history):
-    # Formatieren der History und der aktuellen Nachricht für das Modell
-    # Qwen3 verwendet ein spezifisches Chat-Template
     messages_for_template = []
-    for user_msg, ai_msg in history:
         messages_for_template.append({"role": "user", "content": user_msg})
         messages_for_template.append({"role": "assistant", "content": ai_msg})
     messages_for_template.append({"role": "user", "content": message})
     try:
-        # Anwenden des Chat-Templates
         prompt = tokenizer.apply_chat_template(
             messages_for_template,
             tokenize=False,
-            add_generation_prompt=True # Wichtig für viele Modelle, um die AI-Antwort zu initiieren
         )
     except Exception as e:
         print(f"Fehler beim Anwenden des Chat-Templates: {e}")
-        # Fallback, falls apply_chat_template Probleme macht (sollte bei Qwen3 aber gehen)
         prompt_parts = []
         for turn in messages_for_template:
             prompt_parts.append(f"<|im_start|>{turn['role']}\n{turn['content']}<|im_end|>")
         prompt = "\n".join(prompt_parts) + "\n<|im_start|>assistant\n"
     inputs = tokenizer(prompt, return_tensors="pt", padding=True, truncation=True).to("cpu")
-    # Generierungsparameter (kannst du anpassen)
     generation_kwargs = {
         "max_new_tokens": 512,
         "temperature": 0.7,
         "top_p": 0.9,
         "top_k": 50,
         "do_sample": True,
-        "pad_token_id": tokenizer.eos_token_id, # Verhindert Warnungen und Probleme
     }
     print("Generiere Antwort...")
-    # Deaktiviere Gradientenberechnung für schnellere Inferenz und weniger Speicher
     with torch.no_grad():
         outputs = model.generate(**inputs, **generation_kwargs)
-    # Dekodiere nur die neu generierten Tokens
     response_ids = outputs[0][inputs.input_ids.shape[-1]:]
     response = tokenizer.decode(response_ids, skip_special_tokens=True)
     print(f"Antwort: {response}")
-    # Für ChatInterface muss die Antwort als Stream (yield) oder als ganzer String zurückgegeben werden.
-    # Für CPU ist ein Stream nicht sinnvoll, da die Generierung ohnehin blockiert.
     return response
 # --- Gradio UI ---
-# Verwende gr.Blocks für mehr Kontrolle über das Layout und Theme
 with gr.Blocks(theme=gr.themes.Soft(), title="DeepSeek Qwen3 8B (CPU)") as demo:
     gr.Markdown(
         """
@@ -104,37 +89,38 @@ with gr.Blocks(theme=gr.themes.Soft(), title="DeepSeek Qwen3 8B (CPU)") as demo:
         Bitte habe Geduld.
         """
     )
-    # ChatInterface ist ideal für eine ChatGPT-ähnliche UI
     chatbot_interface = gr.ChatInterface(
         fn=predict,
         chatbot=gr.Chatbot(
             height=600,
             label="Chat",
-            show_label=False, # Macht es cleaner
-            bubble_full_width=False # ChatGPT-ähnlichere Bubbles
         ),
         textbox=gr.Textbox(
             placeholder="Stelle mir eine Frage...",
-            container=False, # Nimmt nicht die volle Breite ein
-            scale=7 # Lässt das Textfeld im Verhältnis zu Buttons wachsen
         ),
-        # title="DeepSeek Qwen3 8B Chat (CPU)", # Titel schon im Markdown oben
-        # description="...", # Beschreibung schon im Markdown oben
         examples=[
             ["Hallo, wer bist du?"],
             ["Was ist die Hauptstadt von Frankreich?"],
             ["Schreibe ein kurzes Gedicht über KI."]
         ],
-        retry_btn="Wiederholen",
-        undo_btn="Letzte entfernen",
-        clear_btn="Chat löschen",
-        # submit_btn="Senden" # Standard-Senden-Button ist okay
     )
     gr.Markdown("Modell von [deepseek-ai](https://huggingface.co/deepseek-ai) auf Hugging Face.")
-# --- Starte die App ---
 if __name__ == "__main__":
-    # Share=True ist nicht nötig, wenn es auf HF Spaces läuft
-    # In_browser=True öffnet es lokal im Browser, wenn du es lokal testest
     demo.launch()

 if tokenizer.pad_token is None:
     print("pad_token nicht gesetzt, verwende eos_token als pad_token.")
+    tokenizer.pad_token = tokenizer.eos_token
 print(f"Lade Modell: {MODEL_ID} auf CPU. Dies kann einige Zeit dauern...")
 try:
     model = AutoModelForCausalLM.from_pretrained(
         MODEL_ID,
+        torch_dtype=torch.bfloat16,
+        device_map="cpu",
         trust_remote_code=True,
         token=HF_TOKEN
     )
     print(f"Fehler beim Laden mit bfloat16 ({e}), versuche float32...")
     model = AutoModelForCausalLM.from_pretrained(
         MODEL_ID,
+        torch_dtype=torch.float32,
         device_map="cpu",
         trust_remote_code=True,
         token=HF_TOKEN
     )
+model.eval()
 print("Modell und Tokenizer erfolgreich geladen.")
 # --- Vorhersagefunktion für das ChatInterface ---
 def predict(message, history):
     messages_for_template = []
+    for user_msg, ai_msg in history: # history ist jetzt eine Liste von Listen/Tupeln
         messages_for_template.append({"role": "user", "content": user_msg})
         messages_for_template.append({"role": "assistant", "content": ai_msg})
     messages_for_template.append({"role": "user", "content": message})
     try:
         prompt = tokenizer.apply_chat_template(
             messages_for_template,
             tokenize=False,
+            add_generation_prompt=True
         )
     except Exception as e:
         print(f"Fehler beim Anwenden des Chat-Templates: {e}")
         prompt_parts = []
         for turn in messages_for_template:
             prompt_parts.append(f"<|im_start|>{turn['role']}\n{turn['content']}<|im_end|>")
         prompt = "\n".join(prompt_parts) + "\n<|im_start|>assistant\n"
     inputs = tokenizer(prompt, return_tensors="pt", padding=True, truncation=True).to("cpu")
     generation_kwargs = {
         "max_new_tokens": 512,
         "temperature": 0.7,
         "top_p": 0.9,
         "top_k": 50,
         "do_sample": True,
+        "pad_token_id": tokenizer.eos_token_id,
     }
     print("Generiere Antwort...")
     with torch.no_grad():
         outputs = model.generate(**inputs, **generation_kwargs)
     response_ids = outputs[0][inputs.input_ids.shape[-1]:]
     response = tokenizer.decode(response_ids, skip_special_tokens=True)
     print(f"Antwort: {response}")
     return response
 # --- Gradio UI ---
 with gr.Blocks(theme=gr.themes.Soft(), title="DeepSeek Qwen3 8B (CPU)") as demo:
     gr.Markdown(
         """
         Bitte habe Geduld.
         """
     )
     chatbot_interface = gr.ChatInterface(
         fn=predict,
         chatbot=gr.Chatbot(
             height=600,
             label="Chat",
+            show_label=False,
+            # bubble_full_width=False, # Entfernt, da veraltet
+            # type="messages" # Wichtig, um die Warnung zu beheben, aber history-Format in predict() muss passen
+                            # Da predict bereits die history als [[user, ai], [user, ai]] erwartet (Standard für ChatInterface),
+                            # lassen wir type hier weg, damit es mit dem Format von predict harmoniert.
+                            # Wenn predict `history` als [{"role": "user", ...}, {"role": "assistant", ...}] erwarten würde,
+                            # dann wäre `type="messages"` hier richtig.
+                            # Da die Warnung sich auf die Standardeinstellung bezieht, die bald "messages" sein wird,
+                            # und unsere predict-Funktion bereits das "tuples"-Format verarbeitet, ist das OK für jetzt.
+                            # Man könnte predict anpassen, um das "messages" Format direkt zu verarbeiten, wenn man type="messages" setzt.
         ),
         textbox=gr.Textbox(
             placeholder="Stelle mir eine Frage...",
+            container=False,
+            scale=7
         ),
         examples=[
             ["Hallo, wer bist du?"],
             ["Was ist die Hauptstadt von Frankreich?"],
             ["Schreibe ein kurzes Gedicht über KI."]
         ],
+        # Entferne die nicht unterstützten Button-Argumente:
+        # retry_btn="Wiederholen",
+        # undo_btn="Letzte entfernen",
+        # clear_btn="Chat löschen",
     )
     gr.Markdown("Modell von [deepseek-ai](https://huggingface.co/deepseek-ai) auf Hugging Face.")
 if __name__ == "__main__":
     demo.launch()