Spaces:

88ggg
/

ggg

Sleeping

App Files Files Community

88ggg commited on 26 days ago

Commit

e8dba54

verified ·

1 Parent(s): e4adaa2

Update app.py

Browse files

Files changed (1) hide show

app.py +59 -39

app.py CHANGED Viewed

@@ -1,68 +1,88 @@
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import gradio as gr
-# 1. Configuración mejorada
-MODEL_NAME = "HuggingFaceH4/zephyr-7b-beta"
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
-# 2. Carga del modelo con seguridad mejorada
 try:
-    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
-    # Ajustamos el dtype según el dispositivo
-    torch_dtype = torch.float16 if DEVICE == "cuda" else torch.float32
     model = AutoModelForCausalLM.from_pretrained(
         MODEL_NAME,
-        torch_dtype=torch_dtype,
         device_map="auto"
     )
-    # Forzamos el modelo al dispositivo correcto
-    model.to(DEVICE)
 except Exception as e:
-    raise gr.Error(f"Error al cargar el modelo: {str(e)}")
-# 3. Función de generación robusta
 def generate_response(message, history):
     try:
-        # Preparamos el input
-        messages = [{"role": "user", "content": message}]
-        prompt = tokenizer.apply_chat_template(
-            messages,
-            tokenize=False,
-            add_generation_prompt=True
-        )
         inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)
-        # Generación con parámetros seguros
-        outputs = model.generate(
-            **inputs,
-            max_new_tokens=256,
-            temperature=0.7,
-            do_sample=True,
-            pad_token_id=tokenizer.eos_token_id
-        )
-        # Decodificamos la respuesta
         response = tokenizer.decode(outputs[0], skip_special_tokens=True)
-        return response.split("assistant\n")[-1].strip()
     except Exception as e:
-        return f"⚠️ Error en la generación: {str(e)}"
-# 4. Interfaz mejorada
-with gr.Blocks(theme=gr.themes.Soft()) as demo:
-    gr.Markdown("## 🚀 Chatbot Gerardo - Versión Estable")
-    gr.ChatInterface(
         fn=generate_response,
-        examples=["Hola", "¿Cómo funciona esto?"],
-        title="Chatbot de Gerardo",
-        description="Asistente IA sin errores de CPU/GPU"
     )
 if __name__ == "__main__":
-    demo.launch()

 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import gradio as gr
+import logging
+# 1. Configuración robusta
+MODEL_NAME = "microsoft/phi-2"  # Modelo liviano y estable
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+# Configurar logging
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+# 2. Carga del modelo mejorada
 try:
+    logger.info("Cargando tokenizer...")
+    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
+    logger.info("Cargando modelo...")
     model = AutoModelForCausalLM.from_pretrained(
         MODEL_NAME,
+        torch_dtype=torch.float32 if DEVICE == "cpu" else torch.float16,
         device_map="auto"
     )
+    # Forzar dispositivo si es necesario
+    if hasattr(model, "device"):
+        logger.info(f"Modelo cargado en: {model.device}")
+    else:
+        model.to(DEVICE)
+        logger.info(f"Modelo movido a: {DEVICE}")
 except Exception as e:
+    logger.error(f"Error de carga: {str(e)}")
+    raise gr.Error(f"Error al iniciar el modelo: {str(e)}")
+# 3. Función de generación a prueba de fallos
 def generate_response(message, history):
     try:
+        logger.info(f"Generando respuesta para: {message}")
+        # Construir prompt manualmente
+        prompt = f"Usuario: {message}\nAsistente:"
         inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)
+        # Configuración de generación
+        generation_config = {
+            "max_new_tokens": 150,
+            "temperature": 0.7,
+            "do_sample": True,
+            "pad_token_id": tokenizer.eos_token_id
+        }
+        # Generación segura
+        with torch.no_grad():
+            outputs = model.generate(**inputs, **generation_config)
         response = tokenizer.decode(outputs[0], skip_special_tokens=True)
+        clean_response = response.split("Asistente:")[-1].strip()
+        logger.info(f"Respuesta generada: {clean_response[:50]}...")
+        return clean_response
     except Exception as e:
+        logger.error(f"Error en generación: {str(e)}")
+        return f"⚠️ Error: {str(e)}"
+# 4. Interfaz reforzada
+with gr.Blocks(title="Chatbot Gerardo HD") as demo:
+    gr.Markdown("""
+    ## 🤖 Chatbot de Gerardo
+    Versión estable sin errores de runtime
+    """)
+    chat_interface = gr.ChatInterface(
         fn=generate_response,
+        examples=["Hola", "¿Qué es IA?"],
+        cache_examples=False
     )
+# 5. Lanzamiento optimizado
 if __name__ == "__main__":
+    demo.launch(
+        server_name="0.0.0.0",
+        server_port=7860,
+        show_error=True
+    )