Spaces:

88ggg
/

ggg

Sleeping

App Files Files Community

88ggg commited on 25 days ago

Commit

ca1817d

verified ·

1 Parent(s): e8dba54

Update app.py

Browse files

Files changed (1) hide show

app.py +42 -61

app.py CHANGED Viewed

@@ -1,88 +1,69 @@
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import gradio as gr
-import logging
-# 1. Configuración robusta
-MODEL_NAME = "microsoft/phi-2"  # Modelo liviano y estable
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
-# Configurar logging
-logging.basicConfig(level=logging.INFO)
-logger = logging.getLogger(__name__)
-# 2. Carga del modelo mejorada
 try:
-    logger.info("Cargando tokenizer...")
-    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
-    logger.info("Cargando modelo...")
     model = AutoModelForCausalLM.from_pretrained(
         MODEL_NAME,
-        torch_dtype=torch.float32 if DEVICE == "cpu" else torch.float16,
-        device_map="auto"
     )
-    # Forzar dispositivo si es necesario
-    if hasattr(model, "device"):
-        logger.info(f"Modelo cargado en: {model.device}")
-    else:
-        model.to(DEVICE)
-        logger.info(f"Modelo movido a: {DEVICE}")
 except Exception as e:
-    logger.error(f"Error de carga: {str(e)}")
-    raise gr.Error(f"Error al iniciar el modelo: {str(e)}")
-# 3. Función de generación a prueba de fallos
 def generate_response(message, history):
     try:
-        logger.info(f"Generando respuesta para: {message}")
-        # Construir prompt manualmente
-        prompt = f"Usuario: {message}\nAsistente:"
         inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)
-        # Configuración de generación
-        generation_config = {
-            "max_new_tokens": 150,
-            "temperature": 0.7,
-            "do_sample": True,
-            "pad_token_id": tokenizer.eos_token_id
-        }
-        # Generación segura
-        with torch.no_grad():
-            outputs = model.generate(**inputs, **generation_config)
         response = tokenizer.decode(outputs[0], skip_special_tokens=True)
-        clean_response = response.split("Asistente:")[-1].strip()
-        logger.info(f"Respuesta generada: {clean_response[:50]}...")
-        return clean_response
     except Exception as e:
-        logger.error(f"Error en generación: {str(e)}")
-        return f"⚠️ Error: {str(e)}"
-# 4. Interfaz reforzada
-with gr.Blocks(title="Chatbot Gerardo HD") as demo:
-    gr.Markdown("""
-    ## 🤖 Chatbot de Gerardo
-    Versión estable sin errores de runtime
-    """)
-    chat_interface = gr.ChatInterface(
         fn=generate_response,
-        examples=["Hola", "¿Qué es IA?"],
         cache_examples=False
     )
-# 5. Lanzamiento optimizado
 if __name__ == "__main__":
-    demo.launch(
-        server_name="0.0.0.0",
-        server_port=7860,
-        show_error=True
-    )

 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import gradio as gr
+import warnings
+# 1. Configuración a prueba de errores
+MODEL_NAME = "HuggingFaceH4/zephyr-7b-beta"  # Modelo optimizado para Spaces
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+# 2. Carga segura del modelo
 try:
+    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
     model = AutoModelForCausalLM.from_pretrained(
         MODEL_NAME,
+        torch_dtype=torch.float16,
+        device_map="auto",
+        low_cpu_mem_usage=True
     )
+    if DEVICE == "cuda":
+        model = model.to(DEVICE)
 except Exception as e:
+    raise gr.Error(f"Error inicialización: {str(e)}")
+# 3. Función de chat mejorada
 def generate_response(message, history):
     try:
+        # Limpieza de memoria
+        if DEVICE == "cuda":
+            torch.cuda.empty_cache()
+        # Formateo del prompt
+        messages = [{"role": "user", "content": message}]
+        prompt = tokenizer.apply_chat_template(
+            messages,
+            tokenize=False,
+            add_generation_prompt=True
+        )
+        # Generación con parámetros seguros
         inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)
+        outputs = model.generate(
+            **inputs,
+            max_new_tokens=256,
+            temperature=0.7,
+            do_sample=True,
+            pad_token_id=tokenizer.eos_token_id
+        )
+        # Decodificación segura
         response = tokenizer.decode(outputs[0], skip_special_tokens=True)
+        return response.split("assistant\n")[-1].strip()
     except Exception as e:
+        warnings.warn(str(e))
+        return f"Error: {str(e)}"
+# 4. Interfaz a prueba de fallos
+with gr.Blocks(theme=gr.themes.Soft()) as demo:
+    gr.Markdown("## 🤖 Chatbot Gerardo - Versión Estable")
+    chatbot = gr.ChatInterface(
         fn=generate_response,
+        examples=["Hola", "¿Cómo estás?"],
+        title="Chatbot Personalizado",
+        description="Asistente IA creado por Gerardo",
         cache_examples=False
     )
 if __name__ == "__main__":
+    demo.launch(server_name="0.0.0.0", server_port=7860)