import gradio as gr
import anthropic
import PyPDF2
import pandas as pd
import numpy as np
import io
import os
import json
import zipfile
import tempfile
from typing import Dict, List, Tuple, Union
import re
from pathlib import Path
import openpyxl
from dataclasses import dataclass
from enum import Enum

# Configuración para HuggingFace
os.environ['GRADIO_ANALYTICS_ENABLED'] = 'False'

# Inicializar cliente Anthropic
client = anthropic.Anthropic()

# Enum para tipos de análisis
class AnalysisType(Enum):
    MATHEMATICAL_MODEL = "mathematical_model"
    DATA_FITTING = "data_fitting"
    UNKNOWN = "unknown"

# Estructura modular para modelos
@dataclass
class MathematicalModel:
    name: str
    equation: str
    parameters: List[str]
    application: str
    sources: List[str]
    category: str

# Sistema de registro de modelos escalable
class ModelRegistry:
    def __init__(self):
        self.models = {}
        self._initialize_default_models()
    
    def register_model(self, model: MathematicalModel):
        """Registra un nuevo modelo matemático"""
        if model.category not in self.models:
            self.models[model.category] = {}
        self.models[model.category][model.name] = model
    
    def get_model(self, category: str, name: str) -> MathematicalModel:
        """Obtiene un modelo específico"""
        return self.models.get(category, {}).get(name)
    
    def get_all_models(self) -> Dict:
        """Retorna todos los modelos registrados"""
        return self.models
    
    def _initialize_default_models(self):
        """Inicializa los modelos por defecto"""
        # Modelos de crecimiento
        self.register_model(MathematicalModel(
            name="Monod",
            equation="μ = μmax × (S / (Ks + S))",
            parameters=["μmax (h⁻¹)", "Ks (g/L)"],
            application="Crecimiento limitado por sustrato único",
            sources=["Cambridge", "MIT", "DTU"],
            category="crecimiento_biomasa"
        ))
        
        self.register_model(MathematicalModel(
            name="Logístico",
            equation="dX/dt = μmax × X × (1 - X/Xmax)",
            parameters=["μmax (h⁻¹)", "Xmax (g/L)"],
            application="Sistemas cerrados batch",
            sources=["Cranfield", "Swansea", "HAL Theses"],
            category="crecimiento_biomasa"
        ))
        
        self.register_model(MathematicalModel(
            name="Gompertz",
            equation="X(t) = Xmax × exp(-exp((μmax × e / Xmax) × (λ - t) + 1))",
            parameters=["λ (h)", "μmax (h⁻¹)", "Xmax (g/L)"],
            application="Crecimiento con fase lag pronunciada",
            sources=["Lund University", "NC State"],
            category="crecimiento_biomasa"
        ))
        
        # Modelos enzimáticos
        self.register_model(MathematicalModel(
            name="Michaelis-Menten",
            equation="v = Vmax × S / (Km + S)",
            parameters=["Vmax", "Km"],
            application="Cinética enzimática básica",
            sources=["Warsaw Univ Tech", "Food Processing"],
            category="consumo_sustrato"
        ))
        
        # Modelos de producto
        self.register_model(MathematicalModel(
            name="Luedeking-Piret",
            equation="dP/dt = α × (dX/dt) + β × X",
            parameters=["α (asociado)", "β (no asociado)"],
            application="Producción mixta asociada/no asociada",
            sources=["Cambridge", "E-Century"],
            category="formacion_producto"
        ))

# Instancia global del registro
model_registry = ModelRegistry()

# Modelos de Claude disponibles
CLAUDE_MODELS = {
    "claude-3-5-sonnet-20241022": {
        "name": "Claude 3.5 Sonnet",
        "description": "Modelo rápido y eficiente",
        "max_tokens": 4000,
        "best_for": "Análisis general"
    },
    "claude-3-opus-20240229": {
        "name": "Claude 3 Opus",
        "description": "Modelo más potente",
        "max_tokens": 4000,
        "best_for": "Análisis complejos"
    },
    "claude-3-haiku-20240307": {
        "name": "Claude 3 Haiku",
        "description": "Modelo más rápido",
        "max_tokens": 4000,
        "best_for": "Análisis rápidos"
    }
}

class FileProcessor:
    """Clase para procesar diferentes tipos de archivos"""
    
    @staticmethod
    def extract_text_from_pdf(pdf_file) -> str:
        """Extrae texto de un archivo PDF"""
        try:
            pdf_reader = PyPDF2.PdfReader(io.BytesIO(pdf_file))
            text = ""
            for page in pdf_reader.pages:
                text += page.extract_text() + "\n"
            return text
        except Exception as e:
            return f"Error al leer PDF: {str(e)}"
    
    @staticmethod
    def read_csv(csv_file) -> pd.DataFrame:
        """Lee archivo CSV"""
        try:
            return pd.read_csv(io.BytesIO(csv_file))
        except Exception as e:
            return None
    
    @staticmethod
    def read_excel(excel_file) -> pd.DataFrame:
        """Lee archivo Excel"""
        try:
            return pd.read_excel(io.BytesIO(excel_file))
        except Exception as e:
            return None
    
    @staticmethod
    def extract_from_zip(zip_file) -> List[Tuple[str, bytes]]:
        """Extrae archivos de un ZIP"""
        files = []
        try:
            with zipfile.ZipFile(io.BytesIO(zip_file), 'r') as zip_ref:
                for file_name in zip_ref.namelist():
                    if not file_name.startswith('__MACOSX'):
                        file_data = zip_ref.read(file_name)
                        files.append((file_name, file_data))
        except Exception as e:
            print(f"Error procesando ZIP: {e}")
        return files

class AIAnalyzer:
    """Clase para análisis con IA"""
    
    def __init__(self, client, model_registry):
        self.client = client
        self.model_registry = model_registry
    
    def detect_analysis_type(self, content: Union[str, pd.DataFrame]) -> AnalysisType:
        """Detecta el tipo de análisis necesario"""
        if isinstance(content, pd.DataFrame):
            # Si es DataFrame, probablemente son datos para ajustar
            return AnalysisType.DATA_FITTING
        
        # Analizar texto para determinar tipo
        prompt = """
        Analiza este contenido y determina si es:
        1. Un artículo científico que describe modelos matemáticos biotecnológicos
        2. Datos experimentales para ajuste de parámetros
        
        Responde solo con: "MODELO" o "DATOS"
        """
        
        try:
            response = self.client.messages.create(
                model="claude-3-haiku-20240307",
                max_tokens=10,
                messages=[{"role": "user", "content": f"{prompt}\n\n{content[:1000]}"}]
            )
            
            result = response.content[0].text.strip().upper()
            if "MODELO" in result:
                return AnalysisType.MATHEMATICAL_MODEL
            elif "DATOS" in result:
                return AnalysisType.DATA_FITTING
            else:
                return AnalysisType.UNKNOWN
                
        except:
            return AnalysisType.UNKNOWN
    
    def analyze_mathematical_article(self, text: str, claude_model: str) -> Dict:
        """Analiza artículo con modelos matemáticos"""
        prompts = {
            "identificar_modelos": """
            Analiza este texto científico e identifica:
            1. Modelos matemáticos biotecnológicos descritos
            2. Ecuaciones específicas
            3. Parámetros mencionados
            4. Aplicaciones biotecnológicas
            5. Microorganismos y procesos
            
            Formato JSON con estructura:
            {
                "modelos": ["nombre1", "nombre2"],
                "ecuaciones": ["eq1", "eq2"],
                "parametros": ["param1", "param2"],
                "aplicaciones": ["app1", "app2"],
                "microorganismos": ["org1", "org2"]
            }
            """,
            
            "recomendar_implementacion": """
            Basado en los modelos identificados, proporciona:
            1. Estrategia de implementación
            2. Consideraciones experimentales
            3. Métodos de validación
            4. Posibles limitaciones
            """
        }
        
        try:
            # Identificar modelos
            response = self.client.messages.create(
                model=claude_model,
                max_tokens=2000,
                messages=[{
                    "role": "user",
                    "content": f"{prompts['identificar_modelos']}\n\nTEXTO:\n{text[:3000]}"
                }]
            )
            
            models_info = response.content[0].text
            
            # Recomendaciones
            response2 = self.client.messages.create(
                model=claude_model,
                max_tokens=2000,
                messages=[{
                    "role": "user",
                    "content": f"{prompts['recomendar_implementacion']}\n\nMODELOS:\n{models_info}"
                }]
            )
            
            return {
                "tipo": "Artículo de Modelos Matemáticos",
                "modelos": models_info,
                "recomendaciones": response2.content[0].text
            }
            
        except Exception as e:
            return {"error": str(e)}
    
    def analyze_fitting_data(self, data: pd.DataFrame, claude_model: str) -> Dict:
        """Analiza datos para ajuste de parámetros"""
        # Preparar resumen de datos
        data_summary = f"""
        Columnas: {list(data.columns)}
        Forma: {data.shape}
        Primeras filas:
        {data.head().to_string()}
        
        Estadísticas:
        {data.describe().to_string()}
        """
        
        prompt = """
        Analiza estos datos experimentales y determina:
        1. Variables independientes y dependientes
        2. Posibles modelos matemáticos aplicables
        3. Método de ajuste recomendado
        4. Parámetros a estimar
        5. Calidad esperada del ajuste
        
        Proporciona código Python para el ajuste.
        """
        
        try:
            response = self.client.messages.create(
                model=claude_model,
                max_tokens=3000,
                messages=[{
                    "role": "user",
                    "content": f"{prompt}\n\nDATOS:\n{data_summary}"
                }]
            )
            
            return {
                "tipo": "Datos para Ajuste",
                "analisis": response.content[0].text,
                "resumen_datos": data_summary
            }
            
        except Exception as e:
            return {"error": str(e)}

def process_files(files, claude_model: str) -> str:
    """Procesa múltiples archivos"""
    processor = FileProcessor()
    analyzer = AIAnalyzer(client, model_registry)
    results = []
    
    for file in files:
        if file is None:
            continue
            
        file_name = file.name if hasattr(file, 'name') else "archivo"
        file_ext = Path(file_name).suffix.lower()
        
        # Leer contenido del archivo
        with open(file.name, 'rb') as f:
            file_content = f.read()
        
        # Procesar según tipo
        if file_ext == '.zip':
            # Extraer y procesar archivos del ZIP
            extracted_files = processor.extract_from_zip(file_content)
            results.append(f"## 📦 Archivo ZIP: {file_name}")
            results.append(f"Contiene {len(extracted_files)} archivos\n")
            
            for name, content in extracted_files:
                sub_ext = Path(name).suffix.lower()
                results.append(f"### 📄 {name}")
                
                if sub_ext == '.pdf':
                    text = processor.extract_text_from_pdf(content)
                    analysis_type = analyzer.detect_analysis_type(text)
                    
                    if analysis_type == AnalysisType.MATHEMATICAL_MODEL:
                        result = analyzer.analyze_mathematical_article(text, claude_model)
                    else:
                        result = {"tipo": "PDF no reconocido", "contenido": text[:500]}
                    
                    results.append(json.dumps(result, indent=2, ensure_ascii=False))
                
                elif sub_ext in ['.csv', '.xlsx', '.xls']:
                    if sub_ext == '.csv':
                        df = processor.read_csv(content)
                    else:
                        df = processor.read_excel(content)
                    
                    if df is not None:
                        result = analyzer.analyze_fitting_data(df, claude_model)
                        results.append(json.dumps(result, indent=2, ensure_ascii=False))
                
                results.append("\n---\n")
        
        elif file_ext == '.pdf':
            text = processor.extract_text_from_pdf(file_content)
            analysis_type = analyzer.detect_analysis_type(text)
            
            results.append(f"## 📄 PDF: {file_name}")
            
            if analysis_type == AnalysisType.MATHEMATICAL_MODEL:
                result = analyzer.analyze_mathematical_article(text, claude_model)
            else:
                result = {"tipo": "PDF - Contenido no identificado", "texto": text[:1000]}
            
            results.append(json.dumps(result, indent=2, ensure_ascii=False))
        
        elif file_ext in ['.csv', '.xlsx', '.xls']:
            results.append(f"## 📊 Archivo de datos: {file_name}")
            
            if file_ext == '.csv':
                df = processor.read_csv(file_content)
            else:
                df = processor.read_excel(file_content)
            
            if df is not None:
                result = analyzer.analyze_fitting_data(df, claude_model)
                results.append(json.dumps(result, indent=2, ensure_ascii=False))
        
        results.append("\n---\n")
    
    return "\n".join(results)

def generate_implementation_code(analysis_results: str) -> str:
    """Genera código de implementación basado en el análisis"""
    code = """
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy.integrate import odeint
from scipy.optimize import curve_fit, differential_evolution
from sklearn.metrics import r2_score, mean_squared_error
import seaborn as sns

# Configuración de visualización
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

class BiotechModelFitter:
    \"\"\"Clase para ajuste de modelos biotecnológicos\"\"\"
    
    def __init__(self):
        self.models = {}
        self.fitted_params = {}
        self.results = {}
    
    def add_model(self, name, func, param_names):
        \"\"\"Registra un nuevo modelo\"\"\"
        self.models[name] = {
            'function': func,
            'parameters': param_names
        }
    
    def fit_model(self, model_name, x_data, y_data, bounds=None):
        \"\"\"Ajusta modelo a datos\"\"\"
        if model_name not in self.models:
            raise ValueError(f"Modelo {model_name} no registrado")
        
        model_func = self.models[model_name]['function']
        
        # Intentar ajuste con curve_fit
        try:
            if bounds:
                popt, pcov = curve_fit(model_func, x_data, y_data, bounds=bounds)
            else:
                popt, pcov = curve_fit(model_func, x_data, y_data)
            
            # Calcular métricas
            y_pred = model_func(x_data, *popt)
            r2 = r2_score(y_data, y_pred)
            rmse = np.sqrt(mean_squared_error(y_data, y_pred))
            
            self.fitted_params[model_name] = popt
            self.results[model_name] = {
                'parameters': dict(zip(self.models[model_name]['parameters'], popt)),
                'covariance': pcov,
                'r2': r2,
                'rmse': rmse
            }
            
            return True
            
        except Exception as e:
            print(f"Error en ajuste: {e}")
            # Intentar con optimización global
            return self._global_fit(model_name, x_data, y_data, bounds)
    
    def _global_fit(self, model_name, x_data, y_data, bounds):
        \"\"\"Ajuste global con differential evolution\"\"\"
        model_func = self.models[model_name]['function']
        
        def objective(params):
            y_pred = model_func(x_data, *params)
            return np.sum((y_data - y_pred)**2)
        
        if not bounds:
            # Bounds por defecto
            n_params = len(self.models[model_name]['parameters'])
            bounds = [(0, 100)] * n_params
        
        result = differential_evolution(objective, bounds)
        
        if result.success:
            popt = result.x
            y_pred = model_func(x_data, *popt)
            r2 = r2_score(y_data, y_pred)
            rmse = np.sqrt(mean_squared_error(y_data, y_pred))
            
            self.fitted_params[model_name] = popt
            self.results[model_name] = {
                'parameters': dict(zip(self.models[model_name]['parameters'], popt)),
                'r2': r2,
                'rmse': rmse,
                'optimization_result': result
            }
            
            return True
        
        return False
    
    def plot_results(self, x_data, y_data, models_to_plot=None):
        \"\"\"Visualiza resultados del ajuste\"\"\"
        plt.figure(figsize=(12, 8))
        
        # Datos experimentales
        plt.scatter(x_data, y_data, label='Datos experimentales', 
                   s=50, alpha=0.7, edgecolors='black')
        
        # Modelos ajustados
        if models_to_plot is None:
            models_to_plot = self.fitted_params.keys()
        
        x_smooth = np.linspace(x_data.min(), x_data.max(), 300)
        
        for model_name in models_to_plot:
            if model_name in self.fitted_params:
                model_func = self.models[model_name]['function']
                params = self.fitted_params[model_name]
                y_smooth = model_func(x_smooth, *params)
                
                r2 = self.results[model_name]['r2']
                plt.plot(x_smooth, y_smooth, 
                        label=f'{model_name} (R² = {r2:.4f})', 
                        linewidth=2.5)
        
        plt.xlabel('Variable Independiente', fontsize=12)
        plt.ylabel('Variable Dependiente', fontsize=12)
        plt.title('Ajuste de Modelos Biotecnológicos', fontsize=14, fontweight='bold')
        plt.legend(loc='best', frameon=True, shadow=True)
        plt.grid(True, alpha=0.3)
        plt.tight_layout()
        
        return plt.gcf()
    
    def generate_report(self):
        \"\"\"Genera reporte de resultados\"\"\"
        report = "# Reporte de Ajuste de Modelos\\n\\n"
        
        for model_name, results in self.results.items():
            report += f"## Modelo: {model_name}\\n\\n"
            report += f"### Parámetros ajustados:\\n"
            
            for param, value in results['parameters'].items():
                report += f"- **{param}**: {value:.6f}\\n"
            
            report += f"\\n### Métricas de ajuste:\\n"
            report += f"- **R²**: {results['r2']:.6f}\\n"
            report += f"- **RMSE**: {results['rmse']:.6f}\\n\\n"
        
        return report

# Modelos predefinidos comunes
def monod_model(S, mu_max, Ks):
    return mu_max * S / (Ks + S)

def logistic_growth(t, K, r, t0):
    return K / (1 + np.exp(-r * (t - t0)))

def gompertz_model(t, A, mu, lambda_param):
    return A * np.exp(-np.exp(mu * np.e / A * (lambda_param - t) + 1))

def michaelis_menten(S, Vmax, Km):
    return Vmax * S / (Km + S)

# Ejemplo de uso
if __name__ == "__main__":
    # Crear instancia del ajustador
    fitter = BiotechModelFitter()
    
    # Registrar modelos
    fitter.add_model('Monod', monod_model, ['mu_max', 'Ks'])
    fitter.add_model('Michaelis-Menten', michaelis_menten, ['Vmax', 'Km'])
    fitter.add_model('Logistic', logistic_growth, ['K', 'r', 't0'])
    
    print("Sistema de ajuste listo para usar!")
    print("Carga tus datos y utiliza fitter.fit_model()")
"""
    
    return code

# Interfaz Gradio optimizada para HuggingFace
def create_interface():
    with gr.Blocks(
        title="Analizador Inteligente de Modelos Biotecnológicos",
        theme=gr.themes.Soft(),
        css="""
        .gradio-container {
            font-family: 'Arial', sans-serif;
        }
        """
    ) as demo:
        
        gr.Markdown("""
        # 🧬 Analizador Inteligente de Modelos Biotecnológicos
        
        ### 🎯 Capacidades:
        - **Detección automática** del tipo de documento (artículo científico vs datos experimentales)
        - **Análisis de PDFs** con modelos matemáticos biotecnológicos
        - **Procesamiento de datos** CSV/Excel para ajuste de parámetros
        - **Soporte para múltiples archivos** y archivos ZIP
        - **Generación de código** Python para implementación
        
        ### 📁 Tipos de archivo soportados:
        - PDF (artículos científicos o reportes de datos)
        - CSV/Excel (datos experimentales)
        - ZIP (múltiples archivos)
        """)
        
        with gr.Row():
            with gr.Column(scale=1):
                files_input = gr.File(
                    label="📁 Subir archivos",
                    file_count="multiple",
                    file_types=[".pdf", ".csv", ".xlsx", ".xls", ".zip"],
                    type="filepath"
                )
                
                model_selector = gr.Dropdown(
                    choices=list(CLAUDE_MODELS.keys()),
                    value="claude-3-5-sonnet-20241022",
                    label="🤖 Modelo Claude",
                    info="Selecciona el modelo de IA"
                )
                
                analyze_btn = gr.Button(
                    "🚀 Analizar",
                    variant="primary",
                    size="lg"
                )
                
                # Información del modelo
                model_info = gr.Markdown()
                
                def update_model_info(model):
                    info = CLAUDE_MODELS[model]
                    return f"""
                    **{info['name']}**
                    
                    {info['description']}
                    
                    *Mejor para: {info['best_for']}*
                    """
                
                model_selector.change(
                    update_model_info,
                    inputs=[model_selector],
                    outputs=[model_info]
                )
            
            with gr.Column(scale=2):
                analysis_output = gr.Markdown(
                    label="📊 Resultados del Análisis"
                )
                
                code_output = gr.Code(
                    label="💻 Código de Implementación",
                    language="python",
                    interactive=True
                )
        
        # Ejemplos
        gr.Examples(
            examples=[
                [["examples/growth_kinetics.pdf"]],
                [["examples/experimental_data.csv"]],
                [["examples/multiple_files.zip"]]
            ],
            inputs=[files_input],
            label="📚 Ejemplos"
        )
        
        # Footer
        gr.Markdown("""
        ---
        ### 🔧 Características técnicas:
        - **Base de modelos escalable**: Fácil adición de nuevos modelos matemáticos
        - **Análisis con IA**: Detección automática del contexto y tipo de análisis
        - **Optimizado para HuggingFace**: Configuración lista para deployment
        - **Código modular**: Arquitectura flexible y mantenible
        
        ### 📖 Instrucciones:
        1. Sube uno o varios archivos (PDF, CSV, Excel o ZIP)
        2. El sistema detectará automáticamente el tipo de análisis necesario
        3. Revisa los resultados y el código generado
        4. Copia el código para tu implementación
        """)
        
        # Eventos
        analyze_btn.click(
            fn=lambda files, model: (
                process_files(files, model) if files else "Por favor sube archivos para analizar",
                generate_implementation_code("") if files else ""
            ),
            inputs=[files_input, model_selector],
            outputs=[analysis_output, code_output]
        )
        
        # Cargar info inicial del modelo
        demo.load(
            fn=lambda: update_model_info("claude-3-5-sonnet-20241022"),
            outputs=[model_info]
        )
    
    return demo

# Función principal para HuggingFace Spaces
def main():
    if not os.getenv("ANTHROPIC_API_KEY"):
        print("⚠️ Configura ANTHROPIC_API_KEY en los secretos de HuggingFace Space")
        return gr.Interface(
            fn=lambda x: "Por favor configura ANTHROPIC_API_KEY en los secretos del Space",
            inputs=gr.Textbox(),
            outputs=gr.Textbox(),
            title="Error de Configuración"
        )
    
    return create_interface()

# Para ejecución local
if __name__ == "__main__":
    demo = main()
    if demo:
        demo.launch(
            server_name="0.0.0.0",
            server_port=7860,
            share=False
        )