from huggingface_hub import HfApi from transformers import pipeline from PIL import Image import requests from io import BytesIO # Inicializa el modelo de OCR (Reconocimiento Óptico de Caracteres) ocr_model = pipeline('text-recognition', model='your-model-name') # Inicializa el modelo de TTS (Texto a Voz) tts_model = pipeline('text-to-speech', model='your-model-name') # Carga la imagen desde una URL response = requests.get('https://example.com/your-image.jpg') img = Image.open(BytesIO(response.content)) # Convierte la imagen a texto text = ocr_model(img) # Convierte el texto a audio audio = tts_model(text) # Guarda el audio en un archivo with open('output.wav', 'wb') as f: f.write(audio)