Spaces:

tojonatolotra
/

audiototext

Sleeping

App Files Files Community

tojonatolotra commited on 27 days ago

Commit

c940f0b

verified ·

1 Parent(s): 4551503

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -8

app.py CHANGED Viewed

@@ -1,28 +1,45 @@
 import gradio as gr
-from transformers import pipeline
 import torch
 # Charger le modèle audio-to-text
 model_name = "fixie-ai/ultravox-v0_4_1-llama-3_1-8b"
-# Initialiser le pipeline (peut nécessiter des ajustements selon le modèle)
 try:
-    transcriber = pipeline("automatic-speech-recognition", model=model_name, device=0 if torch.cuda.is_available() else -1)
 except Exception as e:
     print(f"Erreur lors du chargement du modèle: {e}")
-    transcriber = None
 def transcribe_audio(audio):
     """
     Fonction pour transcrire l'audio en texte
     """
-    if transcriber is None:
         return "Erreur: Le modèle n'a pas pu être chargé."
     try:
-        # Transcription de l'audio
-        result = transcriber(audio)
-        return result["text"]
     except Exception as e:
         return f"Erreur lors de la transcription: {str(e)}"

 import gradio as gr
+from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
 import torch
+import torchaudio
 # Charger le modèle audio-to-text
 model_name = "fixie-ai/ultravox-v0_4_1-llama-3_1-8b"
+# Initialiser le modèle et le processeur
 try:
+    device = "cuda" if torch.cuda.is_available() else "cpu"
+    processor = AutoProcessor.from_pretrained(model_name)
+    model = AutoModelForSpeechSeq2Seq.from_pretrained(model_name).to(device)
+    print(f"Modèle chargé avec succès sur {device}")
 except Exception as e:
     print(f"Erreur lors du chargement du modèle: {e}")
+    processor = None
+    model = None
 def transcribe_audio(audio):
     """
     Fonction pour transcrire l'audio en texte
     """
+    if model is None or processor is None:
         return "Erreur: Le modèle n'a pas pu être chargé."
     try:
+        device = "cuda" if torch.cuda.is_available() else "cpu"
+        # Charger l'audio
+        waveform, sample_rate = torchaudio.load(audio)
+        # Préparer l'input
+        inputs = processor(waveform.squeeze().numpy(), sampling_rate=sample_rate, return_tensors="pt").to(device)
+        # Générer la transcription
+        with torch.no_grad():
+            generated_ids = model.generate(**inputs)
+        # Décoder le résultat
+        transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
+        return transcription
     except Exception as e:
         return f"Erreur lors de la transcription: {str(e)}"