project1

Running

dtkne commited on Mar 31

Commit

a6886bf

verified ·

1 Parent(s): a952e20

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,25 +2,31 @@ import gradio as gr
 import os
 from transformers import pipeline
-# Load ASR (Speech-to-Text) pipeline
 asr = pipeline(task="automatic-speech-recognition", model="distil-whisper/distil-small.en")
 # Load Summarization model
 summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
-# Function to transcribe and summarize
 def transcribe_and_summarize(audio_file):
     if audio_file is None:
         return "Error: No audio file provided.", ""
     try:
-        # Transcribe audio
-        transcription_result = asr(audio_file)
-        transcribed_text = transcription_result['text']
-        # Summarize the transcribed text
-        summary_result = summarizer(transcribed_text, max_length=100, min_length=30, do_sample=False)
-        summarized_text = summary_result[0]['summary_text']
         return transcribed_text, summarized_text

 import os
 from transformers import pipeline
+# Load ASR (Speech-to-Text) pipeline with timestamp handling
 asr = pipeline(task="automatic-speech-recognition", model="distil-whisper/distil-small.en")
 # Load Summarization model
 summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
+# Function to transcribe and summarize audio
 def transcribe_and_summarize(audio_file):
     if audio_file is None:
         return "Error: No audio file provided.", ""
     try:
+        # Transcribe audio (handling long-form audio)
+        transcription_result = asr(audio_file, return_timestamps=True)
+        # Extract transcribed text
+        transcribed_text = " ".join([segment['text'] for segment in transcription_result['chunks']])
+        # Ensure the transcribed text isn't too short for summarization
+        if len(transcribed_text.split()) < 50:
+            summarized_text = "Text too short to summarize."
+        else:
+            # Summarize the transcribed text
+            summary_result = summarizer(transcribed_text, max_length=100, min_length=30, do_sample=False)
+            summarized_text = summary_result[0]['summary_text']
         return transcribed_text, summarized_text