project1

Running

App Files Files Community

dtkne commited on Mar 31

Commit

b51711d

verified ·

1 Parent(s): a6886bf

Update app.py

Browse files

Files changed (1) hide show

app.py +55 -43

app.py CHANGED Viewed

@@ -1,50 +1,62 @@
-import gradio as gr
 import os
 from transformers import pipeline
-# Load ASR (Speech-to-Text) pipeline with timestamp handling
 asr = pipeline(task="automatic-speech-recognition", model="distil-whisper/distil-small.en")
-# Load Summarization model
 summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
-# Function to transcribe and summarize audio
-def transcribe_and_summarize(audio_file):
-    if audio_file is None:
-        return "Error: No audio file provided.", ""
-    try:
-        # Transcribe audio (handling long-form audio)
-        transcription_result = asr(audio_file, return_timestamps=True)
-        # Extract transcribed text
-        transcribed_text = " ".join([segment['text'] for segment in transcription_result['chunks']])
-        # Ensure the transcribed text isn't too short for summarization
-        if len(transcribed_text.split()) < 50:
-            summarized_text = "Text too short to summarize."
-        else:
-            # Summarize the transcribed text
-            summary_result = summarizer(transcribed_text, max_length=100, min_length=30, do_sample=False)
-            summarized_text = summary_result[0]['summary_text']
-        return transcribed_text, summarized_text
-    except Exception as e:
-        return f"Error: {str(e)}", ""
-# Create Gradio interface
-iface = gr.Interface(
-    fn=transcribe_and_summarize,
-    inputs=gr.Audio(type="filepath"),  # Accepts an audio file
-    outputs=[
-        gr.Textbox(label="Transcribed Text"),
-        gr.Textbox(label="Summarized Text")
-    ]
-)
-# Get port safely (default to 7860 if not set)
-port = int(os.environ.get('PORT1', 7860))
-# Launch Gradio app
-iface.launch(share=True, server_port=port)

+!pip install pytubefix moviepy transformers gradio torch
 import os
+import torch
+from pytubefix import YouTube
+from moviepy.editor import VideoFileClip
 from transformers import pipeline
+# ---- STEP 1: Download YouTube Video ----
+url = "https://www.youtube.com/watch?v=VgxnyKnB3qc&ab"
+yt = YouTube(url)
+title = yt.title
+print(f"Downloading: {title}")
+video_stream = yt.streams.get_highest_resolution()
+video_path = f"/content/{title}.mp4"
+video_stream.download(filename=video_path)
+print(f"Video saved as: {video_path}")
+# ---- STEP 2: Extract Audio from Video ----
+output_audio = f"/content/{title}.wav"
+video = VideoFileClip(video_path)
+video.audio.write_audiofile(output_audio)
+print(f"Audio extracted: {output_audio}")
+# ---- STEP 3: Transcribe Audio ----
 asr = pipeline(task="automatic-speech-recognition", model="distil-whisper/distil-small.en")
+def transcribe_audio(audio_file):
+    print("Transcribing audio...")
+    transcription_result = asr(audio_file)
+    transcribed_text = transcription_result["text"]
+    return transcribed_text
+transcribed_text = transcribe_audio(output_audio)
+print("Transcription Complete:\n", transcribed_text[:500])  # Preview first 500 characters
+# ---- STEP 4: Summarize Transcription ----
 summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
+def summarize_text(text):
+    if len(text.split()) < 50:
+        return "Text too short to summarize."
+    print("Summarizing text...")
+    summary_result = summarizer(text, max_length=100, min_length=30, do_sample=False)
+    return summary_result[0]['summary_text']
+summarized_text = summarize_text(transcribed_text)
+print("\nSummary:\n", summarized_text)
+# ---- OPTIONAL: Save Results to File ----
+with open(f"/content/{title}_transcription.txt", "w") as f:
+    f.write(transcribed_text)
+with open(f"/content/{title}_summary.txt", "w") as f:
+    f.write(summarized_text)
+print("Transcription & Summary saved!")