Spaces:

Nightwing11
/

Hubermanbot2

Sleeping

Angel commited on Jan 6

Commit

fe1196c

2 Parent(s): 35be24f 927f731

Merge pull request #5 from Angel-dash/yt_transcript

changes made to yt transcirpt fetching and then adding

Files changed (2) hide show

Data/yt_transcript.py CHANGED Viewed

@@ -55,29 +55,29 @@ def fetch_yt_transcript(video_ids):
 def all_video_transcript_pipeline():
-    video_links_list, new_video_added,new_videos_link = video_links_main()
     if new_video_added:
         print("New videos has been added... Fetching transcript for new videos only")
-        new_videos_id = get_video_id(new_videos_link)
-        video_transcripts = fetch_yt_transcript(new_videos_link)
-    else:
-        print("No new video detected, Loading existing transcript from folders ")
-        video_transcripts = {}
-        transcripts_folder = "transcripts"
-        if os.path.exists(transcripts_folder):
-            existing_files = os.listdir(transcripts_folder)
-            for file in existing_files:
-                video_id = file.split("_")[0]
-                with open(os.path.join(transcripts_folder, file), "r", encoding="utf-8") as f:
-                    transcript_text = f.read().splitlines()
-                video_transcripts[video_id] = {
-                    'text': transcript_text,
-                    'file_path': os.path.join(transcripts_folder, file)
-                }
-            print(f"Loaded {len(video_transcripts)} transcripts from {transcripts_folder}")
-        else:
-            print("No transcript found")
     return video_transcripts

 def all_video_transcript_pipeline():
+    video_links_list, new_video_added, new_videos_link = video_links_main()
+    video_transcripts = {}
+    # First load existing transcripts
+    transcripts_folder = "transcripts"
+    if os.path.exists(transcripts_folder):
+        existing_files = os.listdir(transcripts_folder)
+        for file in existing_files:
+            video_id = file.split("_")[0]
+            with open(os.path.join(transcripts_folder, file), "r", encoding="utf-8") as f:
+                transcript_text = f.read().splitlines()
+            video_transcripts[video_id] = {
+                'text': transcript_text,
+                'file_path': os.path.join(transcripts_folder, file)
+            }
+    # Then fetch new transcripts if there are any
     if new_video_added:
         print("New videos has been added... Fetching transcript for new videos only")
+        new_transcripts = fetch_yt_transcript(new_videos_link)
+        # Merge new transcripts with existing ones
+        video_transcripts.update(new_transcripts)
     return video_transcripts

requirements.txt ADDED Viewed