studio_V1_4_asr_GPT

Running

App Files Files Community

qqwjq1981 commited on Apr 29

Commit

7d826f9

verified ·

1 Parent(s): a83dd80

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -5

app.py CHANGED Viewed

@@ -601,6 +601,7 @@ def post_edit_transcribed_segments(transcription_json, video_path,
         interval_sec=interval_sec,
         num_workers=num_workers
     )
     # Step 2: Collapse repetitive OCR
     collapsed_ocr = collapse_ocr_subtitles(ocr_json, text_similarity_threshold=90)
@@ -617,18 +618,15 @@ def post_edit_transcribed_segments(transcription_json, video_path,
         best_score = -1
         for ocr_idx, ocr in enumerate(collapsed_ocr):
-            # Check time overlap
             time_overlap = not (ocr["end"] < start - time_tolerance or ocr["start"] > end + time_tolerance)
             if not time_overlap:
                 continue
-            # Text similarity
             sim = fuzz.ratio(ocr["text"], base_text)
             if sim > best_score:
                 best_score = sim
                 best_match_idx = ocr_idx
-        # Update WhisperX segment if matched
         updated_entry = entry.copy()
         if best_match_idx is not None and best_score >= text_similarity_threshold:
             updated_entry["text"] = collapsed_ocr[best_match_idx]["text"]
@@ -645,11 +643,23 @@ def post_edit_transcribed_segments(transcription_json, video_path,
     inserted_segments = []
     for ocr_idx, ocr in enumerate(collapsed_ocr):
         if ocr_idx not in used_ocr_indices:
             inserted_segment = {
                 "start": ocr["start"],
                 "end": ocr["end"],
                 "text": ocr["text"],
-                "ocr_only": True
             }
             inserted_segments.append(inserted_segment)
@@ -658,10 +668,11 @@ def post_edit_transcribed_segments(transcription_json, video_path,
     final_segments = sorted(final_segments, key=lambda x: x["start"])
     print(f"✅ Post-editing completed: {len(final_segments)} total segments "
-          f"({len(inserted_segments)} OCR-only inserted)")
     return final_segments
 def process_entry(entry, i, tts_model, video_width, video_height, process_mode, target_language, font_path, speaker_sample_paths=None):
     logger.debug(f"Processing entry {i}: {entry}")
     error_message = None

         interval_sec=interval_sec,
         num_workers=num_workers
     )
     # Step 2: Collapse repetitive OCR
     collapsed_ocr = collapse_ocr_subtitles(ocr_json, text_similarity_threshold=90)
         best_score = -1
         for ocr_idx, ocr in enumerate(collapsed_ocr):
             time_overlap = not (ocr["end"] < start - time_tolerance or ocr["start"] > end + time_tolerance)
             if not time_overlap:
                 continue
             sim = fuzz.ratio(ocr["text"], base_text)
             if sim > best_score:
                 best_score = sim
                 best_match_idx = ocr_idx
         updated_entry = entry.copy()
         if best_match_idx is not None and best_score >= text_similarity_threshold:
             updated_entry["text"] = collapsed_ocr[best_match_idx]["text"]
     inserted_segments = []
     for ocr_idx, ocr in enumerate(collapsed_ocr):
         if ocr_idx not in used_ocr_indices:
+            # Try to assign the speaker based on nearby merged segments
+            nearby_speakers = []
+            for seg in merged_segments:
+                if abs(seg["start"] - ocr["start"]) <= 2.0 or abs(seg["end"] - ocr["end"]) <= 2.0:
+                    if "speaker" in seg:
+                        nearby_speakers.append(seg["speaker"])
+            if nearby_speakers:
+                assigned_speaker = nearby_speakers[0]  # Take the first nearby speaker
+            else:
+                assigned_speaker = "SPEAKER_00"
             inserted_segment = {
                 "start": ocr["start"],
                 "end": ocr["end"],
                 "text": ocr["text"],
+                "speaker": assigned_speaker
             }
             inserted_segments.append(inserted_segment)
     final_segments = sorted(final_segments, key=lambda x: x["start"])
     print(f"✅ Post-editing completed: {len(final_segments)} total segments "
+          f"({len(inserted_segments)} OCR-inserted segments)")
     return final_segments
 def process_entry(entry, i, tts_model, video_width, video_height, process_mode, target_language, font_path, speaker_sample_paths=None):
     logger.debug(f"Processing entry {i}: {entry}")
     error_message = None