studio_V1_4_asr_GPT

Running

App Files Files Community

qqwjq1981 commited on May 1

Commit

c0f8674

verified ·

1 Parent(s): dd10881

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -11

app.py CHANGED Viewed

@@ -668,33 +668,34 @@ def collapse_ocr_subtitles(ocr_json, text_similarity_threshold=90):
     return collapsed
 def merge_speaker_and_time_from_whisperx(ocr_json, whisperx_json, text_sim_threshold=80, replace_threshold=90):
-    """
-    Given OCR and WhisperX segments, merge speaker ID and optionally replace time.
-    """
     merged = []
     for ocr in ocr_json:
         ocr_start = ocr["start"]
         ocr_end = ocr["end"]
         ocr_text = ocr["text"]
         best_match = None
         best_score = -1
-        for wx in whisperx_json:
             wx_start, wx_end = wx["start"], wx["end"]
             wx_text = wx["text"]
-            # Time overlap (soft constraint)
             time_center_diff = abs((ocr_start + ocr_end)/2 - (wx_start + wx_end)/2)
-            if time_center_diff > 3:  # skip if too far
                 continue
-            # Text similarity
             sim = fuzz.ratio(ocr_text, wx_text)
             if sim > best_score:
                 best_score = sim
                 best_match = wx
         new_entry = copy.deepcopy(ocr)
         if best_match:
@@ -704,16 +705,15 @@ def merge_speaker_and_time_from_whisperx(ocr_json, whisperx_json, text_sim_thres
             if best_score >= replace_threshold:
                 new_entry["start"] = best_match["start"]
                 new_entry["end"] = best_match["end"]
         else:
             new_entry["speaker"] = "UNKNOWN"
             new_entry["ocr_similarity"] = None
         merged.append(new_entry)
     return merged
 def realign_ocr_segments(merged_ocr_json, min_gap=0.2):
     """
     Realign OCR segments to avoid overlaps using midpoint-based adjustment.

     return collapsed
 def merge_speaker_and_time_from_whisperx(ocr_json, whisperx_json, text_sim_threshold=80, replace_threshold=90):
     merged = []
+    used_whisperx = set()
     for ocr in ocr_json:
         ocr_start = ocr["start"]
         ocr_end = ocr["end"]
         ocr_text = ocr["text"]
         best_match = None
         best_score = -1
+        best_idx = None
+        for idx, wx in enumerate(whisperx_json):
             wx_start, wx_end = wx["start"], wx["end"]
             wx_text = wx["text"]
+            if idx in used_whisperx:
+                continue  # Already matched
             time_center_diff = abs((ocr_start + ocr_end)/2 - (wx_start + wx_end)/2)
+            if time_center_diff > 3:
                 continue
             sim = fuzz.ratio(ocr_text, wx_text)
             if sim > best_score:
                 best_score = sim
                 best_match = wx
+                best_idx = idx
         new_entry = copy.deepcopy(ocr)
         if best_match:
             if best_score >= replace_threshold:
                 new_entry["start"] = best_match["start"]
                 new_entry["end"] = best_match["end"]
+                used_whisperx.add(best_idx)  # Mark used
         else:
             new_entry["speaker"] = "UNKNOWN"
             new_entry["ocr_similarity"] = None
         merged.append(new_entry)
     return merged
 def realign_ocr_segments(merged_ocr_json, min_gap=0.2):
     """
     Realign OCR segments to avoid overlaps using midpoint-based adjustment.