studio_V1_4_asr_GPT

Running

qqwjq1981 commited on May 12

Commit

46034f5

verified ·

1 Parent(s): c0f8674

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -639,7 +639,6 @@ def extract_ocr_subtitles_parallel(video_path, transcription_json, interval_sec=
     logger.info(f"✅ OCR extraction completed: {len(ocr_results)} frames successful, {ocr_failures} frames failed.")
     return ocr_results
 def collapse_ocr_subtitles(ocr_json, text_similarity_threshold=90):
     collapsed = []
     current = None
@@ -654,17 +653,19 @@ def collapse_ocr_subtitles(ocr_json, text_similarity_threshold=90):
         sim = fuzz.ratio(current["text"], text)
         if sim >= text_similarity_threshold:
             current["end"] = time
         else:
             collapsed.append(current)
             current = {"start": time, "end": time, "text": text}
     if current:
         collapsed.append(current)
-    # Log collapsed OCR summary
     logger.info(f"✅ OCR subtitles collapsed into {len(collapsed)} segments.")
     for idx, seg in enumerate(collapsed):
         logger.debug(f"[OCR Collapsed {idx}] {seg['start']:.2f}s - {seg['end']:.2f}s: {seg['text'][:50]}...")
     return collapsed
 def merge_speaker_and_time_from_whisperx(ocr_json, whisperx_json, text_sim_threshold=80, replace_threshold=90):

     logger.info(f"✅ OCR extraction completed: {len(ocr_results)} frames successful, {ocr_failures} frames failed.")
     return ocr_results
 def collapse_ocr_subtitles(ocr_json, text_similarity_threshold=90):
     collapsed = []
     current = None
         sim = fuzz.ratio(current["text"], text)
         if sim >= text_similarity_threshold:
             current["end"] = time
+            logger.debug(f"MERGED: Current end extended to {time:.2f}s for text: '{current['text'][:50]}...' (Similarity: {sim})")
         else:
+            logger.debug(f"NOT MERGING (Similarity: {sim} < Threshold: {text_similarity_threshold}):")
+            logger.debug(f"  Previous segment: {current['start']:.2f}s - {current['end']:.2f}s: '{current['text'][:50]}...'")
+            logger.debug(f"  New segment: {time:.2f}s: '{text[:50]}...'")
             collapsed.append(current)
             current = {"start": time, "end": time, "text": text}
     if current:
         collapsed.append(current)
     logger.info(f"✅ OCR subtitles collapsed into {len(collapsed)} segments.")
     for idx, seg in enumerate(collapsed):
         logger.debug(f"[OCR Collapsed {idx}] {seg['start']:.2f}s - {seg['end']:.2f}s: {seg['text'][:50]}...")
     return collapsed
 def merge_speaker_and_time_from_whisperx(ocr_json, whisperx_json, text_sim_threshold=80, replace_threshold=90):