talking-head

Runtime error

App Files Files Community

Opera8 commited on 28 days ago

Commit

56bf13d

verified ·

1 Parent(s): faead0f

Update app.py

Browse files

Files changed (1) hide show

app.py +79 -161

app.py CHANGED Viewed

@@ -6,21 +6,19 @@ import time
 import gradio as gr
 import spaces
 from huggingface_hub import snapshot_download
-from huggingface_hub.utils import GatedRepoError, RepositoryNotFoundError, RevisionNotFoundError
 from pathlib import Path
 import tempfile
 from pydub import AudioSegment
-# افزودن پوشه src به مسیر سیستم برای ایمپورت‌های داخلی
 sys.path.insert(0, os.path.abspath(os.path.join(os.path.dirname(__file__), 'src')))
 from models.inference.moda_test import LiveVASAPipeline, emo_map, set_seed
 # --- تنظیمات ---
-# تنظیم Seed برای تکرارپذیری نتایج
 set_seed(42)
-# مسیرها و ثابت‌ها
 DEFAULT_CFG_PATH = "configs/audio2motion/inference/inference.yaml"
 DEFAULT_MOTION_MEAN_STD_PATH = "src/datasets/mean.pt"
 DEFAULT_SILENT_AUDIO_PATH = "src/examples/silent-audio.wav"
@@ -28,26 +26,19 @@ OUTPUT_DIR = "gradio_output"
 WEIGHTS_DIR = "pretrain_weights"
 REPO_ID = "lixinyizju/moda"
-# نگاشت احساسات به فارسی برای نمایش در منو
-# این دیکشنری نام فارسی را به نام انگلیسی موجود در مدل اصلی متصل می‌کند
 PERSIAN_EMOTION_MAP = {
     "خنثی (Neutral)": "Neutral",
     "خوشحال (Happy)": "Happy",
     "عصبانی (Angry)": "Angry",
     "غمگین (Sad)": "Sad",
     "متعجب (Surprise)": "Surprise"
-    # اگر مدل احساسات دیگری دارد، به طور پیش‌فرض روی خنثی تنظیم می‌شود
 }
-# --- دانلود وزن‌های پیش‌آموزش دیده ---
 def download_weights():
-    """
-    دانلود مدل‌ها از هاگینگ‌فیس در صورتی که موجود نباشند.
-    """
     motion_model_file = os.path.join(WEIGHTS_DIR, "moda", "net-200.pth")
     if not os.path.exists(motion_model_file):
-        print("مدل‌ها یافت نشدند. در حال دانلود...")
         try:
             snapshot_download(
                 repo_id=REPO_ID,
@@ -55,24 +46,14 @@ def download_weights():
                 local_dir_use_symlinks=False,
                 resume_download=True,
             )
-            print("دانلود مدل‌ها با موفقیت انجام شد.")
         except Exception as e:
-            print(f"خطا در دانلود: {e}")
-            raise gr.Error(f"خطا در دریافت مدل‌ها. لطفاً اتصال اینترنت را بررسی کنید: {e}")
-    else:
-        print(f"مدل‌ها در مسیر '{WEIGHTS_DIR}' موجود هستند.")
-# --- تبدیل فرمت صدا ---
 def ensure_wav_format(audio_path):
-    if audio_path is None:
-        return None
     audio_path = Path(audio_path)
-    if audio_path.suffix.lower() == '.wav':
-        return str(audio_path)
-    print(f"در حال تبدیل فایل صوتی به فرمت WAV...")
     try:
         audio = AudioSegment.from_file(audio_path)
         with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as tmp_file:
@@ -80,58 +61,42 @@ def ensure_wav_format(audio_path):
             audio.export(wav_path, format='wav', parameters=["-ar", "16000", "-ac", "1"])
         return wav_path
     except Exception as e:
-        raise gr.Error(f"خطا در تبدیل فایل صوتی: {e}")
-# --- راه‌اندازی اولیه ---
 os.makedirs(OUTPUT_DIR, exist_ok=True)
 download_weights()
-print("در حال بارگذاری مدل MoDA...")
 try:
-    pipeline = LiveVASAPipeline(
-        cfg_path=DEFAULT_CFG_PATH,
-        motion_mean_std_path=DEFAULT_MOTION_MEAN_STD_PATH
-    )
-    print("مدل با موفقیت بارگذاری شد.")
 except Exception as e:
-    print(f"خطا در بارگذاری پایپ‌لاین: {e}")
     pipeline = None
-# ایجاد دیکشنری معکوس برای پیدا کردن ID احساسات
 emo_name_to_id = {v: k for k, v in emo_map.items()}
-# --- تابع اصلی تولید ویدیو ---
 @spaces.GPU(duration=120)
 def generate_motion(source_image_path, driving_audio_path, persian_emotion_name, cfg_scale, progress=gr.Progress(track_tqdm=True)):
-    """
-    تابع اصلی که ورودی‌ها را گرفته و ویدیو را تولید می‌کند.
-    """
-    if pipeline is None:
-        raise gr.Error("مدل به درستی بارگذاری نشده است. لطفاً لاگ‌ها را بررسی کنید.")
-    if source_image_path is None:
-        raise gr.Error("لطفاً یک تصویر چهره آپلود کنید.")
-    if driving_audio_path is None:
-        raise gr.Error("لطفاً فایل صوتی را آپلود کنید.")
-    # نگاشت نام فارسی انتخاب شده به نام انگلیسی
-    english_emo_name = PERSIAN_EMOTION_MAP.get(persian_emotion_name, "Neutral")
-    # پیدا کردن ID احساسات
-    emotion_id = emo_name_to_id.get(english_emo_name, 8) # پیش‌فرض 8
-    start_time = time.time()
-    wav_audio_path = ensure_wav_format(driving_audio_path)
-    temp_wav_created = wav_audio_path != driving_audio_path
-    timestamp = time.strftime("%Y%m%d-%H%M%S")
-    run_output_dir = os.path.join(OUTPUT_DIR, timestamp)
-    os.makedirs(run_output_dir, exist_ok=True)
-    print(f"شروع پردازش برای احساس: {persian_emotion_name} (ID: {emotion_id})")
     try:
         result_video_path = pipeline.driven_sample(
             image_path=source_image_path,
             audio_path=wav_audio_path,
@@ -141,122 +106,75 @@ def generate_motion(source_image_path, driving_audio_path, persian_emotion_name,
             smooth=False,
             silent_audio_path=DEFAULT_SILENT_AUDIO_PATH,
         )
-    except gr.Error as ge:
-        # بازنشر خطاهای گرادیو
-        raise ge
-    except Exception as e:
-        # مدیریت خطاهای خاص ZeroGPU و دیگر خطاها
-        error_msg = str(e).lower()
-        if "quota" in error_msg or "gpu" in error_msg or "queue" in error_msg:
-            raise gr.Error("❌ سهمیه GPU شما (Quota) به پایان رسیده یا سرور مشغول است. لطفاً مدتی صبر کنید و دوباره تلاش کنید.")
-        else:
-            import traceback
-            traceback.print_exc()
-            raise gr.Error(f"خطای غیرمنتظره در پردازش: {str(e)}")
-    finally:
-        if temp_wav_created and os.path.exists(wav_audio_path):
-            try:
-                os.remove(wav_audio_path)
-            except:
-                pass
-    final_path = Path(result_video_path)
-    # تغییر نام برای اطمینان از فرمت درست در خروجی
-    renamed_path = final_path.with_name(f"final_{final_path.stem}{final_path.suffix}")
-    if final_path.exists():
         final_path.rename(renamed_path)
-    processing_time = time.time() - start_time
-    print(f"ویدیو در {processing_time:.2f} ثانیه آماده شد.")
-    return str(renamed_path)
-# --- رابط کاربری (CSS راست‌چین) ---
 css = """
-.gradio-container {
-    max-width: 960px !important;
-    margin: 0 auto !important;
-    font-family: 'Tahoma', 'Segoe UI', sans-serif;
-}
-h1, p, .prose {
-    direction: rtl;
-    text-align: center;
-}
-/* راست‌چین کردن لیبل‌ها و ورودی‌ها */
-label, span {
-    direction: rtl;
-    text-align: right;
-    width: 100%;
-}
-.svelte-1b6s6s { direction: rtl; }
 """
-with gr.Blocks(theme=gr.themes.Soft(), css=css, title="MoDA فارسی") as demo:
     gr.HTML(
         """
-        <div align='center'>
-            <h1>هوش مصنوعی MoDA: ساخت ویدیو از روی عکس و صدا</h1>
-            <p style="font-size: 1.1em; color: #666;">
-                تصویر چهره و فایل صوتی خود را آپلود کنید تا ویدیوی سخنگو ساخته شود.
-            </p>
         </div>
         """
     )
-    with gr.Row(variant="panel"):
-        with gr.Column(scale=1):
-            # ورودی تصویر
-            source_image = gr.Image(
-                label="تصویر چهره (ورودی)",
-                type="filepath",
-                value="src/examples/reference_images/7.jpg",
-                height=300
-            )
-            # ورودی صدا
-            driving_audio = gr.Audio(
-                label="فایل صوتی (صدا)",
-                type="filepath",
-                value="src/examples/driving_audios/5.wav"
-            )
-            # تنظیمات پیشرفته
             with gr.Row():
                 emotion_dropdown = gr.Dropdown(
-                    label="حالت چهره (احساسات)",
-                    choices=list(PERSIAN_EMOTION_MAP.keys()),
-                    value="خنثی (Neutral)",
-                    interactive=True
-                )
-            with gr.Row():
-                cfg_slider = gr.Slider(
-                    label="شدت اعمال تنظیمات (CFG Scale)",
-                    info="اعداد بالاتر دقت را بیشتر می‌کنند اما ممکن است تصویر را خشک کنند. عدد پیشنهادی: ۱.۲",
-                    minimum=1.0,
-                    maximum=3.0,
-                    step=0.05,
-                    value=1.2
                 )
-            submit_button = gr.Button("🎥 تولید ویدیو", variant="primary", size="lg")
-        with gr.Column(scale=1):
-            # خروجی
-            output_video = gr.Video(label="ویدیوی نهایی", height=500)
-    # فوتر و سلب مسئولیت
-    gr.Markdown(
-        """
-        ---
-        ### **توجه:**
-        این پروژه صرفاً جهت استفاده تحقیقاتی و آموزشی است. لطفاً از ساخت محتوای نامناسب یا جعل هویت افراد بدون اجازه خودداری کنید.
-        در صورتی که با خطای **"Quota exceeded"** مواجه شدید، به این معناست که سهمیه رایگان GPU شما موقتاً تمام شده است.
-        """
-    )
-    submit_button.click(
         fn=generate_motion,
         inputs=[source_image, driving_audio, emotion_dropdown, cfg_slider],
         outputs=output_video

 import gradio as gr
 import spaces
 from huggingface_hub import snapshot_download
 from pathlib import Path
 import tempfile
 from pydub import AudioSegment
+import traceback
+# افزودن پوشه src به مسیر سیستم
 sys.path.insert(0, os.path.abspath(os.path.join(os.path.dirname(__file__), 'src')))
 from models.inference.moda_test import LiveVASAPipeline, emo_map, set_seed
 # --- تنظیمات ---
 set_seed(42)
 DEFAULT_CFG_PATH = "configs/audio2motion/inference/inference.yaml"
 DEFAULT_MOTION_MEAN_STD_PATH = "src/datasets/mean.pt"
 DEFAULT_SILENT_AUDIO_PATH = "src/examples/silent-audio.wav"
 WEIGHTS_DIR = "pretrain_weights"
 REPO_ID = "lixinyizju/moda"
 PERSIAN_EMOTION_MAP = {
     "خنثی (Neutral)": "Neutral",
     "خوشحال (Happy)": "Happy",
     "عصبانی (Angry)": "Angry",
     "غمگین (Sad)": "Sad",
     "متعجب (Surprise)": "Surprise"
 }
+# --- دانلود وزن‌ها ---
 def download_weights():
     motion_model_file = os.path.join(WEIGHTS_DIR, "moda", "net-200.pth")
     if not os.path.exists(motion_model_file):
+        print("در حال دانلود مدل‌ها...")
         try:
             snapshot_download(
                 repo_id=REPO_ID,
                 local_dir_use_symlinks=False,
                 resume_download=True,
             )
         except Exception as e:
+            raise gr.Error(f"خطا در دانلود مدل‌ها. اینترنت سرور قطع است: {e}")
+# --- تبدیل صدا ---
 def ensure_wav_format(audio_path):
+    if audio_path is None: return None
     audio_path = Path(audio_path)
+    if audio_path.suffix.lower() == '.wav': return str(audio_path)
     try:
         audio = AudioSegment.from_file(audio_path)
         with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as tmp_file:
             audio.export(wav_path, format='wav', parameters=["-ar", "16000", "-ac", "1"])
         return wav_path
     except Exception as e:
+        raise gr.Error(f"فرمت فایل صوتی پشتیبانی نمی‌شود: {e}")
+# --- لود اولیه ---
 os.makedirs(OUTPUT_DIR, exist_ok=True)
 download_weights()
+print("در حال لود مدل...")
 try:
+    pipeline = LiveVASAPipeline(cfg_path=DEFAULT_CFG_PATH, motion_mean_std_path=DEFAULT_MOTION_MEAN_STD_PATH)
 except Exception as e:
+    print(f"Error Init: {e}")
     pipeline = None
 emo_name_to_id = {v: k for k, v in emo_map.items()}
+# --- تابع اصلی با مدیریت خطای ZeroGPU ---
 @spaces.GPU(duration=120)
 def generate_motion(source_image_path, driving_audio_path, persian_emotion_name, cfg_scale, progress=gr.Progress(track_tqdm=True)):
     try:
+        # 1. بررسی‌های اولیه
+        if pipeline is None:
+            raise ValueError("مدل روی سرور لود نشده است. لطفا اسپیس را Restart کنید.")
+        if source_image_path is None:
+            raise ValueError("لطفاً یک تصویر چهره انتخاب کنید.")
+        if driving_audio_path is None:
+            raise ValueError("لطفاً یک فایل صوتی انتخاب کنید.")
+        # 2. آماده‌سازی
+        english_emo_name = PERSIAN_EMOTION_MAP.get(persian_emotion_name, "Neutral")
+        emotion_id = emo_name_to_id.get(english_emo_name, 8)
+        wav_audio_path = ensure_wav_format(driving_audio_path)
+        # 3. اجرا
+        print(f"Processing: {persian_emotion_name}, CFG: {cfg_scale}")
         result_video_path = pipeline.driven_sample(
             image_path=source_image_path,
             audio_path=wav_audio_path,
             smooth=False,
             silent_audio_path=DEFAULT_SILENT_AUDIO_PATH,
         )
+        # 4. خروجی
+        final_path = Path(result_video_path)
+        renamed_path = final_path.with_name(f"final_{int(time.time())}.mp4")
         final_path.rename(renamed_path)
+        return str(renamed_path)
+    except gr.Error:
+        # اگر ارور گرادیو بود، همان را پاس بده
+        raise
+    except Exception as e:
+        # لاگ کردن خطای واقعی در کنسول برای دیباگ
+        error_msg = str(e)
+        traceback.print_exc()
+        # تشخیص خطاهای رایج ZeroGPU
+        if "GPU" in error_msg or "device" in error_msg or "cuda" in error_msg.lower():
+            raise gr.Error("⚠️ خطا در دسترسی به GPU: سهمیه شما تمام شده یا سرور شلوغ است.")
+        elif "duration" in error_msg or "time" in error_msg:
+            raise gr.Error("⚠️ زمان پردازش طولانی شد و سرور آن را قطع کرد.")
+        else:
+            # نمایش خطای کلی اما فارسی
+            raise gr.Error(f"❌ خطا در پردازش: {error_msg}. (احتمالاً سهمیه GPU تمام شده است)")
+# --- رابط کاربری ---
 css = """
+.gradio-container {max-width: 900px !important; margin: auto !important; font-family: 'Tahoma', sans-serif;}
+h1, h2, h3, p, span, div {direction: rtl; text-align: right;}
+.center-text {text-align: center !important;}
 """
+with gr.Blocks(theme=gr.themes.Soft(), css=css, title="MoDA Farsi") as demo:
     gr.HTML(
         """
+        <div class="center-text">
+            <h1>MoDA: ساخت ویدیو سخنگو</h1>
         </div>
         """
     )
+    with gr.Row():
+        with gr.Column():
+            source_image = gr.Image(label="۱. تصویر چهره", type="filepath", height=250)
+            driving_audio = gr.Audio(label="۲. فایل صوتی", type="filepath")
             with gr.Row():
                 emotion_dropdown = gr.Dropdown(
+                    label="۳. حالت چهره",
+                    choices=list(PERSIAN_EMOTION_MAP.keys()),
+                    value="خنثی (Neutral)"
                 )
+                cfg_slider = gr.Slider(label="۴. دقت (CFG)", minimum=1.0, maximum=3.0, value=1.2, step=0.1)
+            # پیام هشدار واضح برای کاربر درباره Quota
+            gr.Markdown(
+                """
+                <div style="background-color: #fff3cd; color: #856404; padding: 10px; border-radius: 5px; border: 1px solid #ffeeba; margin-top: 10px; font-size: 0.9em;">
+                ⚠️ <b>توجه مهم:</b> اگر بعد از زدن دکمه با پیغام <b>Error</b> مواجه شدید، به این معنی است که <b>سهمیه رایگان (ZeroGPU Quota)</b> شما تمام شده است. لطفاً بعداً تلاش کنید.
+                </div>
+                """
+            )
+            submit_btn = gr.Button("🎥 ساخت ویدیو", variant="primary", size="lg")
+        with gr.Column():
+            output_video = gr.Video(label="خروجی نهایی", height=400)
+    submit_btn.click(
         fn=generate_motion,
         inputs=[source_image, driving_audio, emotion_dropdown, cfg_slider],
         outputs=output_video