Spaces:

HaawkeNeural
/

framepack-i2v

Running

App Files Files Community

inoculatemedia commited on May 9

Commit

90ee3b7

verified ·

1 Parent(s): 30e045c

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -13

app.py CHANGED Viewed

@@ -216,11 +216,11 @@ def load_models():
         # 加载模型
         try:
-            text_encoder = LlamaModel.from_pretrained("hunyuanvideo-community/HunyuanVideo-I2V", subfolder='text_encoder', torch_dtype=dtype).to(model_device)
-            text_encoder_2 = CLIPTextModel.from_pretrained("hunyuanvideo-community/HunyuanVideo-I2V", subfolder='text_encoder_2', torch_dtype=dtype).to(model_device)
-            tokenizer = LlamaTokenizerFast.from_pretrained("hunyuanvideo-community/HunyuanVideo-I2V", subfolder='tokenizer')
-            tokenizer_2 = CLIPTokenizer.from_pretrained("hunyuanvideo-community/HunyuanVideo-I2V", subfolder='tokenizer_2')
-            vae = AutoencoderKLHunyuanVideo.from_pretrained("hunyuanvideo-community/HunyuanVideo-I2V", subfolder='vae', torch_dtype=dtype).to(model_device)
             feature_extractor = SiglipImageProcessor.from_pretrained("lllyasviel/flux_redux_bfl", subfolder='feature_extractor')
             image_encoder = SiglipVisionModel.from_pretrained("lllyasviel/flux_redux_bfl", subfolder='image_encoder', torch_dtype=dtype).to(model_device)
@@ -237,11 +237,11 @@ def load_models():
             transformer_dtype = torch.float32
             cpu_fallback_mode = True
-            text_encoder = LlamaModel.from_pretrained("hunyuanvideo-community/HunyuanVideo-I2VHunyuanVideo-I2VHunyuanVideo-I2VHunyuanVideo-I2VHunyuanVideo-I2V", subfolder='text_encoder', torch_dtype=dtype).to('cpu')
-            text_encoder_2 = CLIPTextModel.from_pretrained("hunyuanvideo-community/HunyuanVideo-I2VHunyuanVideo-I2VHunyuanVideo-I2VHunyuanVideo-I2V", subfolder='text_encoder_2', torch_dtype=dtype).to('cpu')
-            tokenizer = LlamaTokenizerFast.from_pretrained("hunyuanvideo-community/HunyuanVideo-I2VHunyuanVideo-I2VHunyuanVideo-I2V", subfolder='tokenizer')
-            tokenizer_2 = CLIPTokenizer.from_pretrained("hunyuanvideo-community/HunyuanVideo-I2VHunyuanVideo-I2V", subfolder='tokenizer_2')
-            vae = AutoencoderKLHunyuanVideo.from_pretrained("hunyuanvideo-community/HunyuanVideo-I2V", subfolder='vae', torch_dtype=dtype).to('cpu')
             feature_extractor = SiglipImageProcessor.from_pretrained("lllyasviel/flux_redux_bfl", subfolder='feature_extractor')
             image_encoder = SiglipVisionModel.from_pretrained("lllyasviel/flux_redux_bfl", subfolder='image_encoder', torch_dtype=dtype).to('cpu')
@@ -1101,8 +1101,8 @@ def end_process():
 quick_prompts = [
-'The camera smoothly orbits around the center of the scene, keeping the center point fixed and always in view. The characters are doing some simple body movements.',
 ]
 quick_prompts = [[x] for x in quick_prompts]
@@ -1545,7 +1545,7 @@ with block:
                         label="GPU Memory (GB) / GPU推理保留内存(GB)",
                         minimum=6,
                         maximum=128,
-                        value=8,
                         step=0.1,
                         info="Set this to a larger value if you encounter OOM errors. Larger values cause slower speed. / 如果出现OOM错误，请将此值设置得更大。值越大，速度越慢。"
                     )

         # 加载模型
         try:
+            text_encoder = LlamaModel.from_pretrained("hunyuanvideo-community/HunyuanVideo", subfolder='text_encoder', torch_dtype=dtype).to(model_device)
+            text_encoder_2 = CLIPTextModel.from_pretrained("hunyuanvideo-community/HunyuanVideo", subfolder='text_encoder_2', torch_dtype=dtype).to(model_device)
+            tokenizer = LlamaTokenizerFast.from_pretrained("hunyuanvideo-community/HunyuanVideo", subfolder='tokenizer')
+            tokenizer_2 = CLIPTokenizer.from_pretrained("hunyuanvideo-community/HunyuanVideo", subfolder='tokenizer_2')
+            vae = AutoencoderKLHunyuanVideo.from_pretrained("hunyuanvideo-community/HunyuanVideo", subfolder='vae', torch_dtype=dtype).to(model_device)
             feature_extractor = SiglipImageProcessor.from_pretrained("lllyasviel/flux_redux_bfl", subfolder='feature_extractor')
             image_encoder = SiglipVisionModel.from_pretrained("lllyasviel/flux_redux_bfl", subfolder='image_encoder', torch_dtype=dtype).to(model_device)
             transformer_dtype = torch.float32
             cpu_fallback_mode = True
+            text_encoder = LlamaModel.from_pretrained("hunyuanvideo-community/HunyuanVideo", subfolder='text_encoder', torch_dtype=dtype).to('cpu')
+            text_encoder_2 = CLIPTextModel.from_pretrained("hunyuanvideo-community/HunyuanVideo", subfolder='text_encoder_2', torch_dtype=dtype).to('cpu')
+            tokenizer = LlamaTokenizerFast.from_pretrained("hunyuanvideo-community/HunyuanVideo", subfolder='tokenizer')
+            tokenizer_2 = CLIPTokenizer.from_pretrained("hunyuanvideo-community/HunyuanVideo", subfolder='tokenizer_2')
+            vae = AutoencoderKLHunyuanVideo.from_pretrained("hunyuanvideo-community/HunyuanVideo", subfolder='vae', torch_dtype=dtype).to('cpu')
             feature_extractor = SiglipImageProcessor.from_pretrained("lllyasviel/flux_redux_bfl", subfolder='feature_extractor')
             image_encoder = SiglipVisionModel.from_pretrained("lllyasviel/flux_redux_bfl", subfolder='image_encoder', torch_dtype=dtype).to('cpu')
 quick_prompts = [
+    'The girl dances gracefully, with clear movements, full of charm.',
+    'A character doing some simple body movements.',
 ]
 quick_prompts = [[x] for x in quick_prompts]
                         label="GPU Memory (GB) / GPU推理保留内存(GB)",
                         minimum=6,
                         maximum=128,
+                        value=6,
                         step=0.1,
                         info="Set this to a larger value if you encounter OOM errors. Larger values cause slower speed. / 如果出现OOM错误，请将此值设置得更大。值越大，速度越慢。"
                     )