Spaces:

SameerJugno
/

modelDeploy

Running

App Files Files Community

SameerJugno commited on May 17

Commit

54cf79d

verified ·

1 Parent(s): af41bdf

Update app.py

Browse files

Files changed (1) hide show

app.py +31 -3

app.py CHANGED Viewed

@@ -29,13 +29,41 @@
 #     title="LLaMA 3 - Fine-tuned Model"
 # ).launch()
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from peft import PeftModel
 import torch
 import gradio as gr
 # Load base model from HF Hub
-base_model_name = "distilgpt2"
 tokenizer = AutoTokenizer.from_pretrained(base_model_name)
 # Load base model (set torch_dtype if needed)
@@ -49,8 +77,8 @@ model.eval()
 def predict(text):
     inputs = tokenizer(text, return_tensors="pt").to("cpu")  # Use "cuda" if GPU available
-    outputs = model.generate(**inputs, max_new_tokens=70)
     return tokenizer.decode(outputs[0], skip_special_tokens=True)
 iface = gr.Interface(fn=predict, inputs="text", outputs="text", title="LoRA Model Demo")
 iface.launch()

 #     title="LLaMA 3 - Fine-tuned Model"
 # ).launch()
+# Here I change the model name
+# from transformers import AutoTokenizer, AutoModelForCausalLM
+# from peft import PeftModel
+# import torch
+# import gradio as gr
+# # Load base model from HF Hub
+# base_model_name = "distilgpt2"
+# tokenizer = AutoTokenizer.from_pretrained(base_model_name)
+# # Load base model (set torch_dtype if needed)
+# model = AutoModelForCausalLM.from_pretrained(base_model_name, torch_dtype=torch.float16)
+# # Load LoRA adapters from local files in Space
+# adapter_path = "./"  # If adapter files are in root or specify folder name
+# model = PeftModel.from_pretrained(model, adapter_path)
+# model.eval()
+# def predict(text):
+#     inputs = tokenizer(text, return_tensors="pt").to("cpu")  # Use "cuda" if GPU available
+#     outputs = model.generate(**inputs, max_new_tokens=70)
+#     return tokenizer.decode(outputs[0], skip_special_tokens=True)
+# iface = gr.Interface(fn=predict, inputs="text", outputs="text", title="LoRA Model Demo")
+# iface.launch()
+// Here is the new code with intent to optimize
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from peft import PeftModel
 import torch
 import gradio as gr
 # Load base model from HF Hub
+base_model_name = "unsloth/Llama-3.2-1B"  # Use your model path or model name
 tokenizer = AutoTokenizer.from_pretrained(base_model_name)
 # Load base model (set torch_dtype if needed)
 def predict(text):
     inputs = tokenizer(text, return_tensors="pt").to("cpu")  # Use "cuda" if GPU available
+    outputs = model.generate(**inputs, max_new_tokens=100)
     return tokenizer.decode(outputs[0], skip_special_tokens=True)
 iface = gr.Interface(fn=predict, inputs="text", outputs="text", title="LoRA Model Demo")
 iface.launch()