Spaces:

sk007msd
/

Audio_to_image

Sleeping

App Files Files Community

sk007msd commited on Mar 6

Commit

69a9db6

verified ·

1 Parent(s): 4e97447

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -7

app.py CHANGED Viewed

@@ -1,15 +1,15 @@
-import os
-import time
 import requests
-import gradio as gr
 from huggingface_hub import login
 from dotenv import load_dotenv
 load_dotenv()
-image_API="https://api-inference.huggingface.co/models/black-forest-labs/FLUX.1-schnell"
 translation_API="https://api-inference.huggingface.co/models/facebook/nllb-200-distilled-1.3B"
 whisper_API="https://api-inference.huggingface.co/models/openai/whisper-large-v3"
 HF_TOKEN=os.getenv("HF_Token")
 login(HF_TOKEN)
 headers={"Authorization":f"Bearer {HF_TOKEN}"}
@@ -49,6 +49,24 @@ def query_image(prompt):
     time.sleep(delay)
   return None
 def process_audio(audio_path):
   if not audio_path:
     return None
@@ -58,7 +76,8 @@ def process_audio(audio_path):
     translation=query_translation(tamil_text)
     translated_text=translation.get("translated_text","Translation error")
     image_path=query_image(translated_text)
-    return tamil_text,translated_text,image_path
   except Exception as e:
     return None,str(e),None
@@ -69,7 +88,8 @@ iface=gr.Interface(
         gr.Textbox(label="Tamil Text"),
         gr.Textbox(label="English Translation"),
         gr.Image(label="Generated Image")
     ],
     title="Speech-to-Image Generation"
 )
-iface.launch(share=True,server_name="0.0.0.0",server_port=7860)

+import os
+import time
 import requests
+import gradio as gr
 from huggingface_hub import login
 from dotenv import load_dotenv
 load_dotenv()
+image_API="https://api-inference.huggingface.co/models/stabilityai/stable-diffusion-2"
 translation_API="https://api-inference.huggingface.co/models/facebook/nllb-200-distilled-1.3B"
 whisper_API="https://api-inference.huggingface.co/models/openai/whisper-large-v3"
+txt_API="https://api-inference.huggingface.co/models/meta-llama/Llama-3.2-1B"
 HF_TOKEN=os.getenv("HF_Token")
 login(HF_TOKEN)
 headers={"Authorization":f"Bearer {HF_TOKEN}"}
     time.sleep(delay)
   return None
+def query_text_generation(prompt):
+  max_retries=5
+  delay=10
+  payload={"inputs":f"give me a short story about {prompt}"}
+  for attempt in range(max_retries):
+    response=requests.post(txt_API,headers=headers,json=payload)
+    if response.status_code == 200:
+      result=response.json()
+      if isinstance(result,list) and len(result)>0:
+        return result[0].get("generated_text","Text Generation Error")
+      elif isinstance(result,dict) and "generated_text" in result:
+        return result["generated_text"]
+    print(f"⚠️ Text generation failed, retrying in {delay} seconds...")
+    time.sleep(delay)
+  return None
 def process_audio(audio_path):
   if not audio_path:
     return None
     translation=query_translation(tamil_text)
     translated_text=translation.get("translated_text","Translation error")
     image_path=query_image(translated_text)
+    story=query_text_generation(translated_text)
+    return tamil_text,translated_text,image_path,story
   except Exception as e:
     return None,str(e),None
         gr.Textbox(label="Tamil Text"),
         gr.Textbox(label="English Translation"),
         gr.Image(label="Generated Image")
+        gr.Textbox(label="Story")
     ],
     title="Speech-to-Image Generation"
 )
+iface.launch(share=True,server_name="0.0.0.0",server_port=7861)