Spaces:

sk007msd
/

Audio_to_image

Running

App Files Files Community

sk007msd commited on Mar 6

Commit

5715904

verified ·

1 Parent(s): 07b05e3

Update app.py

Browse files

Files changed (1) hide show

app.py +56 -54

app.py CHANGED Viewed

@@ -1,93 +1,95 @@
 import os
-import time
 import requests
 import gradio as gr
 from huggingface_hub import login
 from dotenv import load_dotenv
 load_dotenv()
 image_API="https://api-inference.huggingface.co/models/stabilityai/stable-diffusion-2"
-translation_API="https://api-inference.huggingface.co/models/facebook/nllb-200-distilled-1.3B"
-whisper_API="https://api-inference.huggingface.co/models/openai/whisper-large-v3"
-txt_API="https://api-inference.huggingface.co/models/deepseek-ai/DeepSeek-R1"
-HF_TOKEN=os.getenv("HF_TOKEN")
 login(HF_TOKEN)
 headers={"Authorization":f"Bearer {HF_TOKEN}"}
-def query_whisper(audio_path):
   with open(audio_path,"rb") as audio:
     data=audio.read()
-    response=requests.post(whisper_API,headers=headers,data=data)
-    return response.json()
-def query_translation(text):
   max_retries=5
   delay=10
   payload={"inputs":text,"parameters":{"src_lang":"ta_Taml","tgt_lang":'eng_Latn'}}
-  for attempt in range(max_retries):
-    response=requests.post(translation_API,headers=headers,json=payload)
-    result= response.json()
-    if isinstance(result,list) and len(result)>0:
-      return {"translated_text":result[0]["translation_text"]}
-    elif isinstance(result,dict) and "translation_text" in result:
-      return {"translated_text":result["translation_text"]}
-    time.sleep(delay)
-  return {"error":"Translation API failed","response":result}
-def query_image(prompt):
-  max_retries=5
-  delay=10
   payload={"inputs":prompt}
-  for attempt in range(max_retries):
-    response=requests.post(image_API,headers=headers,json=payload)
-    if response.status_code == 200 and response.headers.get('Content-Type', '').startswith('image/'):
-      image_path='generated_image.png'
-      with open(image_path,'wb') as f:
-        f.write(response.content)
-      return image_path
-    time.sleep(delay)
   return None
-def query_text_generation(prompt):
-  max_retries=5
-  delay=10
   payload={"inputs":f"give me a short story about {prompt}"}
-  for attempt in range(max_retries):
-    response=requests.post(txt_API,headers=headers,json=payload)
-    if response.status_code == 200:
-      result=response.json()
-      if isinstance(result,list) and len(result)>0:
-        return result[0].get("generated_text","Text Generation Error")
-      elif isinstance(result,dict) and "generated_text" in result:
-        return result["generated_text"]
-    print(f"⚠️ Text generation failed, retrying in {delay} seconds...")
-    time.sleep(delay)
   return None
-def process_audio(audio_path):
   if not audio_path:
-    return None
   try:
-    transcription=query_whisper(audio_path)
     tamil_text=transcription.get("text","Transcription error")
-    translation=query_translation(tamil_text)
-    translated_text=translation.get("translated_text","Translation error")
-    image_path=query_image(translated_text)
-    story=query_text_generation(translated_text)
-    return tamil_text,translated_text,image_path
   except Exception as e:
     return None,str(e),None
 iface=gr.Interface(
-    fn=process_audio,
     inputs=gr.Audio(type="filepath",label="Upload Audio"),
     outputs=[
         gr.Textbox(label="Tamil Text"),
         gr.Textbox(label="English Translation"),
-        gr.Image(label="Generated Image"),
-        gr.Textbox(label="Text")
     ],
     title="Speech-to-Image Generation"
 )

 import os
 import requests
 import gradio as gr
+import asyncio
+import aiohttp
 from huggingface_hub import login
 from dotenv import load_dotenv
 load_dotenv()
 image_API="https://api-inference.huggingface.co/models/stabilityai/stable-diffusion-2"
+translation_API="https://api-inference.huggingface.co/models/facebook/nllb-200-distilled-600M"
+whisper_API="https://api-inference.huggingface.co/models/openai/whisper-medium"
+txt_API="https://api-inference.huggingface.co/models/openai-community/gpt2"
+HF_TOKEN=os.getenv("HF_Token")
 login(HF_TOKEN)
 headers={"Authorization":f"Bearer {HF_TOKEN}"}
+async def query_api(url, payload=None, data=None):
+    async with aiohttp.ClientSession() as session:
+      for attempts in range(5):
+        try:
+          async with session.post(url, headers=headers, json=payload, data=data) as response:
+            if response.status == 200:
+              return await response.json()
+            print("API Error {response.status}, retrying....")
+        except Exception as e:
+          print(f"Error: {e}")
+        await asyncio.sleep(10)
+    return None
+async def query_whisper(audio_path):
   with open(audio_path,"rb") as audio:
     data=audio.read()
+  return await query_api(whisper_API,data=data)
+async def query_translation(text):
   max_retries=5
   delay=10
   payload={"inputs":text,"parameters":{"src_lang":"ta_Taml","tgt_lang":'eng_Latn'}}
+  response=await query_api(translation_API,json=payload)
+  if response and isinstance(response,list) and len(response)>0:
+      return response[0]["translation_text"]
+  elif response and "translation_text" in resopnse:
+    return response["translation_text"]
+  return "Translation Error"
+async def query_image(prompt):
   payload={"inputs":prompt}
+  response=await query_api(image_API,json=payload)
+  if response:
+    image_path='generated_image.png'
+    with open(image_path,'wb') as f:
+      f.write(response.content)
+    return image_path
   return None
+async def query_text_generation(prompt):
   payload={"inputs":f"give me a short story about {prompt}"}
+  response=await query_api(txt_API,json=payload)
+  if response and isinstance(response, list) and len(response) > 0:
+    return response[0].get("generated_text", "Text Generation Error")
+  elif response and "generated_text" in response:
+    return response["generated_text"]
   return None
+async def process_audio(audio_path):
   if not audio_path:
+    return None,"Audio not provided",None,None
   try:
+    transcription=await query_whisper(audio_path)
     tamil_text=transcription.get("text","Transcription error")
+    translation_task=query_translation(tamil_text)
+    image_task=query_image(translated_text)
+    story_task=query_text_generation(translated_text)
+    translated_text,image_path,story=await asyncio.gather(translation_task,image_task,story_task)
+    return tamil_text,translated_text,image_path,story
   except Exception as e:
     return None,str(e),None
 iface=gr.Interface(
+    fn=lambda x:asyncio.run(process_audio(x)),
     inputs=gr.Audio(type="filepath",label="Upload Audio"),
     outputs=[
         gr.Textbox(label="Tamil Text"),
         gr.Textbox(label="English Translation"),
+        gr.Image(label="Generated Image")
+        gr.Textbox(label="Story")
     ],
     title="Speech-to-Image Generation"
 )