Spaces:

Mauro24
/

sentence-transformer-demo

Running

App Files Files Community

sentence-transformer-demo / app.py

Mauro24

Update app.py

e556acc verified 7 months ago

raw

history blame

5.82 kB


	import os
	import spacy
	import gradio as gr
	from sentence_transformers import SentenceTransformer
	from sklearn.metrics.pairwise import cosine_similarity
	import numpy as np
	import zipfile
	import re

	print("Directory corrente:", os.getcwd())

	zip_path = "en_core_web_lg-3.8.0.zip" # Carica il file ZIP nella cartella del progetto
	extraction_dir = "./extracted_models" # Scegli una sottocartella per l'estrazione
	test_dir = "./extracted_models/en_core_web_lg-3.8.0" # Cartella dopo l'estrazione

	# Verifica se la cartella esiste già
	if not os.path.exists(test_dir):
	# Se la cartella non esiste, decomprimi il file ZIP
	with zipfile.ZipFile(zip_path, 'r') as zip_ref:
	zip_ref.extractall(extraction_dir)
	print(f"Modello estratto correttamente nella cartella {extraction_dir}")

	# Percorso del file zip caricato
	zip_path = "images.zip" # Assicurati che il file sia stato caricato su Hugging Face
	extract_to = "images" # Directory di destinazione per le immagini

	# Controlla se la directory esiste già
	if not os.path.exists(extract_to):
	os.makedirs(extract_to) # Crea la directory

	# Estrai il file zip
	if os.path.exists(zip_path): # Controlla che il file zip esista
	with zipfile.ZipFile(zip_path, 'r') as zip_ref:
	zip_ref.extractall(extract_to)
	print(f"Immagini estratte nella directory: {extract_to}")
	print("Contenuto della directory images:", os.listdir(extract_to))
	else:
	print(f"File {zip_path} non trovato. Assicurati di caricarlo nello Space.")



	# Percorso della cartella estratta
	model_path = os.path.join(extraction_dir, "en_core_web_lg-3.8.0") # Assicurati che sia corretto

	# Carica il modello
	nlp = spacy.load(model_path)


	# Carica il modello SentenceTransformer

	model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-mpnet-base-v2', device='cpu')




	# Preprocessamento manuale (carica il manuale da un file o base di dati)
	with open('testo.txt', 'r', encoding='utf-8') as file:
	text = file.read()

	# Tokenizza il testo in frasi usando SpaCy
	doc = nlp(text)
	sentences = [sent.text for sent in doc.sents] # Estrarre frasi dal testo

	# Crea gli embedding per il manuale
	embeddings = model.encode(sentences, batch_size=8, show_progress_bar=True)

	# Percorso della cartella delle immagini
	image_folder = "images"

	def extract_figure_numbers(text):
	"""Estrae tutti i numeri delle figure da una frase."""
	matches = re.findall(r"\(Figure (\d+)\)", text, re.IGNORECASE)
	if matches:
	return matches # Restituisce una lista di numeri di figure
	return []


	def generate_figure_mapping(folder):
	"""Genera la mappatura delle figure dal nome dei file immagini."""
	mapping = {}
	for file_name in os.listdir(folder):
	if file_name.lower().endswith((".jpg", ".png", ".jpeg")):
	figure_reference = file_name.split(".")[0].replace("_", " ")
	mapping[figure_reference] = file_name
	return mapping

	figure_mapping = generate_figure_mapping(image_folder)
	#print("Generated figure mapping:", figure_mapping)

	def format_sentences(sentences):
	"""
	Converte la lista in una stringa, sostituendo i delimitatori '\|' con un a capo senza aggiungere spazi extra.
	Interrompe il processo se trova '.end'.
	"""
	# Uniamo la lista in una singola stringa
	sentences_str = " ".join(sentences)

	# Interrompiamo al primo '.end'
	if ".end" in sentences_str:
	sentences_str = sentences_str.split(".end")[0]

	# Sostituiamo il delimitatore '\|' con un a capo
	formatted_response = sentences_str.replace(" \|", "\n").replace("\|", "\n")

	return formatted_response

	def find_relevant_sentences(query, threshold=0.2, top_n=6):
	"""Trova le frasi più rilevanti e le immagini collegate."""
	global sentences
	query_embedding = model.encode([query])
	similarities = cosine_similarity(query_embedding, embeddings).flatten()

	filtered_results = [(idx, sim) for idx, sim in enumerate(similarities) if sim >= threshold]
	filtered_results.sort(key=lambda x: x[1], reverse=True)

	if not filtered_results:
	return "RESPONSE:\nNo relevant sentences found for your query.", None

	relevant_sentences = [sentences[idx] for idx, _ in filtered_results[:top_n]]
	relevant_images = set() # Usa un set per evitare duplicati

	for sent in relevant_sentences:
	figure_numbers = extract_figure_numbers(sent) # Restituisce una lista di figure
	for figure_number in figure_numbers:
	if figure_number in figure_mapping:
	image_path = os.path.join(image_folder, figure_mapping[figure_number])
	if os.path.exists(image_path):
	relevant_images.add(image_path) # Aggiunge al set

	# Formatta le frasi senza categorizzazione
	formatted_response = "****\n" + format_sentences(relevant_sentences)
	return formatted_response, list(relevant_images) # Converte il set in lista



	# Interfaccia Gradio
	examples = [
	["irresponsible use of the machine?"],
	["If I have a problem how can I get help?"],
	["precautions when using the cutting machine"],
	["How do I DRILL BIT REPLACEMENT ?"],
	["instructions for changing the knife"],
	["lubrication for the knife holder cylinder"]
	]

	iface = gr.Interface(
	fn=find_relevant_sentences,
	inputs=gr.Textbox(label="Insert your query"),
	outputs=[
	gr.Textbox(label="Relevant sentences"),
	gr.Gallery(label="Relevant figures", value=[os.path.join(image_folder, "4b.jpg")]) # Anteprima immagine iniziale
	],
	examples=examples,
	title="Manual Querying System",
	description="Enter a question about the machine, and this tool will find the most relevant sentences and associated figures from the manual.",
	)

	iface.launch()