Spaces:

warhawkmonk
/

mutimodal

Running

App Files Files Community

warhawkmonk commited on 9 days ago

Commit

e6d537d

verified ·

1 Parent(s): a773fcb

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -9

app.py CHANGED Viewed

@@ -228,6 +228,8 @@ if "current_session" not in dictionary:
     dictionary['current_session']=None
 if "image_movement" not in dictionary:
     dictionary['image_movement']=None
 stroke_width = st.sidebar.slider("Stroke width: ", 1, 25, 20)
 if drawing_mode == 'point':
@@ -531,17 +533,31 @@ with st.spinner('Wait for it...'):
                         # Process the uploaded PDF file
                         data = process_pdf("temp.pdf")
-                        text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
-                        chunks = text_splitter.split_documents(data)
-                        # chunk_texts = [str(chunk.page_content) for chunk in chunks]
-                        # print("testing",chunk_texts)
-                        model = encoding_model()
-                        embeddings = [model.encode(str(chunk.page_content)) for chunk in chunks]
-                        vector_store = []
-                        for chunk, embedding in zip(chunks, embeddings):
-                            vector_store.append((embedding, chunk.page_content) )
                     else:
                         if screen_width<=485:

     dictionary['current_session']=None
 if "image_movement" not in dictionary:
     dictionary['image_movement']=None
+if "text_embeddings" not in dictionary:
+    dictionary['text_embeddings']={}
 stroke_width = st.sidebar.slider("Stroke width: ", 1, 25, 20)
 if drawing_mode == 'point':
                         # Process the uploaded PDF file
                         data = process_pdf("temp.pdf")
+                        if str(data) not in dictionary['text_embeddings']:
+                            dictionary['text_embeddings']={}
+                            text_splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=100)
+                            chunks = text_splitter.split_documents(data)
+                            dictionary['text_embeddings'][str(data)]={str(chunk.page_content):model.encode(str(chunk.page_content)) for chunk in chunks}
+                            embeddings = [dictionary['text_embeddings'][str(data)][i] for i in dictionary['text_embeddings'][str(data)]]
+                            st.rerun()
+                        else:
+                            embeddings = [dictionary['text_embeddings'][str(data)][i] for i in dictionary['text_embeddings'][str(data)]]
+                            vector_store = []
+                            for i in dictionary['text_embeddings'][str(data)]:
+                                vector_store.append((dictionary['text_embeddings'][str(data)][i],i))
+                        # text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
+                        # chunks = text_splitter.split_documents(data)
+                        # # chunk_texts = [str(chunk.page_content) for chunk in chunks]
+                        # # print("testing",chunk_texts)
+                        # model = encoding_model()
+                        # embeddings = [model.encode(str(chunk.page_content)) for chunk in chunks]
+                        # vector_store = []
+                        # for chunk, embedding in zip(chunks, embeddings):
+                        #     vector_store.append((embedding, chunk.page_content) )
                     else:
                         if screen_width<=485: