Spaces:

ArturG9
/

Question_Answer_Bot_With_Your_Pdf

Sleeping

App Files Files Community

ArturG9 commited on Jul 12, 2024

Commit

255d5ac

verified ·

1 Parent(s): 80ac152

Create app.py

Browse files

Files changed (1) hide show

app.py +206 -0

app.py ADDED Viewed

	@@ -0,0 +1,206 @@

+import os
+import streamlit as st
+from dotenv import load_dotenv
+from PyPDF2 import PdfReader
+from langchain_community.llms import llamacpp
+from langchain_community.embeddings import HuggingFaceEmbeddings
+from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
+from langchain_core.callbacks import CallbackManager, StreamingStdOutCallbackHandler
+from langchain.vectorstores import Chroma
+from langchain.chat_models import ChatOpenAI
+from langchain_community.chat_message_histories.streamlit import StreamlitChatMessageHistory
+from langchain.prompts import PromptTemplate,SystemMessagePromptTemplate,ChatPromptTemplate
+from langchain.chains.combine_documents import create_stuff_documents_chain
+from langchain.chains import create_history_aware_retriever, create_retrieval_chain, ConversationalRetrievalChain
+from langchain.text_splitter import TokenTextSplitter,RecursiveCharacterTextSplitter
+from langchain_core.runnables.history import RunnableWithMessageHistory
+from langchain_community.document_loaders.directory import DirectoryLoader
+from langchain.document_loaders import PyPDFLoader
+from htmlTemplates import css, bot_template, user_template
+from langchain.memory import ConversationBufferMemory
+from langchain.chains import ConversationalRetrievalChain
+from langchain_core.output_parsers import StrOutputParser
+from langchain_core.runnables import RunnablePassthrough
+from langchain import hub
+lang_api_key = os.getenv("lang_api_key")
+os.environ["LANGCHAIN_TRACING_V2"] = "true"
+os.environ["LANGCHAIN_ENDPOINT"] = "https://api.langchain.plus"
+os.environ["LANGCHAIN_API_KEY"] = lang_api_key
+os.environ["LANGCHAIN_PROJECT"] = "Chat with multiple PDFs"
+def get_pdf_text(pdf_docs):
+    text = ""
+    for pdf in pdf_docs:
+        pdf_reader = PdfReader(pdf)
+        for page in pdf_reader.pages:
+            text += page.extract_text()
+    return text
+def get_text_chunks(text):
+    text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
+        chunk_size=250, chunk_overlap=50,
+        separators=["\n \n \n", "\n \n", "\n1", "(?<=\. )", " ", ""],
+    )
+    chunks = text_splitter.split_text(text)
+    return chunks
+def get_vectorstore(text_chunks):
+    model_name = "Alibaba-NLP/gte-base-en-v1.5"
+    model_kwargs = {'device': 'cpu',
+                   "trust_remote_code" : 'True'}
+    encode_kwargs = {'normalize_embeddings': True}
+    embeddings = HuggingFaceEmbeddings(
+        model_name=model_name,
+        model_kwargs=model_kwargs,
+        encode_kwargs=encode_kwargs
+    )
+    vectorstore = Chroma.from_texts(
+        texts=text_chunks, embedding=embeddings, persist_directory="docs/chroma/")
+    return vectorstore
+def get_conversation_chain():
+    callback_manager = CallbackManager([StreamingStdOutCallbackHandler()])
+    llm = llamacpp.LlamaCpp(
+            model_path="qwen2-0_5b-instruct-q8_0.gguf",
+            n_gpu_layers=0,
+            temperature=0.1,
+            top_p = 0.9,
+            n_ctx=20000,
+            n_batch=2000,
+            max_tokens = 300,
+            repeat_penalty=1.9,
+            last_n_tokens_size = 300,
+            #callback_manager=callback_manager,
+            verbose=False,
+            )
+    prompt = hub.pull("rlm/rag-prompt")
+    rag_chain = prompt  | llm | StrOutputParser()
+    return rag_chain
+def main():
+    st.set_page_config(page_title="Chat with multiple PDFs", page_icon=":books:")
+    st.write(css, unsafe_allow_html=True)
+    st.header("Chat with multiple PDFs :books:")
+    if user_question := st.text_input("Ask a question about your documents:"):
+        handle_userinput(user_question, vectorstore, conversation)
+    st.subheader("Your documents")
+    pdf_docs = st.file_uploader("For Chatbot to get alive, upload your PDFs here and click on 'Process'", accept_multiple_files=True)
+    if st.button("Process"):
+        with st.spinner("Processing"):
+            if pdf_docs:
+                # get pdf text
+                raw_text = get_pdf_text(pdf_docs)
+                # get the text chunks
+                text_chunks = get_text_chunks(raw_text)
+                # create vector store
+                vectorstore = get_vectorstore(text_chunks)
+                # create conversation chain
+                conversation = get_conversation_chain()
+                st.success("Files have been processed into a vector store.")
+                return vectorstore , conversation
+    st.subheader("Chat Bot")
+    if user_question := st.text_input("Ask a question about your documents:"):
+        handle_userinput(user_question, vectorstore, conversation)
+def handle_userinput(user_question,vectorstore,conversation ):
+    if "chat_history" not in st.session_state:
+        st.session_state["chat_history"] = [
+        {"role": "assistant", "content": "Hi, I'm a Q&A chatbot who is based on your imported pdf documents  . How can I help you?"}
+    ]
+    st.session_state.chat_history.append({"role": "user", "content": user_question})
+    retriever = vectorstore.as_retriever(search_type = 'mmr', search_kwargs={"k": 7})
+    docs = retriever.invoke(user_question)
+    with st.sidebar:
+        st.subheader("Your documents")
+        with st.spinner("Processing"):
+            for doc in docs:
+                st.write(f"Document: {doc}")
+    doc_txt = [doc.page_content for doc in docs]
+    # Invoke conversation chain
+    response = conversation.invoke({"context": docs, "question": user_question})
+    st.session_state.chat_history.append({"role": "assistant", "content": response})
+    for i, message in enumerate(st.session_state.chat_history):
+        if i % 2 == 0:
+            st.write(user_template.replace(
+                "{{MSG}}", message['content']), unsafe_allow_html=True)
+        else:
+            st.write(bot_template.replace(
+                "{{MSG}}", message['content']), unsafe_allow_html=True)
+    # if 'source_documents' in response:
+        # st.subheader("Retrieved Documents")
+        # for doc in response['source_documents']:
+         #    st.write(f"Document: {doc.metadata['source']}")
+          #   st.write(doc.page_content)
+if __name__ == '__main__':
+    main()