Spaces:

boettiger-lab
/

hwc-llm

Running

App Files Files Community

cboettig commited on 6 days ago

Commit

358dcca

1 Parent(s): c29aad8

:see_no_evil:

Browse files

Files changed (5) hide show

.gitignore +3 -0
Dockerfile +21 -0
README.md +20 -1
requirements.txt +14 -0
src/app.py +124 -0

.gitignore CHANGED Viewed

@@ -172,3 +172,6 @@ cython_debug/
 # PyPI configuration file
 .pypirc

 # PyPI configuration file
 .pypirc
+*.pdf

Dockerfile ADDED Viewed

	@@ -0,0 +1,21 @@

+FROM python:3.9-slim
+WORKDIR /app
+RUN apt-get update && apt-get install -y \
+    build-essential \
+    curl \
+    software-properties-common \
+    git \
+    && rm -rf /var/lib/apt/lists/*
+COPY requirements.txt ./
+COPY src/ ./src/
+RUN pip3 install -r requirements.txt
+EXPOSE 8501
+HEALTHCHECK CMD curl --fail http://localhost:8501/_stcore/health
+ENTRYPOINT ["streamlit", "run", "src/app.py", "--server.port=8501", "--server.address=0.0.0.0"]

README.md CHANGED Viewed

	@@ -1 +1,20 @@
1	- ~~# hwc-llm~~

+---
+title: Hwc Llm
+emoji: 🚀
+colorFrom: red
+colorTo: red
+sdk: docker
+app_port: 8501
+tags:
+- streamlit
+pinned: false
+short_description: Human-Wildlife Conflict LLM
+license: bsd
+---
+# Welcome to Streamlit!
+Edit `/src/streamlit_app.py` to customize this app to your heart's desire. :heart:
+If you have any questions, checkout our [documentation](https://docs.streamlit.io) and [community
+forums](https://discuss.streamlit.io).

requirements.txt ADDED Viewed

	@@ -0,0 +1,14 @@

+streamlit
+langchain-chroma
+bs4
+langchain
+langchain-chroma
+langchain-community
+langchain-core
+langchain-core
+langchain_openai
+langchain-text-splitters
+os
+requests
+zipfile
+pathlib

src/app.py ADDED Viewed

	@@ -0,0 +1,124 @@

+import streamlit as st
+from langchain_community.document_loaders import PyPDFLoader
+## dockerized streamlit app wants to read from os.getenv(), otherwise use st.secrets
+import os
+api_key = os.getenv("LITELLM_KEY")
+if api_key is None:
+    api_key = st.secrets["LITELLM_KEY"]
+cirrus_key = os.getenv("CIRRUS_KEY")
+if cirrus_key is None:
+    cirrus_key = st.secrets["CIRRUS_KEY"]
+st.title("HWC LLM Testing")
+'''
+(Demo will take a while to load first while processing all data!  Will be pre-processed in future...)
+'''
+# +
+import bs4
+from langchain import hub
+from langchain_chroma import Chroma
+from langchain_community.document_loaders import WebBaseLoader
+from langchain_core.output_parsers import StrOutputParser
+from langchain_core.runnables import RunnablePassthrough
+from langchain_openai import OpenAIEmbeddings
+from langchain_text_splitters import RecursiveCharacterTextSplitter
+import os
+import requests
+import zipfile
+def download_and_unzip(url, output_dir):
+    if not os.path.exists(output_dir):
+        os.makedirs(output_dir)
+    response = requests.get(url)
+    zip_file_path = os.path.basename(url)
+    with open(zip_file_path, 'wb') as f:
+        f.write(response.content)
+    with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
+        zip_ref.extractall(output_dir)
+    os.remove(zip_file_path)
+url = "https://minio.carlboettiger.info/public-data/hwc.zip"
+output_dir = "hwc"
+download_and_unzip(url, "hwc")
+import pathlib
+@st.cache_data
+def pdf_loader(path):
+    all_documents = []
+    docs_dir = pathlib.Path(path)
+    for file in docs_dir.iterdir():
+        loader = PyPDFLoader(file)
+        documents = loader.load()
+        all_documents.extend(documents)
+    return all_documents
+docs = pdf_loader('hwc/')
+# Set up the language model
+from langchain_openai import ChatOpenAI
+llm = ChatOpenAI(model = "llama3", api_key = api_key, base_url = "https://llm.nrp-nautilus.io",  temperature=0)
+## Cirrus instead:
+embedding = OpenAIEmbeddings(
+                 model = "cirrus",
+                 api_key = cirrus_key,
+                 base_url = "https://llm.cirrus.carlboettiger.info/v1",
+)
+# Build a retrival agent
+from langchain_core.vectorstores import InMemoryVectorStore
+from langchain_text_splitters import RecursiveCharacterTextSplitter
+text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
+splits = text_splitter.split_documents(docs)
+vectorstore = InMemoryVectorStore.from_documents(documents=splits, embedding=embedding)
+retriever = vectorstore.as_retriever()
+from langchain.chains import create_retrieval_chain
+from langchain.chains.combine_documents import create_stuff_documents_chain
+from langchain_core.prompts import ChatPromptTemplate
+system_prompt = (
+    "You are an assistant for question-answering tasks. "
+    "Use the following pieces of retrieved context to answer "
+    "the question. If you don't know the answer, say that you "
+    "don't know. Use three sentences maximum and keep the "
+    "answer concise."
+    "\n\n"
+    "{context}"
+)
+prompt = ChatPromptTemplate.from_messages(
+    [
+        ("system", system_prompt),
+        ("human", "{input}"),
+    ]
+)
+question_answer_chain = create_stuff_documents_chain(llm, prompt)
+rag_chain = create_retrieval_chain(retriever, question_answer_chain)
+# Place agent inside a streamlit application:
+if prompt := st.chat_input("What is the goal of CA 30x30?"):
+    with st.chat_message("user"):
+        st.markdown(prompt)
+    with st.chat_message("assistant"):
+        results = rag_chain.invoke({"input": prompt})
+        st.write(results['answer'])
+        with st.expander("See context matched"):
+            st.write(results['context'][0].page_content)
+            st.write(results['context'][0].metadata)
+# adapt for memory / multi-question interaction with:
+# https://python.langchain.com/docs/tutorials/qa_chat_history/
+# Also see structured outputs.