Spaces:

hyperdemocracy
/

legisqa-local

Sleeping

App Files Files Community

gabrielaltay commited on Sep 28

Commit

471185d

1 Parent(s): c1ea157

more logging

Browse files

Files changed (2) hide show

src/legisqa_local/app.py +16 -0
src/legisqa_local/config/settings.py +60 -21

src/legisqa_local/app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 """Main Streamlit application for LegisQA"""
 import streamlit as st
 from legisqa_local.config.settings import STREAMLIT_CONFIG, setup_environment, setup_chromadb
 from legisqa_local.components.sidebar import render_sidebar
@@ -7,17 +8,32 @@ from legisqa_local.tabs.rag_tab import RAGTab
 from legisqa_local.tabs.rag_sbs_tab import RAGSideBySideTab
 from legisqa_local.tabs.guide_tab import GuideTab
 def main():
     """Main application function"""
     # Configure Streamlit
     st.set_page_config(**STREAMLIT_CONFIG)
     # Setup environment
     setup_environment()
     # Setup ChromaDB (download if needed)
     setup_chromadb()
     # Main content
     st.title(":classical_building: LegisQA :classical_building:")

 """Main Streamlit application for LegisQA"""
+import logging
 import streamlit as st
 from legisqa_local.config.settings import STREAMLIT_CONFIG, setup_environment, setup_chromadb
 from legisqa_local.components.sidebar import render_sidebar
 from legisqa_local.tabs.rag_sbs_tab import RAGSideBySideTab
 from legisqa_local.tabs.guide_tab import GuideTab
+# Configure logging (should be done once at application startup)
+logging.basicConfig(
+    level=logging.INFO,
+    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
+    force=True  # Force reconfiguration if already configured
+)
+logger = logging.getLogger(__name__)
 def main():
     """Main application function"""
+    logger.info("🚀 Starting LegisQA application...")
     # Configure Streamlit
     st.set_page_config(**STREAMLIT_CONFIG)
+    logger.info("✅ Streamlit configuration complete")
     # Setup environment
+    logger.info("🔧 Setting up environment...")
     setup_environment()
+    logger.info("✅ Environment setup complete")
     # Setup ChromaDB (download if needed)
+    logger.info("💾 Setting up ChromaDB...")
     setup_chromadb()
+    logger.info("✅ ChromaDB setup complete")
     # Main content
     st.title(":classical_building: LegisQA :classical_building:")

src/legisqa_local/config/settings.py CHANGED Viewed

@@ -1,8 +1,11 @@
 """Application settings and configuration"""
 import os
 import streamlit as st
 # Streamlit configuration
 STREAMLIT_CONFIG = {
     "layout": "wide",
@@ -36,74 +39,109 @@ def get_chroma_config():
 def setup_chromadb():
     """Setup ChromaDB - use persistent storage (/data) or download from S3 if needed"""
     chroma_config = get_chroma_config()
     chroma_path = chroma_config["persist_directory"]
     # For HF Spaces with persistent storage, prefer /data directory
     persistent_chroma_path = "/data/chromadb"
     if os.path.exists("/data"):
-        print("HF Spaces persistent storage detected at /data")
         # Check if ChromaDB exists in persistent storage
         if os.path.exists(persistent_chroma_path) and os.listdir(persistent_chroma_path):
-            print(f"✅ ChromaDB found in persistent storage: {persistent_chroma_path}")
             # Update environment variable to point to persistent storage
             os.environ["CHROMA_PERSIST_DIRECTORY"] = persistent_chroma_path
             return persistent_chroma_path
-        # Download from S3 to persistent storage
         s3_bucket = os.getenv("CHROMA_S3_BUCKET", "")
         s3_prefix = os.getenv("CHROMA_S3_PREFIX", "")
         if s3_bucket and s3_prefix:
-            print(f"📥 Downloading ChromaDB from S3 to persistent storage...")
-            print(f"   Source: s3://{s3_bucket}/{s3_prefix}")
-            print(f"   Target: {persistent_chroma_path}")
             success = download_chromadb_from_s3(s3_bucket, s3_prefix, persistent_chroma_path)
             if success:
                 # Update environment variable to point to persistent storage
                 os.environ["CHROMA_PERSIST_DIRECTORY"] = persistent_chroma_path
                 return persistent_chroma_path
         else:
-            print("❌ No S3 configuration found (CHROMA_S3_BUCKET, CHROMA_S3_PREFIX)")
     # Fallback: check if ChromaDB exists at configured path (local development)
-    if os.path.exists(chroma_path) and os.listdir(chroma_path):
-        print(f"✅ ChromaDB found at {chroma_path}")
-        return chroma_path
-    print(f"⚠️  Using default ChromaDB path: {chroma_path}")
     return chroma_path
 def download_chromadb_from_s3(bucket: str, prefix: str, local_path: str) -> bool:
     """Download ChromaDB from S3"""
     try:
         import subprocess
         import os
         # Ensure target directory exists
         os.makedirs(local_path, exist_ok=True)
         # Use AWS CLI to sync from S3 (no credentials needed for public buckets)
         s3_url = f"s3://{bucket}/{prefix}"
         cmd = ["aws", "s3", "sync", s3_url, local_path, "--no-sign-request"]
-        print(f"Running: {' '.join(cmd)}")
         result = subprocess.run(cmd, capture_output=True, text=True)
         if result.returncode == 0:
-            print("✅ ChromaDB download from S3 complete!")
             return True
         else:
-            print(f"❌ S3 download failed: {result.stderr}")
             return False
     except FileNotFoundError:
-        print("❌ AWS CLI not found. Trying with boto3...")
         return download_chromadb_from_s3_boto3(bucket, prefix, local_path)
     except Exception as e:
-        print(f"❌ Error downloading from S3: {e}")
         return False
 def download_chromadb_from_s3_boto3(bucket: str, prefix: str, local_path: str) -> bool:
@@ -114,12 +152,13 @@ def download_chromadb_from_s3_boto3(bucket: str, prefix: str, local_path: str) -
         from botocore.config import Config
         import os
-        print("📦 Using boto3 for S3 download...")
         # Create S3 client with no credentials (for public buckets)
         s3 = boto3.client('s3', config=Config(signature_version=UNSIGNED))
         # List objects in the S3 prefix
         paginator = s3.get_paginator('list_objects_v2')
         pages = paginator.paginate(Bucket=bucket, Prefix=prefix)
@@ -141,18 +180,18 @@ def download_chromadb_from_s3_boto3(bucket: str, prefix: str, local_path: str) -
                         # Download file
                         file_count += 1
                         if file_count % 10 == 0:
-                            print(f"Downloaded {file_count} files...")
                         s3.download_file(bucket, key, local_file_path)
-        print(f"✅ ChromaDB download from S3 (boto3) complete! Downloaded {file_count} files.")
         return True
     except ImportError:
-        print("❌ boto3 not available. Please install: pip install boto3")
         return False
     except Exception as e:
-        print(f"❌ Error downloading from S3 with boto3: {e}")
         return False
 # Embedding model configuration

 """Application settings and configuration"""
 import os
+import logging
 import streamlit as st
+logger = logging.getLogger(__name__)
 # Streamlit configuration
 STREAMLIT_CONFIG = {
     "layout": "wide",
 def setup_chromadb():
     """Setup ChromaDB - use persistent storage (/data) or download from S3 if needed"""
+    logger.info("=== ChromaDB Setup Starting ===")
     chroma_config = get_chroma_config()
     chroma_path = chroma_config["persist_directory"]
+    logger.info(f"Initial ChromaDB path: {chroma_path}")
     # For HF Spaces with persistent storage, prefer /data directory
     persistent_chroma_path = "/data/chromadb"
+    # Check if we're in HF Spaces with persistent storage
     if os.path.exists("/data"):
+        logger.info("🚀 HF Spaces persistent storage detected at /data")
         # Check if ChromaDB exists in persistent storage
         if os.path.exists(persistent_chroma_path) and os.listdir(persistent_chroma_path):
+            logger.info(f"✅ ChromaDB found in persistent storage: {persistent_chroma_path}")
             # Update environment variable to point to persistent storage
             os.environ["CHROMA_PERSIST_DIRECTORY"] = persistent_chroma_path
+            logger.info(f"Updated CHROMA_PERSIST_DIRECTORY to: {persistent_chroma_path}")
             return persistent_chroma_path
+        # ChromaDB not found in persistent storage, try to download from S3
+        logger.info("ChromaDB not found in persistent storage, checking S3 configuration...")
         s3_bucket = os.getenv("CHROMA_S3_BUCKET", "")
         s3_prefix = os.getenv("CHROMA_S3_PREFIX", "")
+        logger.info(f"S3 Bucket: {s3_bucket}")
+        logger.info(f"S3 Prefix: {s3_prefix}")
         if s3_bucket and s3_prefix:
+            logger.info(f"📥 Downloading ChromaDB from S3 to persistent storage...")
+            logger.info(f"   Source: s3://{s3_bucket}/{s3_prefix}")
+            logger.info(f"   Target: {persistent_chroma_path}")
             success = download_chromadb_from_s3(s3_bucket, s3_prefix, persistent_chroma_path)
             if success:
                 # Update environment variable to point to persistent storage
                 os.environ["CHROMA_PERSIST_DIRECTORY"] = persistent_chroma_path
+                logger.info(f"✅ ChromaDB download successful! Updated path to: {persistent_chroma_path}")
                 return persistent_chroma_path
+            else:
+                logger.error("❌ ChromaDB download from S3 failed!")
         else:
+            logger.error("❌ No S3 configuration found (CHROMA_S3_BUCKET, CHROMA_S3_PREFIX)")
+            logger.info("Available environment variables:")
+            for key, value in os.environ.items():
+                if "CHROMA" in key:
+                    logger.info(f"  {key}={value}")
+    else:
+        logger.info("No /data directory found (not in HF Spaces with persistent storage)")
     # Fallback: check if ChromaDB exists at configured path (local development)
+    logger.info(f"Checking fallback path: {chroma_path}")
+    if os.path.exists(chroma_path):
+        if os.listdir(chroma_path):
+            logger.info(f"✅ ChromaDB found at {chroma_path}")
+            return chroma_path
+        else:
+            logger.warning(f"ChromaDB directory exists but is empty: {chroma_path}")
+    else:
+        logger.warning(f"ChromaDB directory does not exist: {chroma_path}")
+    logger.warning(f"⚠️  Using default ChromaDB path: {chroma_path}")
+    logger.info("=== ChromaDB Setup Complete ===")
     return chroma_path
 def download_chromadb_from_s3(bucket: str, prefix: str, local_path: str) -> bool:
     """Download ChromaDB from S3"""
+    logger.info(f"Starting S3 download: s3://{bucket}/{prefix} -> {local_path}")
     try:
         import subprocess
         import os
         # Ensure target directory exists
+        logger.info(f"Creating target directory: {local_path}")
         os.makedirs(local_path, exist_ok=True)
         # Use AWS CLI to sync from S3 (no credentials needed for public buckets)
         s3_url = f"s3://{bucket}/{prefix}"
         cmd = ["aws", "s3", "sync", s3_url, local_path, "--no-sign-request"]
+        logger.info(f"Running AWS CLI command: {' '.join(cmd)}")
         result = subprocess.run(cmd, capture_output=True, text=True)
         if result.returncode == 0:
+            logger.info("✅ ChromaDB download from S3 (AWS CLI) complete!")
+            if result.stdout:
+                logger.info(f"AWS CLI output: {result.stdout}")
             return True
         else:
+            logger.error(f"❌ AWS CLI failed with return code {result.returncode}")
+            logger.error(f"AWS CLI stderr: {result.stderr}")
+            if result.stdout:
+                logger.error(f"AWS CLI stdout: {result.stdout}")
             return False
     except FileNotFoundError:
+        logger.warning("❌ AWS CLI not found. Trying with boto3...")
         return download_chromadb_from_s3_boto3(bucket, prefix, local_path)
     except Exception as e:
+        logger.error(f"❌ Error downloading from S3: {e}")
         return False
 def download_chromadb_from_s3_boto3(bucket: str, prefix: str, local_path: str) -> bool:
         from botocore.config import Config
         import os
+        logger.info("📦 Using boto3 for S3 download...")
         # Create S3 client with no credentials (for public buckets)
         s3 = boto3.client('s3', config=Config(signature_version=UNSIGNED))
         # List objects in the S3 prefix
+        logger.info(f"Listing objects in s3://{bucket}/{prefix}")
         paginator = s3.get_paginator('list_objects_v2')
         pages = paginator.paginate(Bucket=bucket, Prefix=prefix)
                         # Download file
                         file_count += 1
                         if file_count % 10 == 0:
+                            logger.info(f"Downloaded {file_count} files...")
                         s3.download_file(bucket, key, local_file_path)
+        logger.info(f"✅ ChromaDB download from S3 (boto3) complete! Downloaded {file_count} files.")
         return True
     except ImportError:
+        logger.error("❌ boto3 not available. Please install: pip install boto3")
         return False
     except Exception as e:
+        logger.error(f"❌ Error downloading from S3 with boto3: {e}")
         return False
 # Embedding model configuration