Spaces:

rshakked
/

safe-talk

Sleeping

App Files Files Community

rshakked commited on 29 days ago

Commit

980da81

1 Parent(s): 1d998d0

feat: save and display abuse prediction results with timestamped filenames

Browse files

Files changed (2) hide show

train_abuse_model.py +27 -9
utils.py +33 -0

train_abuse_model.py CHANGED Viewed

@@ -6,6 +6,7 @@ import io
 import os
 import time
 import gradio as gr  # ✅ required for progress bar
 from pathlib import Path
 import queue
@@ -43,11 +44,26 @@ from utils import (
     AbuseDataset
 )
 PERSIST_DIR = Path("/home/user/app")
 MODEL_DIR = PERSIST_DIR / "saved_model"
 LOG_FILE = PERSIST_DIR / "training.log"
 # configure logging
 log_buffer = io.StringIO()
 logging.basicConfig(
@@ -100,20 +116,19 @@ def evaluate_model_with_thresholds(trainer, test_dataset):
     logger.info("\n📊 Final Evaluation Report (multi-class per label):\n")
     yield "\n📊 Final Evaluation Report (multi-class per label):\n "
-    logger.info(classification_report(
-        true_str,
-        final_pred_str,
-        labels=["no", "plausibly", "yes"],
-        digits=3,
-        zero_division=0
-    ))
-    yield classification_report(
         true_str,
         final_pred_str,
         labels=["no", "plausibly", "yes"],
         digits=3,
         zero_division=0
     )
 def load_saved_model_and_tokenizer():
     tokenizer = DebertaV2Tokenizer.from_pretrained(MODEL_DIR)
     model = AutoModelForSequenceClassification.from_pretrained(MODEL_DIR).to(device)
@@ -296,13 +311,16 @@ def run_training(progress=gr.Progress(track_tqdm=True)):
         progress(1.0)
         yield "✅ Progress: 100%\n"
         # Save the model and tokenizer
         MODEL_DIR.mkdir(parents=True, exist_ok=True)
         model.save_pretrained(MODEL_DIR)
         tokenizer.save_pretrained(MODEL_DIR)
         logger.info(" Training completed and model saved.")
-        yield "🎉 Training complete! Model saved.\n"
     except Exception as e:
         logger.exception( f"❌ Training failed: {e}")

 import os
 import time
 import gradio as gr  # ✅ required for progress bar
+from datetime import datetime
 from pathlib import Path
 import queue
     AbuseDataset
 )
+# Create evaluation results directory if it doesn't exist
+Path("/home/user/app/results_eval").mkdir(parents=True, exist_ok=True)
 PERSIST_DIR = Path("/home/user/app")
 MODEL_DIR = PERSIST_DIR / "saved_model"
 LOG_FILE = PERSIST_DIR / "training.log"
+# Save and print evaluation results
+def save_and_yield_eval(report: str):
+    # Generate versioned filename using timestamp
+    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
+    eval_filename = f"eval_report_{timestamp}.txt"
+    eval_filepath = Path("/home/user/app/results_eval") / eval_filename
+    with open(eval_filepath, "w") as f:
+        f.write(report)
+    yield f"📄 Evaluation saved to: {eval_filepath.name}"
+    yield report
 # configure logging
 log_buffer = io.StringIO()
 logging.basicConfig(
     logger.info("\n📊 Final Evaluation Report (multi-class per label):\n")
     yield "\n📊 Final Evaluation Report (multi-class per label):\n "
+    report = classification_report(
         true_str,
         final_pred_str,
         labels=["no", "plausibly", "yes"],
         digits=3,
         zero_division=0
     )
+    logger.info(report)
+    yield from save_and_yield_eval(report)
+    # Save to file
+    with open("/home/user/app/results_eval/eval_report.txt", "w") as f:
+        f.write(report)
 def load_saved_model_and_tokenizer():
     tokenizer = DebertaV2Tokenizer.from_pretrained(MODEL_DIR)
     model = AutoModelForSequenceClassification.from_pretrained(MODEL_DIR).to(device)
         progress(1.0)
         yield "✅ Progress: 100%\n"
+        PERSIST_DIR = Path("/home/user/app")
+        MODEL_DIR = PERSIST_DIR / "saved_model"
         # Save the model and tokenizer
         MODEL_DIR.mkdir(parents=True, exist_ok=True)
         model.save_pretrained(MODEL_DIR)
         tokenizer.save_pretrained(MODEL_DIR)
         logger.info(" Training completed and model saved.")
+        yield f"🎉 Training complete! Model saved on {MODEL_DIR.resolve()}.\n"
     except Exception as e:
         logger.exception( f"❌ Training failed: {e}")

utils.py CHANGED Viewed

@@ -2,6 +2,39 @@ import numpy as np
 from sklearn.metrics import precision_recall_fscore_support
 import torch
 from torch.utils.data import Dataset
 # Custom Dataset class
 class AbuseDataset(Dataset):

 from sklearn.metrics import precision_recall_fscore_support
 import torch
 from torch.utils.data import Dataset
+from datetime import datetime
+from pathlib import Path
+import logging
+def save_and_return_prediction(enriched_input: str, predicted_labels: list):
+    Path("/home/user/app/results_pred").mkdir(parents=True, exist_ok=True)
+    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
+    pred_filename = f"prediction_{timestamp}.txt"
+    pred_filepath = Path("/home/user/app/results_pred") / pred_filename
+    with open(pred_filepath, "w") as f:
+        f.write("===== Enriched Input =====\n")
+        f.write(enriched_input + "\n\n")
+        f.write("===== Predicted Labels =====\n")
+        f.write(", ".join(predicted_labels))
+    return str(pred_filepath.name)
+# Save and print evaluation results
+def save_and_yield_eval(report: str):
+    # Create evaluation results directories if they don't exist
+    Path("/home/user/app/results_eval").mkdir(parents=True, exist_ok=True)
+    # Generate versioned filename using timestamp
+    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
+    eval_filename = f"eval_report_{timestamp}.txt"
+    eval_filepath = Path("/home/user/app/results_eval") / eval_filename
+    with open(eval_filepath, "w") as f:
+        f.write(report)
+    yield f"📄 Evaluation saved to: {eval_filepath.name}"
+    yield report
 # Custom Dataset class
 class AbuseDataset(Dataset):