Spaces:

dev100rabh
/

FakeNews

Sleeping

FakeNews / src /train.py

100rabhsah

Add model files using Git LFS

769dd6f 6 months ago

5.07 kB

	import torch
	from transformers import BertTokenizer
	import pandas as pd
	import logging
	from pathlib import Path
	import sys
	import os

	# Add project root to Python path
	project_root = Path(__file__).parent.parent
	sys.path.append(str(project_root))

	from src.data.preprocessor import TextPreprocessor
	from src.data.dataset import create_data_loaders
	from src.models.hybrid_model import HybridFakeNewsDetector
	from src.models.trainer import ModelTrainer
	from src.config.config import *
	from src.visualization.plot_metrics import (
	plot_training_history,
	plot_confusion_matrix,
	plot_model_comparison,
	plot_feature_importance
	)

	logging.basicConfig(level=logging.INFO)
	logger = logging.getLogger(__name__)

	def main():
	# Create necessary directories
	os.makedirs(SAVED_MODELS_DIR, exist_ok=True)
	os.makedirs(CHECKPOINTS_DIR, exist_ok=True)
	os.makedirs(project_root / "visualizations", exist_ok=True)

	# Load and preprocess data
	logger.info("Loading and preprocessing data...")
	df = pd.read_csv(PROCESSED_DATA_DIR / "combined_dataset.csv")

	# Limit dataset size for faster training
	if len(df) > MAX_SAMPLES:
	logger.info(f"Limiting dataset to {MAX_SAMPLES} samples for faster training")
	df = df.sample(n=MAX_SAMPLES, random_state=RANDOM_STATE)

	preprocessor = TextPreprocessor()
	df = preprocessor.preprocess_dataframe(
	df,
	text_column='text',
	remove_urls=True,
	remove_emojis=True,
	remove_special_chars=True,
	remove_stopwords=True,
	lemmatize=True
	)

	# Initialize tokenizer
	tokenizer = BertTokenizer.from_pretrained(BERT_MODEL_NAME)

	# Create data loaders
	logger.info("Creating data loaders...")
	data_loaders = create_data_loaders(
	df=df,
	text_column='text',
	label_column='label',
	tokenizer=tokenizer,
	batch_size=BATCH_SIZE,
	max_length=MAX_SEQUENCE_LENGTH,
	train_size=1-TEST_SIZE-VAL_SIZE,
	val_size=VAL_SIZE,
	random_state=RANDOM_STATE
	)

	# Initialize model
	logger.info("Initializing model...")
	model = HybridFakeNewsDetector(
	bert_model_name=BERT_MODEL_NAME,
	lstm_hidden_size=LSTM_HIDDEN_SIZE,
	lstm_num_layers=LSTM_NUM_LAYERS,
	dropout_rate=DROPOUT_RATE
	)

	# Initialize trainer
	logger.info("Initializing trainer...")
	trainer = ModelTrainer(
	model=model,
	device=DEVICE,
	learning_rate=LEARNING_RATE,
	num_epochs=NUM_EPOCHS,
	early_stopping_patience=EARLY_STOPPING_PATIENCE
	)

	# Calculate total training steps
	num_training_steps = len(data_loaders['train']) * NUM_EPOCHS

	# Train model
	logger.info("Starting training...")
	history = trainer.train(
	train_loader=data_loaders['train'],
	val_loader=data_loaders['val'],
	num_training_steps=num_training_steps
	)

	# Evaluate on test set
	logger.info("Evaluating on test set...")
	test_loss, test_metrics = trainer.evaluate(data_loaders['test'])
	logger.info(f"Test Loss: {test_loss:.4f}")
	logger.info(f"Test Metrics: {test_metrics}")

	# Save final model
	logger.info("Saving final model...")
	torch.save(model.state_dict(), SAVED_MODELS_DIR / "final_model.pt")

	# Generate visualizations
	logger.info("Generating visualizations...")
	vis_dir = project_root / "visualizations"

	# Plot training history
	plot_training_history(history, save_path=vis_dir / "training_history.png")

	# Get predictions for confusion matrix
	model.eval()
	all_preds = []
	all_labels = []
	with torch.no_grad():
	for batch in data_loaders['test']:
	input_ids = batch['input_ids'].to(DEVICE)
	attention_mask = batch['attention_mask'].to(DEVICE)
	labels = batch['label']

	outputs = model(input_ids, attention_mask)
	preds = torch.argmax(outputs['logits'], dim=1)

	all_preds.extend(preds.cpu().numpy())
	all_labels.extend(labels.numpy())

	# Plot confusion matrix
	plot_confusion_matrix(
	np.array(all_labels),
	np.array(all_preds),
	save_path=vis_dir / "confusion_matrix.png"
	)

	# Plot model comparison with baseline models
	baseline_metrics = {
	'BERT': {'accuracy': 0.85, 'precision': 0.82, 'recall': 0.88, 'f1': 0.85},
	'BiLSTM': {'accuracy': 0.78, 'precision': 0.75, 'recall': 0.81, 'f1': 0.78},
	'Hybrid': test_metrics # Our model's metrics
	}
	plot_model_comparison(baseline_metrics, save_path=vis_dir / "model_comparison.png")

	# Plot feature importance
	feature_importance = {
	'BERT': 0.4,
	'BiLSTM': 0.3,
	'Attention': 0.2,
	'TF-IDF': 0.1
	}
	plot_feature_importance(feature_importance, save_path=vis_dir / "feature_importance.png")

	logger.info("Training and visualization completed!")

	if __name__ == "__main__":
	main()