Spaces:

kfoughali
/

serpent

Running

App Files Files Community

serpent / core /trainer.py

kfoughali

Update core/trainer.py

7a2f94c verified about 1 month ago

raw

history blame contribute delete

10 kB

	import torch
	import torch.nn as nn
	import torch.optim as optim
	from torch.optim.lr_scheduler import ReduceLROnPlateau
	import numpy as np
	import time
	import logging
	from utils.metrics import GraphMetrics

	logger = logging.getLogger(__name__)

	class GraphMambaTrainer:
	"""Anti-overfitting trainer with heavy regularization"""

	def __init__(self, model, config, device):
	self.model = model
	self.config = config
	self.device = device

	# Optimized learning parameters
	self.lr = config['training']['learning_rate']
	self.epochs = config['training']['epochs']
	self.patience = config['training'].get('patience', 20)
	self.min_lr = config['training'].get('min_lr', 1e-6)
	self.max_gap = config['training'].get('max_gap', 0.4)

	# Heavily regularized optimizer
	self.optimizer = optim.AdamW(
	model.parameters(),
	lr=self.lr,
	weight_decay=config['training']['weight_decay'],
	betas=(0.9, 0.999),
	eps=1e-8
	)

	# Proper loss function with label smoothing
	self.criterion = nn.CrossEntropyLoss(
	label_smoothing=config['training'].get('label_smoothing', 0.1)
	)

	# Balanced scheduler
	self.scheduler = ReduceLROnPlateau(
	self.optimizer,
	mode='max',
	factor=0.5,
	patience=5,
	min_lr=self.min_lr
	)

	# Training state
	self.best_val_acc = 0.0
	self.best_val_loss = float('inf')
	self.patience_counter = 0
	self.training_history = {
	'train_loss': [], 'train_acc': [],
	'val_loss': [], 'val_acc': [], 'lr': []
	}

	# Track overfitting
	self.best_gap = float('inf')
	self.overfitting_threshold = 0.25 # Balanced threshold

	def train_node_classification(self, data, verbose=True):
	"""Anti-overfitting training with gap monitoring"""

	if verbose:
	total_params = sum(p.numel() for p in self.model.parameters())
	train_samples = data.train_mask.sum().item()
	params_per_sample = total_params / train_samples

	print(f"🏋️ Training GraphMamba for {self.epochs} epochs")
	print(f"📊 Dataset: {data.num_nodes} nodes, {data.num_edges} edges")
	print(f"🎯 Classes: {len(torch.unique(data.y))}")
	print(f"💾 Device: {self.device}")
	print(f"⚙️ Parameters: {total_params:,}")
	print(f"📚 Training samples: {train_samples}")
	print(f"⚠️ Params per sample: {params_per_sample:.1f}")
	print(f"🚨 Max allowed gap: {self.max_gap:.3f}")

	if params_per_sample > 500:
	print(f"🚨 WARNING: High params per sample ratio - overfitting risk!")

	# Initialize classifier
	num_classes = len(torch.unique(data.y))
	self.model._init_classifier(num_classes, self.device)

	self.model.train()
	start_time = time.time()

	for epoch in range(self.epochs):
	# Training step
	train_metrics = self._train_epoch(data, epoch)

	# Validation step
	val_metrics = self._validate_epoch(data, epoch)

	# Calculate overfitting gap
	acc_gap = train_metrics['acc'] - val_metrics['acc']

	# Update history
	self.training_history['train_loss'].append(train_metrics['loss'])
	self.training_history['train_acc'].append(train_metrics['acc'])
	self.training_history['val_loss'].append(val_metrics['loss'])
	self.training_history['val_acc'].append(val_metrics['acc'])
	self.training_history['lr'].append(self.optimizer.param_groups[0]['lr'])

	# Step scheduler
	self.scheduler.step(val_metrics['acc'])

	# Check for improvement
	if val_metrics['acc'] > self.best_val_acc:
	self.best_val_acc = val_metrics['acc']
	self.best_val_loss = val_metrics['loss']
	self.best_gap = acc_gap
	self.patience_counter = 0
	if verbose:
	print(f"🎉 New best validation accuracy: {self.best_val_acc:.4f}")
	else:
	self.patience_counter += 1

	# Aggressive overfitting detection
	if acc_gap > self.overfitting_threshold:
	if verbose:
	print(f"🚨 OVERFITTING detected: {acc_gap:.3f} gap")
	print(f" Train: {train_metrics['acc']:.3f}, Val: {val_metrics['acc']:.3f}")

	# Progress logging
	if verbose and (epoch == 0 or (epoch + 1) % 5 == 0 or epoch == self.epochs - 1):
	elapsed = time.time() - start_time
	gap_indicator = "🚨" if acc_gap > 0.25 else "⚠️" if acc_gap > 0.15 else "✅"

	print(f"Epoch {epoch:3d} \| "
	f"Train: {train_metrics['loss']:.4f} ({train_metrics['acc']:.4f}) \| "
	f"Val: {val_metrics['loss']:.4f} ({val_metrics['acc']:.4f}) \| "
	f"Gap: {acc_gap:.3f} {gap_indicator} \| "
	f"LR: {self.optimizer.param_groups[0]['lr']:.6f}")

	# Enhanced early stopping conditions
	if self.patience_counter >= self.patience:
	if verbose:
	print(f"🛑 Early stopping at epoch {epoch} (patience)")
	break

	# Stop if gap exceeds threshold
	if acc_gap > self.max_gap:
	if verbose:
	print(f"🛑 Stopping due to overfitting gap: {acc_gap:.3f} > {self.max_gap:.3f}")
	break

	# Stop if severe overfitting (backup check)
	if acc_gap > 0.6:
	if verbose:
	print(f"🛑 Emergency stop - severe overfitting (gap: {acc_gap:.3f})")
	break

	if verbose:
	total_time = time.time() - start_time
	print(f"✅ Training completed in {total_time:.2f}s")
	print(f"🏆 Best validation accuracy: {self.best_val_acc:.4f}")
	print(f"📊 Best train-val gap: {self.best_gap:.4f}")

	if self.best_gap < 0.1:
	print("🎉 Excellent generalization!")
	elif self.best_gap < 0.2:
	print("👍 Good generalization")
	else:
	print("⚠️ Some overfitting detected")

	return self.training_history

	def _train_epoch(self, data, epoch):
	"""Single training epoch with regularization"""
	self.model.train()
	self.optimizer.zero_grad()

	# Forward pass (with data augmentation)
	h = self.model(data.x, data.edge_index)
	logits = self.model.classifier(h)

	# Compute loss on training nodes only
	train_loss = self.criterion(logits[data.train_mask], data.y[data.train_mask])

	# Add stronger L2 regularization
	l2_reg = 0.0
	for param in self.model.parameters():
	l2_reg += torch.norm(param, p=2)
	train_loss += 5e-5 * l2_reg # Increased from 1e-5

	# Backward pass with gradient clipping
	train_loss.backward()
	torch.nn.utils.clip_grad_norm_(self.model.parameters(), max_norm=0.5) # Reduced from 1.0
	self.optimizer.step()

	# Compute accuracy
	with torch.no_grad():
	train_pred = logits[data.train_mask].argmax(dim=1)
	train_acc = (train_pred == data.y[data.train_mask]).float().mean().item()

	return {'loss': train_loss.item(), 'acc': train_acc}

	def _validate_epoch(self, data, epoch):
	"""Validation without augmentation"""
	self.model.eval()

	with torch.no_grad():
	h = self.model(data.x, data.edge_index)
	logits = self.model.classifier(h)

	# Validation loss and accuracy
	val_loss = self.criterion(logits[data.val_mask], data.y[data.val_mask])
	val_pred = logits[data.val_mask].argmax(dim=1)
	val_acc = (val_pred == data.y[data.val_mask]).float().mean().item()

	return {'loss': val_loss.item(), 'acc': val_acc}

	def test(self, data):
	"""Test evaluation"""
	self.model.eval()

	with torch.no_grad():
	h = self.model(data.x, data.edge_index)

	if self.model.classifier is None:
	num_classes = len(torch.unique(data.y))
	self.model._init_classifier(num_classes, self.device)

	logits = self.model.classifier(h)

	# Test metrics
	test_loss = self.criterion(logits[data.test_mask], data.y[data.test_mask])
	test_pred = logits[data.test_mask]
	test_target = data.y[data.test_mask]

	metrics = {
	'test_loss': test_loss.item(),
	'test_acc': GraphMetrics.accuracy(test_pred, test_target),
	'f1_macro': GraphMetrics.f1_score_macro(test_pred, test_target),
	'f1_micro': GraphMetrics.f1_score_micro(test_pred, test_target),
	}

	precision, recall = GraphMetrics.precision_recall(test_pred, test_target)
	metrics['precision'] = precision
	metrics['recall'] = recall

	return metrics

	def get_embeddings(self, data):
	"""Get node embeddings"""
	self.model.eval()
	with torch.no_grad():
	return self.model(data.x, data.edge_index)