Create train.py

c2b8ae0 verified 11 days ago

18.1 kB

	import torch
	import torch.nn as nn
	import torch.optim as optim
	from torch.utils.data import Dataset, DataLoader
	import torch.nn.functional as F
	from torch.cuda.amp import GradScaler, autocast
	import os
	import json
	import argparse
	import time
	import math
	import glob
	from typing import Dict, List
	from tqdm import tqdm
	import numpy as np
	import gc
	from collections import defaultdict
	import multiprocessing
	# Import custom modules
	try:
	from model_slm import MixtureOfRecursions, count_parameters, TextGenerator
	from custom_tokenizer import TechnicalTokenizer
	except ImportError as e:
	print(f"Import error: {e}")
	exit(1)
	class FastTechnicalTextDataset(Dataset):
	"""Ultra-fast dataset with aggressive optimizations for 4-5hr training"""
	def __init__(self, data_file: str, tokenizer: TechnicalTokenizer, max_length: int = 128, max_examples: int = 50000):
	self.tokenizer = tokenizer
	self.max_length = max_length
	self.pad_token_id = tokenizer.vocab.get('<pad>', 0)
	self.max_examples = max_examples
	print(f"FAST DATASET LOADING")
	print(f"Data file: {data_file}")
	print(f"Max sequence length: {max_length}")
	print(f"Max examples: {max_examples}")
	start_time = time.time()
	self.examples = []
	self._fast_load_data(data_file)
	load_time = time.time() - start_time
	print(f" Loaded {len(self.examples)} examples in {load_time:.1f}s")
	self._tensorize_data()
	gc.collect()
	torch.cuda.empty_cache() if torch.cuda.is_available() else None
	def _fast_load_data(self, data_file: str):
	print("🔍 Fast reading file...")
	with open(data_file, 'r', encoding='utf-8') as f:
	lines = f.readlines()
	print(f"File has {len(lines)} lines")
	good_examples = []
	seen_hashes = set()
	for line in lines[:self.max_examples * 3]:
	line = line.strip()
	if (50 <= len(line) <= 400 and
	line.count(' ') >= 8 and
	not line.lower().startswith(('http', 'www', 'ftp')) and
	line.count('.') <= len(line) * 0.1):
	line_hash = hash(line[:100])
	if line_hash not in seen_hashes:
	seen_hashes.add(line_hash)
	good_examples.append(line)
	if len(good_examples) >= self.max_examples:
	break
	print(f"After fast filtering: {len(good_examples)} quality examples")
	batch_size = 1000
	for i in range(0, len(good_examples), batch_size):
	batch = good_examples[i:i+batch_size]
	for line in batch:
	try:
	if not line.endswith('<\|endoftext\|>'):
	line += ' <\|endoftext\|>'
	tokens = self.tokenizer.encode_ids(line, add_special_tokens=True)
	if 30 <= len(tokens) <= self.max_length:
	if len(tokens) < self.max_length:
	tokens = tokens + [self.pad_token_id] * (self.max_length - len(tokens))
	self.examples.append(tokens)
	except:
	continue
	if i % 5000 == 0:
	print(f"Processed {len(self.examples)} examples...")
	print(f"Final dataset: {len(self.examples)} examples")
	def _tensorize_data(self):
	print("Pre-tensorizing data for maximum speed...")
	seq_len = self.max_length - 1
	tensorized_examples = []
	for tokens in self.examples:
	if len(tokens) < self.max_length:
	continue
	input_ids = torch.tensor(tokens[:-1], dtype=torch.long)
	targets = torch.tensor(tokens[1:], dtype=torch.long)
	original_len = next((i for i, x in enumerate(tokens) if x == self.pad_token_id), self.max_length)
	mask_len = min(original_len, seq_len)
	attention_mask = torch.zeros(seq_len, dtype=torch.long)
	attention_mask[:mask_len] = 1
	tensorized_examples.append({
	'input_ids': input_ids,
	'targets': targets,
	'attention_mask': attention_mask
	})
	self.examples = tensorized_examples
	print("All data pre-tensorized")
	def __len__(self):
	return len(self.examples)
	def __getitem__(self, idx):
	return self.examples[idx]
	class FastCosineScheduler:
	def __init__(self, optimizer, total_steps: int, warmup_ratio: float = 0.05):
	self.optimizer = optimizer
	self.total_steps = total_steps
	self.warmup_steps = int(total_steps * warmup_ratio)
	self.base_lr = optimizer.param_groups[0]['lr']
	self.step_count = 0
	def step(self):
	self.step_count += 1
	if self.step_count <= self.warmup_steps:
	lr = self.base_lr * self.step_count / self.warmup_steps
	else:
	progress = (self.step_count - self.warmup_steps) / (self.total_steps - self.warmup_steps)
	lr = self.base_lr * 0.5 * (1 + math.cos(math.pi * progress))
	for param_group in self.optimizer.param_groups:
	param_group['lr'] = lr
	return lr
	class UltraFastTrainer:
	def __init__(self, model, tokenizer, train_dataset, val_dataset=None, config=None):
	self.model = model
	self.tokenizer = tokenizer
	self.train_dataset = train_dataset
	self.val_dataset = val_dataset
	self.config = config or {}
	self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
	self.model.to(self.device)
	self._fast_init_weights()
	self._setup_fast_optimizer()
	epochs = self.config.get('epochs', 15)
	batch_size = self.config.get('batch_size', 16)
	total_steps = len(train_dataset) // batch_size * epochs
	self.scheduler = FastCosineScheduler(self.optimizer, total_steps)
	self.scaler = GradScaler()
	self.global_step = 0
	self.best_loss = float('inf')
	self.grad_accum_steps = self.config.get('gradient_accumulation_steps', 1)
	self.eval_every = self.config.get('eval_every', 500)
	def _fast_init_weights(self):
	def fast_init(module):
	if isinstance(module, nn.Linear):
	nn.init.normal_(module.weight, std=0.02)
	if module.bias is not None:
	nn.init.zeros_(module.bias)
	elif isinstance(module, nn.Embedding):
	nn.init.normal_(module.weight, std=0.02)
	self.model.apply(fast_init)
	def _setup_fast_optimizer(self):
	lr = self.config.get('learning_rate', 5e-4)
	params = [p for p in self.model.parameters() if p.requires_grad]
	self.optimizer = optim.AdamW(params, lr=lr, betas=(0.9, 0.99), weight_decay=0.01, eps=1e-6)
	def compute_fast_loss(self, logits, targets, mask):
	logits_flat = logits.view(-1, logits.size(-1))
	targets_flat = targets.view(-1)
	mask_flat = mask.view(-1).bool()
	if not mask_flat.any():
	return torch.tensor(0.0, device=logits.device, requires_grad=True)
	loss = F.cross_entropy(logits_flat[mask_flat], targets_flat[mask_flat])
	return loss
	def train_epoch_fast(self, epoch: int, dataloader: DataLoader) -> Dict[str, float]:
	self.model.train()
	total_loss = 0
	num_batches = 0
	start_time = time.time()
	progress_bar = tqdm(dataloader, desc=f"Epoch {epoch}", leave=False, miniters=50)
	for batch_idx, batch in enumerate(progress_bar):
	input_ids = batch['input_ids'].to(self.device, non_blocking=True)
	targets = batch['targets'].to(self.device, non_blocking=True)
	mask = batch['attention_mask'].to(self.device, non_blocking=True)
	with autocast():
	logits, comp_loss = self.model(input_ids, mask)
	lm_loss = self.compute_fast_loss(logits, targets, mask)
	total_loss_step = lm_loss + 0.0001 * comp_loss
	if self.grad_accum_steps > 1:
	total_loss_step = total_loss_step / self.grad_accum_steps
	self.scaler.scale(total_loss_step).backward()
	if (batch_idx + 1) % self.grad_accum_steps == 0:
	self.scaler.unscale_(self.optimizer)
	torch.nn.utils.clip_grad_norm_(self.model.parameters(), 1.0)
	self.scaler.step(self.optimizer)
	self.scaler.update()
	self.optimizer.zero_grad(set_to_none=True)
	self.scheduler.step()
	self.global_step += 1
	total_loss += lm_loss.item()
	num_batches += 1
	if batch_idx % 100 == 0:
	current_loss = total_loss / num_batches
	progress_bar.set_postfix({'loss': f"{current_loss:.3f}", 'ppl': f"{math.exp(min(current_loss, 10)):.1f}"})
	if batch_idx % 200 == 0 and batch_idx > 0:
	torch.cuda.empty_cache()
	epoch_time = time.time() - start_time
	avg_loss = total_loss / max(num_batches, 1)
	return {'loss': avg_loss, 'perplexity': math.exp(min(avg_loss, 10)), 'epoch_time_min': epoch_time / 60}
	def validate_fast(self, dataloader: DataLoader) -> Dict[str, float]:
	self.model.eval()
	total_loss = 0
	num_batches = 0
	max_val_batches = min(100, len(dataloader))
	with torch.no_grad():
	for batch_idx, batch in enumerate(dataloader):
	if batch_idx >= max_val_batches:
	break
	input_ids = batch['input_ids'].to(self.device, non_blocking=True)
	targets = batch['targets'].to(self.device, non_blocking=True)
	mask = batch['attention_mask'].to(self.device, non_blocking=True)
	with autocast():
	logits, _ = self.model(input_ids, mask)
	loss = self.compute_fast_loss(logits, targets, mask)
	total_loss += loss.item()
	num_batches += 1
	avg_loss = total_loss / max(num_batches, 1)
	return {'loss': avg_loss, 'perplexity': math.exp(min(avg_loss, 10))}
	def save_checkpoint_fast(self, epoch: int, metrics: Dict, save_dir: str = "checkpoints"):
	os.makedirs(save_dir, exist_ok=True)
	val_loss = metrics.get('val_loss', metrics.get('loss', float('inf')))
	if val_loss < self.best_loss:
	self.best_loss = val_loss
	checkpoint = {
	'epoch': epoch,
	'model_state_dict': self.model.state_dict(),
	'optimizer_state_dict': self.optimizer.state_dict(),
	'metrics': metrics,
	'scaler_state_dict': self.scaler.state_dict()
	}
	best_path = os.path.join(save_dir, "best_model.pt")
	torch.save(checkpoint, best_path)
	print(f"New best! Loss: {val_loss:.4f}")
	return best_path
	return None
	def train_ultra_fast(self, num_epochs: int = 15, batch_size: int = 16):
	print(f"\n ULTRA-FAST TRAINING")
	print(f" Target: Loss < 2.0, PPL < 12")
	print(f" Time target: 4-5 hours")
	print(f" Epochs: {num_epochs}")
	print(f" Batch size: {batch_size}")
	print("-" * 60)
	train_loader = DataLoader(
	self.train_dataset,
	batch_size=batch_size,
	shuffle=True,
	num_workers=4,
	pin_memory=True,
	persistent_workers=True,
	drop_last=True
	)
	val_loader = None
	if self.val_dataset:
	val_loader = DataLoader(
	self.val_dataset,
	batch_size=batch_size * 2,
	shuffle=False,
	num_workers=2,
	pin_memory=True
	)
	total_start_time = time.time()
	history = []
	for epoch in range(1, num_epochs + 1):
	epoch_start = time.time()
	print(f"\n EPOCH {epoch}/{num_epochs}")
	train_metrics = self.train_epoch_fast(epoch, train_loader)
	val_metrics = {}
	if val_loader and (epoch % 2 == 0 or epoch == num_epochs):
	val_metrics = self.validate_fast(val_loader)
	epoch_time = time.time() - epoch_start
	epoch_info = {
	'epoch': epoch,
	'train_loss': train_metrics['loss'],
	'train_ppl': train_metrics['perplexity'],
	'epoch_time_min': epoch_time / 60
	}
	if val_metrics:
	epoch_info.update({'val_loss': val_metrics['loss'], 'val_ppl': val_metrics['perplexity']})
	history.append(epoch_info)
	elapsed_hours = (time.time() - total_start_time) / 3600
	remaining_hours = elapsed_hours * (num_epochs - epoch) / epoch
	print(f"\n EPOCH {epoch} RESULTS:")
	print(f" Epoch time: {epoch_time/60:.1f} min")
	print(f" Total elapsed: {elapsed_hours:.1f}h")
	print(f" Est. remaining: {remaining_hours:.1f}h")
	print(f" Train Loss: {train_metrics['loss']:.4f}")
	print(f" Train PPL: {train_metrics['perplexity']:.1f}")
	if val_metrics:
	print(f" Val Loss: {val_metrics['loss']:.4f}")
	print(f" Val PPL: {val_metrics['perplexity']:.1f}")
	current_loss = val_metrics.get('loss', train_metrics['loss'])
	current_ppl = val_metrics.get('perplexity', train_metrics['perplexity'])
	if current_loss < 2.0 and current_ppl < 12:
	print(f" TARGETS ACHIEVED!")
	print(f" Loss: {current_loss:.4f} < 2.0")
	print(f" PPL: {current_ppl:.1f} < 12")
	combined_metrics = {**train_metrics}
	if val_metrics:
	combined_metrics.update({f"val_{k}": v for k, v in val_metrics.items()})
	self.save_checkpoint_fast(epoch, combined_metrics)
	torch.cuda.empty_cache()
	gc.collect()
	if current_loss < 1.8 and current_ppl < 10:
	print(f"EARLY STOPPING - Excellent performance achieved!")
	break
	total_time = time.time() - total_start_time
	print(f"\n TRAINING COMPLETED!")
	print(f"Total time: {total_time/3600:.1f} hours")
	print(f" Best loss: {self.best_loss:.4f}")
	return history
	def run_ultra_fast_training():
	parser = argparse.ArgumentParser(description="Ultra-Fast Training for 4-5 Hours")
	parser.add_argument("--train_file", default=None)
	parser.add_argument("--val_file", default=None)
	parser.add_argument("--tokenizer_dir", default="tokenizer")
	parser.add_argument("--max_examples", type=int, default=50000)
	parser.add_argument("--d_model", type=int, default=384)
	parser.add_argument("--n_layers", type=int, default=6)
	parser.add_argument("--n_heads", type=int, default=6)
	parser.add_argument("--max_seq_len", type=int, default=128)
	parser.add_argument("--epochs", type=int, default=15)
	parser.add_argument("--batch_size", type=int, default=16)
	parser.add_argument("--learning_rate", type=float, default=5e-4)
	parser.add_argument("--gradient_accumulation_steps", type=int, default=1)
	parser.add_argument("--eval_every", type=int, default=500)
	args = parser.parse_args()
	torch.manual_seed(42)
	np.random.seed(42)
	print("Training My Model")
	print("-" * 50)
	if args.train_file is None:
	patterns = ["train.txt", "*_train.txt"]
	files = []
	for pattern in patterns:
	files.extend(glob.glob(pattern))
	files.extend(glob.glob(f"split_data/{pattern}"))
	files.extend(glob.glob(f"data/{pattern}"))
	if files:
	args.train_file = files[0]
	print(f"Found: {args.train_file}")
	else:
	print(" No training files found!")
	return 1
	tokenizer = TechnicalTokenizer()
	try:
	tokenizer.load(args.tokenizer_dir)
	print(f"Tokenizer loaded. Vocab size: {tokenizer.get_vocab_size()}")
	except Exception as e:
	print(f" Tokenizer error: {e}")
	return 1
	print(" Creating ultra-fast dataset...")
	train_dataset = FastTechnicalTextDataset(
	args.train_file, tokenizer, args.max_seq_len, args.max_examples
	)
	val_dataset = None
	if args.val_file and os.path.exists(args.val_file):
	val_dataset = FastTechnicalTextDataset(
	args.val_file, tokenizer, args.max_seq_len, max_examples=5000
	)
	model = MixtureOfRecursions(
	vocab_size=tokenizer.get_vocab_size(),
	d_model=args.d_model,
	n_layers=args.n_layers,
	n_heads=args.n_heads,
	max_seq_len=args.max_seq_len - 1, # Pass the actual sequence length to the model
	padding_idx=tokenizer.vocab.get('<pad>', 0)
	)
	config = {
	'learning_rate': args.learning_rate,
	'gradient_accumulation_steps': args.gradient_accumulation_steps,
	'eval_every': args.eval_every,
	'batch_size': args.batch_size,
	'epochs': args.epochs
	}
	trainer = UltraFastTrainer(model, tokenizer, train_dataset, val_dataset, config)
	print(f"\n START TRAINING")
	results = trainer.train_ultra_fast(args.epochs, args.batch_size)
	with open('ultra_fast_results.json', 'w') as f:
	json.dump(results, f, indent=2)
	print("\n Training Completed!")
	print(" Results saved to: ultra_fast_results.json")
	return 0
	if __name__ == "__main__":
	exit(run_ultra_fast_training())