File size: 69,039 Bytes

"""
Comprehensive CodeSearchNet Analysis and Reporting Script.

This script provides a complete CodeSearchNet evaluation pipeline that includes:
1. Model evaluation results analysis
2. Peer model comparison analysis
3. Advanced visualizations and charts
4. Leaderboard comparison and ranking analysis
5. Comprehensive README report generation
6. Performance efficiency analysis
7. Language-specific performance analysis

Features:
- CodeSearchNet-style scoring (NDCG@10, MRR, Recall metrics)
- Comparison with peer code-specialized models
- Model efficiency metrics (performance per parameter)
- Interactive visualizations with Plotly and Matplotlib
- Professional charts for README integration
- Statistical analysis of results across programming languages

Usage:
    python analyze.py --results-dir results/ --model-name my_model
    distiller analyze --results-dir evaluation_results
"""

import json
import logging
import time
from pathlib import Path
from typing import Any

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

from .config import directories

# Optional Plotly import with fallback
PLOTLY_AVAILABLE = True
try:
	import plotly.graph_objects as go
except ImportError:
	PLOTLY_AVAILABLE = False

# Set plotting style
try:
	plt.style.use("seaborn-v0_8")
except OSError:
	plt.style.use("seaborn")  # Fallback for older matplotlib versions
sns.set_palette("husl")

# =============================================================================
# CONFIGURATION
# =============================================================================

# Constants
MIN_SCORES_FOR_STATS = 2
HIGH_PERFORMANCE_THRESHOLD = 0.3
MEDIUM_PERFORMANCE_THRESHOLD = 0.2

# Model Configuration
MODEL_NAME = "code_model2vec_analysis"  # Generic name for multi-model analysis
ORIGINAL_MODEL_NAME = "Alibaba-NLP/gte-Qwen2-7B-instruct"
OUTPUT_DIR = Path("analysis_results")
IMAGES_DIR = Path("analysis_charts")
REPORT_FILE = Path("REPORT.md")  # Changed from README.md

# Local directories for results - using standardized directories from config
DEFAULT_EVALUATION_DIR = directories.evaluation_results
DEFAULT_BENCHMARK_DIR = directories.benchmark_results

# CodeSearchNet Languages
CODE_LANGUAGES = ["python", "javascript", "java", "php", "ruby", "go"]

# Model name mapping from the default models in evaluate.py and benchmark.py
MODEL_NAME_MAPPING = {
	# File names to display names and HuggingFace links
	"all-MiniLM-L6-v2": {
		"name": "sentence-transformers/all-MiniLM-L6-v2",
		"link": "https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2",
	},
	"all-mpnet-base-v2": {
		"name": "sentence-transformers/all-mpnet-base-v2",
		"link": "https://huggingface.co/sentence-transformers/all-mpnet-base-v2",
	},
	"paraphrase-MiniLM-L6-v2": {
		"name": "sentence-transformers/paraphrase-MiniLM-L6-v2",
		"link": "https://huggingface.co/sentence-transformers/paraphrase-MiniLM-L6-v2",
	},
	"codebert-base": {"name": "microsoft/codebert-base", "link": "https://huggingface.co/microsoft/codebert-base"},
	"graphcodebert-base": {
		"name": "microsoft/graphcodebert-base",
		"link": "https://huggingface.co/microsoft/graphcodebert-base",
	},
	"CodeBERTa-small-v1": {
		"name": "huggingface/CodeBERTa-small-v1",
		"link": "https://huggingface.co/huggingface/CodeBERTa-small-v1",
	},
	"all-MiniLM-L12-v2": {
		"name": "sentence-transformers/all-MiniLM-L12-v2",
		"link": "https://huggingface.co/sentence-transformers/all-MiniLM-L12-v2",
	},
	"potion-base-8M": {"name": "minishlab/potion-base-8M", "link": "https://huggingface.co/minishlab/potion-base-8M"},
	"potion-retrieval-32M": {
		"name": "minishlab/potion-retrieval-32M",
		"link": "https://huggingface.co/minishlab/potion-retrieval-32M",
	},
	"codet5-base": {"name": "Salesforce/codet5-base", "link": "https://huggingface.co/Salesforce/codet5-base"},
	"gte-Qwen2-1.5B-instruct": {
		"name": "Alibaba-NLP/gte-Qwen2-1.5B-instruct",
		"link": "https://huggingface.co/Alibaba-NLP/gte-Qwen2-1.5B-instruct",
	},
	"bge-m3": {"name": "BAAI/bge-m3", "link": "https://huggingface.co/BAAI/bge-m3"},
	"jina-embeddings-v3": {
		"name": "jinaai/jina-embeddings-v3",
		"link": "https://huggingface.co/jinaai/jina-embeddings-v3",
	},
	"nomic-embed-text-v2-moe": {
		"name": "nomic-ai/nomic-embed-text-v2-moe",
		"link": "https://huggingface.co/nomic-ai/nomic-embed-text-v2-moe",
	},
	"Qodo-Embed-1-1.5B": {"name": "Qodo/Qodo-Embed-1-1.5B", "link": "https://huggingface.co/Qodo/Qodo-Embed-1-1.5B"},
	"Reason-ModernColBERT": {
		"name": "lightonai/Reason-ModernColBERT",
		"link": "https://huggingface.co/lightonai/Reason-ModernColBERT",
	},
	"Linq-Embed-Mistral": {
		"name": "Linq-AI-Research/Linq-Embed-Mistral",
		"link": "https://huggingface.co/Linq-AI-Research/Linq-Embed-Mistral",
	},
	"bge-code-v1": {"name": "BAAI/bge-code-v1", "link": "https://huggingface.co/BAAI/bge-code-v1"},
	"SFR-Embedding-Code-2B_R": {
		"name": "Salesforce/SFR-Embedding-Code-2B_R",
		"link": "https://huggingface.co/Salesforce/SFR-Embedding-Code-2B_R",
	},
}

# Reverse mapping for lookups - using just the names
DISPLAY_NAME_TO_FILE = {v["name"]: k for k, v in MODEL_NAME_MAPPING.items()}

# Peer models for comparison (code-specialized models)
PEER_MODELS = {
	"sentence-transformers/all-MiniLM-L6-v2": {
		"overall_ndcg": 0.25,
		"type": "General",
		"link": "https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2",
	},
	"microsoft/codebert-base": {
		"overall_ndcg": 0.32,
		"type": "Code-Specific",
		"link": "https://huggingface.co/microsoft/codebert-base",
	},
	"microsoft/graphcodebert-base": {
		"overall_ndcg": 0.35,
		"type": "Code-Specific",
		"link": "https://huggingface.co/microsoft/graphcodebert-base",
	},
	"huggingface/CodeBERTa-small-v1": {
		"overall_ndcg": 0.28,
		"type": "Code-Specific",
		"link": "https://huggingface.co/huggingface/CodeBERTa-small-v1",
	},
	"sentence-transformers/all-mpnet-base-v2": {
		"overall_ndcg": 0.27,
		"type": "General",
		"link": "https://huggingface.co/sentence-transformers/all-mpnet-base-v2",
	},
}

# Model specifications for efficiency analysis
MODEL_SPECS = {
	"sentence-transformers/all-MiniLM-L6-v2": {
		"parameters": 22.7,
		"size_mb": 90,
		"link": "https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2",
	},
	"microsoft/codebert-base": {
		"parameters": 125.0,
		"size_mb": 500,
		"link": "https://huggingface.co/microsoft/codebert-base",
	},
	"microsoft/graphcodebert-base": {
		"parameters": 125.0,
		"size_mb": 500,
		"link": "https://huggingface.co/microsoft/graphcodebert-base",
	},
	"huggingface/CodeBERTa-small-v1": {
		"parameters": 84.0,
		"size_mb": 340,
		"link": "https://huggingface.co/huggingface/CodeBERTa-small-v1",
	},
	"sentence-transformers/all-mpnet-base-v2": {
		"parameters": 109.0,
		"size_mb": 440,
		"link": "https://huggingface.co/sentence-transformers/all-mpnet-base-v2",
	},
	"Alibaba-NLP/gte-Qwen2-1.5B-instruct": {
		"parameters": 1500.0,
		"size_mb": 3000,
		"link": "https://huggingface.co/Alibaba-NLP/gte-Qwen2-1.5B-instruct",
	},
}

# Distilled model specifications
DISTILLED_MODEL_SPECS = {
	"parameters": 39.0,  # Model2Vec parameters
	"size_mb": 149.0,  # Actual model size
	"dimensions": 256,  # Model2Vec dimensions
	"original_dimensions": 3584,
	"distillation_method": "Model2Vec",
	"training_dataset": "CodeSearchNet",
}

# =============================================================================
# UTILITY FUNCTIONS
# =============================================================================

logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")
logger = logging.getLogger(__name__)


def setup_directories(base_path: Path | None = None) -> tuple[Path, Path, Path]:
	"""Create necessary directories and return their paths."""
	if base_path:
		output_dir = base_path / "analysis_results"
		images_dir = base_path / "analysis_results" / "charts"
		reports_dir = base_path / "analysis_results" / "reports"
	else:
		output_dir = Path()  # Use current directory
		images_dir = IMAGES_DIR  # Use analysis_charts
		reports_dir = Path()  # Use current directory for reports

	# Only create directories that we actually use
	images_dir.mkdir(parents=True, exist_ok=True)

	return output_dir, images_dir, reports_dir


def extract_model_name_from_filename(filename: str) -> str:
	"""Extract and map model name from filename."""
	# Remove prefixes and extensions
	name = filename.replace("codesearchnet_eval_", "").replace("benchmark_", "").replace(".json", "")

	# Check if it's in our mapping
	if name in MODEL_NAME_MAPPING:
		return MODEL_NAME_MAPPING[name]["name"]

	# Try to find partial matches
	for file_key, model_info in MODEL_NAME_MAPPING.items():
		if file_key in name or name in file_key:
			return model_info["name"]

	# If no mapping found, return the cleaned name
	return name


def get_model_link(model_name: str) -> str:
	"""Get HuggingFace link for a model."""
	# First try direct lookup by file key
	for model_info in MODEL_NAME_MAPPING.values():
		if model_info["name"] == model_name:
			return model_info["link"]

	# Try partial matches
	for model_info in MODEL_NAME_MAPPING.values():
		if model_name.lower() in model_info["name"].lower() or model_info["name"].lower() in model_name.lower():
			return model_info["link"]

	# If no mapping found, construct link from model name
	if "/" in model_name:
		return f"https://huggingface.co/{model_name}"
	return ""


def format_model_with_link(model_name: str) -> str:
	"""Format model name with markdown link."""
	link = get_model_link(model_name)
	if link:
		return f"[{model_name}]({link})"
	return model_name


def get_teacher_model_info(model_display_name: str) -> tuple[str, str]:
	"""Extract teacher model name and link from distilled model display name."""
	# Mapping from model display patterns to teacher models
	teacher_mapping = {
		"all_MiniLM_L6_v2": (
			"sentence-transformers/all-MiniLM-L6-v2",
			"https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2",
		),
		"all_mpnet_base_v2": (
			"sentence-transformers/all-mpnet-base-v2",
			"https://huggingface.co/sentence-transformers/all-mpnet-base-v2",
		),
		"paraphrase_MiniLM_L6_v2": (
			"sentence-transformers/paraphrase-MiniLM-L6-v2",
			"https://huggingface.co/sentence-transformers/paraphrase-MiniLM-L6-v2",
		),
		"codebert_base": ("microsoft/codebert-base", "https://huggingface.co/microsoft/codebert-base"),
		"graphcodebert_base": ("microsoft/graphcodebert-base", "https://huggingface.co/microsoft/graphcodebert-base"),
		"gte_Qwen2_1.5B_instruct": (
			"Alibaba-NLP/gte-Qwen2-1.5B-instruct",
			"https://huggingface.co/Alibaba-NLP/gte-Qwen2-1.5B-instruct",
		),
		"bge_m3": ("BAAI/bge-m3", "https://huggingface.co/BAAI/bge-m3"),
		"jina_embeddings_v2_base_code": (
			"jina-embeddings-v2-base-code",
			"https://huggingface.co/jina-embeddings-v2-base-code",
		),
		"jina_embeddings_v3": ("jinaai/jina-embeddings-v3", "https://huggingface.co/jinaai/jina-embeddings-v3"),
		"nomic_embed_text_v2_moe": (
			"nomic-ai/nomic-embed-text-v2-moe",
			"https://huggingface.co/nomic-ai/nomic-embed-text-v2-moe",
		),
		"Qodo_Embed_1_1.5B": ("Qodo/Qodo-Embed-1-1.5B", "https://huggingface.co/Qodo/Qodo-Embed-1-1.5B"),
		"Reason_ModernColBERT": (
			"lightonai/Reason-ModernColBERT",
			"https://huggingface.co/lightonai/Reason-ModernColBERT",
		),
		"Linq_Embed_Mistral": (
			"Linq-AI-Research/Linq-Embed-Mistral",
			"https://huggingface.co/Linq-AI-Research/Linq-Embed-Mistral",
		),
		"bge_code_v1": ("BAAI/bge-code-v1", "https://huggingface.co/BAAI/bge-code-v1"),
		"SFR_Embedding_Code_2B_R": (
			"Salesforce/SFR-Embedding-Code-2B_R",
			"https://huggingface.co/Salesforce/SFR-Embedding-Code-2B_R",
		),
	}

	for pattern, (teacher_name, teacher_link) in teacher_mapping.items():
		if pattern in model_display_name:
			return teacher_name, teacher_link

	return "Unknown", ""


class CodeSearchNetAnalyzer:
	"""Analyzer for CodeSearchNet evaluation results and performance benchmarks."""

	def __init__(
		self,
		results_dir: str | None = None,
		benchmark_dir: str | None = None,
		images_dir: Path | None = None,
	) -> None:
		"""Initialize analyzer with results directories."""
		self.results_dir = Path(results_dir) if results_dir else Path(DEFAULT_EVALUATION_DIR)
		self.benchmark_dir = Path(benchmark_dir) if benchmark_dir else Path(DEFAULT_BENCHMARK_DIR)
		self.images_dir = images_dir or IMAGES_DIR
		self.results: list[dict[str, Any]] = []
		self.benchmark_results: list[dict[str, Any]] = []
		self.comparison_df: pd.DataFrame | None = None
		self.benchmark_df: pd.DataFrame | None = None
		self.model_specs: dict[str, dict[str, Any]] = {}  # Store actual model specifications

	def load_benchmark_results(self) -> None:
		"""Load benchmark results from comprehensive evaluation files."""
		logger.info("📊 Loading benchmark results from comprehensive evaluations...")

		if not self.results_dir.exists():
			logger.warning(f"Evaluation directory not found: {self.results_dir}")
			return

		logger.info(f"🔍 Searching for comprehensive evaluation files in: {self.results_dir}")

		# Look for both new comprehensive format and legacy formats
		comprehensive_files = list(self.results_dir.glob("comprehensive_eval_*.json"))
		legacy_files = list(self.results_dir.glob("codesearchnet_eval_*.json"))

		all_files = comprehensive_files + legacy_files
		logger.info(
			f"📁 Found {len(all_files)} evaluation files ({len(comprehensive_files)} comprehensive, {len(legacy_files)} legacy)"
		)

		for eval_file_path in all_files:
			try:
				logger.info(f"📖 Loading: {eval_file_path.name}")
				with eval_file_path.open() as f:
					data = json.load(f)

				if data is not None:
					if not isinstance(data, dict):
						logger.warning(f"⚠️ Skipping {eval_file_path.name} (not a dict)")
						continue

					# Extract benchmark data if available
					benchmark_data = self._extract_benchmark_data(data, eval_file_path)
					if benchmark_data:
						self.benchmark_results.append(benchmark_data)
						logger.info(f"✅ Successfully loaded benchmark data: {benchmark_data['model_name']}")

			except (json.JSONDecodeError, KeyError) as e:
				logger.warning(f"❌ Failed to load {eval_file_path}: {e}")

		logger.info(f"📊 Total benchmark results loaded: {len(self.benchmark_results)}")
		if self.benchmark_results:
			model_names = [r.get("model_name", "Unknown") for r in self.benchmark_results]
			logger.info(f"🎯 Benchmark models found: {', '.join(model_names)}")

		self._create_benchmark_dataframe()

	def _extract_benchmark_data(self, data: dict, file_path: Path) -> dict[str, Any] | None:
		"""Extract benchmark data from comprehensive evaluation results."""
		# Check if this evaluation contains benchmark data
		if data.get("benchmark_skipped", False):
			return None

		# Check for benchmark fields
		if not any(key in data for key in ["size_metrics", "speed_benchmarks", "memory_benchmarks", "cpu_vs_gpu"]):
			return None

		# Extract model name
		original_name = data.get("model_name") or "Unknown"
		mapped_name = extract_model_name_from_filename(
			file_path.stem.replace("comprehensive_eval_", "").replace("codesearchnet_eval_", "")
		)

		# Create benchmark result structure
		result: dict[str, Any] = {
			"model_name": mapped_name,
			"original_model_name": original_name,
			"size_metrics": data.get("size_metrics", {}),
			"speed_benchmarks": data.get("speed_benchmarks", {}),
			"memory_benchmarks": data.get("memory_benchmarks", {}),
			"cpu_vs_gpu": data.get("cpu_vs_gpu", {}),
		}

		return result

	def _create_benchmark_dataframe(self) -> None:
		"""Create benchmark comparison DataFrame from results."""
		if not self.benchmark_results:
			return

		benchmark_data = []
		for result in self.benchmark_results:
			model_name = result.get("model_name", "Unknown")
			size_metrics = result.get("size_metrics", {})
			speed_benchmarks = result.get("speed_benchmarks", {})
			memory_benchmarks = result.get("memory_benchmarks", {})
			cpu_vs_gpu = result.get("cpu_vs_gpu", {})

			# Extract key metrics
			row = {
				"Model": model_name,
				"Disk_Size_MB": size_metrics.get("disk_size_mb", 0),
				"Parameters_M": size_metrics.get("parameters_millions", 0),
				"Embedding_Dim": size_metrics.get("embedding_dim", 0),
				"RAM_Usage_MB": size_metrics.get("ram_usage_mb", 0),
				"GPU_Memory_MB": size_metrics.get("gpu_memory_mb", 0),
			}

			# Speed metrics (medium texts, batch 32)
			if "medium" in speed_benchmarks and "batch_32" in speed_benchmarks["medium"]:
				batch_32 = speed_benchmarks["medium"]["batch_32"]
				row.update(
					{
						"Throughput_TextsPerSec": batch_32.get("texts_per_second", 0),
						"Latency_MsPerText": batch_32.get("time_per_text_ms", 0),
						"TokenSpeed_TokensPerSec": batch_32.get("tokens_per_second", 0),
					}
				)

			# Memory scaling (batch 32)
			if "batch_32" in memory_benchmarks:
				batch_32_mem = memory_benchmarks["batch_32"]
				if not batch_32_mem.get("oom", False) and "error" not in batch_32_mem:
					row.update(
						{
							"Memory_Used_MB": batch_32_mem.get("memory_used_mb", 0),
							"Memory_Per_Text_MB": batch_32_mem.get("memory_per_text_mb", 0),
						}
					)

			# CPU vs GPU comparison
			for device, metrics in cpu_vs_gpu.items():
				if isinstance(metrics, dict) and "error" not in metrics:
					device_key = f"{device.upper()}_TextsPerSec"
					row[device_key] = metrics.get("texts_per_second", 0)

			benchmark_data.append(row)

		self.benchmark_df = pd.DataFrame(benchmark_data)

	def analyze_our_model_specifications(self) -> None:
		"""Analyze actual model specifications for our distilled models."""
		logger.info("🔍 Analyzing model specifications for our distilled models...")

		# Look for our models in the code_model2vec/final directory
		final_models_dir = Path("code_model2vec/final")

		if not final_models_dir.exists():
			logger.warning(f"Final models directory not found: {final_models_dir}")
			return

		# Find all our model directories
		our_model_dirs = [
			model_dir
			for model_dir in final_models_dir.iterdir()
			if model_dir.is_dir() and "code_model2vec" in model_dir.name
		]

		logger.info(f"📁 Found {len(our_model_dirs)} distilled model directories")

		for model_dir in our_model_dirs:
			model_name = model_dir.name
			logger.info(f"📊 Analyzing model: {model_name}")

			try:
				# Try to load the model and get specifications
				from distiller.model2vec import StaticModel

				model = StaticModel.from_pretrained(str(model_dir))

				# Get model specifications
				vocab_size = len(model.tokens)
				embedding_dim = model.dim
				total_params = vocab_size * embedding_dim

				# Get file size information
				model_file = model_dir / "model.safetensors"
				disk_size_mb: float = 0.0
				if model_file.exists():
					disk_size_mb = float(model_file.stat().st_size / (1024 * 1024))  # Convert to MB

				# Store specifications
				self.model_specs[model_name] = {
					"vocabulary_size": vocab_size,
					"embedding_dimensions": embedding_dim,
					"total_parameters": total_params,
					"parameters_millions": total_params / 1_000_000,
					"disk_size_mb": disk_size_mb,
					"model_path": str(model_dir),
					"analysis_successful": True,
				}

				logger.info(
					f"✅ {model_name}: {vocab_size:,} vocab, {embedding_dim} dims, {total_params:,} params ({total_params / 1_000_000:.1f}M)"
				)

			except Exception as e:
				logger.warning(f"❌ Failed to analyze {model_name}: {e}")
				self.model_specs[model_name] = {
					"analysis_successful": False,
					"error": str(e),
					"model_path": str(model_dir),
				}

		logger.info(
			f"📊 Successfully analyzed {len([s for s in self.model_specs.values() if s.get('analysis_successful', False)])} models"
		)

	def load_results(self) -> None:
		"""Load evaluation results from local directory."""
		logger.info("🔍 Loading evaluation results...")

		if not self.results_dir.exists():
			logger.warning(f"Evaluation directory not found: {self.results_dir}")
			return

		logger.info(f"🔍 Searching for evaluation files in: {self.results_dir}")

		# Look for both new comprehensive format and legacy formats
		comprehensive_files = list(self.results_dir.glob("comprehensive_eval_*.json"))
		legacy_files = list(self.results_dir.glob("codesearchnet_eval_*.json"))

		all_files = comprehensive_files + legacy_files
		logger.info(
			f"📁 Found {len(all_files)} evaluation files ({len(comprehensive_files)} comprehensive, {len(legacy_files)} legacy)"
		)

		for json_file in all_files:
			try:
				logger.info(f"📖 Loading: {json_file.name}")
				with json_file.open() as f:
					data = json.load(f)
				if data is not None:
					if not isinstance(data, dict):
						logger.warning(f"⚠️ Skipping {json_file.name} (not a dict)")
						continue

					# Normalize data format for analysis
					normalized_data = self._normalize_evaluation_data(data, json_file)
					self.results.append(normalized_data)
					logger.info(f"✅ Successfully loaded: {normalized_data['model_name']}")

			except (json.JSONDecodeError, KeyError) as e:
				logger.warning(f"❌ Failed to load {json_file}: {e}")

		logger.info(f"📊 Total loaded: {len(self.results)} model results")
		if self.results:
			model_names = [r.get("model_name", "Unknown") for r in self.results]
			logger.info(f"🎯 Models found: {', '.join(model_names)}")

		self._create_comparison_dataframe()

		# Also load benchmark results
		self.load_benchmark_results()

		# Analyze actual model specifications for our models
		self.analyze_our_model_specifications()

	def _normalize_evaluation_data(self, data: dict, file_path: Path) -> dict[str, Any]:
		"""Normalize evaluation data to consistent format for analysis."""
		# Extract model name
		original_name = data.get("model_name", "Unknown")
		file_stem = file_path.stem.replace("comprehensive_eval_", "").replace("codesearchnet_eval_", "")
		mapped_name = extract_model_name_from_filename(file_stem)

		# Handle comprehensive format (new)
		if "codesearch_overall" in data and "codesearch_languages" in data:
			result = {
				"model_name": mapped_name,
				"original_model_name": original_name,
				"overall": data.get("codesearch_overall", {}),
				"languages": data.get("codesearch_languages", {}),
			}
		# Handle legacy format (old codesearchnet_eval files)
		else:
			result = {
				"model_name": mapped_name,
				"original_model_name": original_name,
				"overall": data.get("overall", {}),
				"languages": data.get("languages", {}),
			}

		return result

	def _create_comparison_dataframe(self) -> None:
		"""Create comparison DataFrame from results."""
		if not self.results:
			return

		comparison_data = []
		for result in self.results:
			overall = result.get("overall", {})
			row = {
				"Model": result["model_name"],
				"MRR": overall.get("mrr", 0),
				"NDCG@1": overall.get("ndcg@1", 0),
				"NDCG@5": overall.get("ndcg@5", 0),
				"NDCG@10": overall.get("ndcg@10", 0),
				"Recall@1": overall.get("recall@1", 0),
				"Recall@5": overall.get("recall@5", 0),
				"Recall@10": overall.get("recall@10", 0),
				"Mean_Rank": overall.get("mean_rank", 0),
				"Median_Rank": overall.get("median_rank", 0),
			}
			comparison_data.append(row)

		self.comparison_df = pd.DataFrame(comparison_data)
		if not self.comparison_df.empty:
			self.comparison_df = self.comparison_df.sort_values("NDCG@10", ascending=False)

	def print_summary(self) -> None:
		"""Print summary of results."""
		if not self.results:
			logger.warning("No results to summarize")
			return

		print(f"\n{'=' * 60}")
		print("CodeSearchNet Evaluation Summary")
		print(f"{'=' * 60}")
		print(f"Total models evaluated: {len(self.results)}")

		if self.comparison_df is not None and not self.comparison_df.empty:
			print(f"\nTop performing model: {self.comparison_df.iloc[0]['Model']}")
			print(f"Best NDCG@10: {self.comparison_df.iloc[0]['NDCG@10']:.4f}")
			print(f"Best MRR: {self.comparison_df['MRR'].max():.4f}")

		print(f"\nEvaluated languages: {', '.join(CODE_LANGUAGES)}")

		# Also print benchmark summary if available
		if self.benchmark_results:
			print(f"\n{'=' * 60}")
			print("Performance Benchmark Summary")
			print(f"{'=' * 60}")
			print(f"Total models benchmarked: {len(self.benchmark_results)}")

			if self.benchmark_df is not None and not self.benchmark_df.empty:
				# Safely get fastest and smallest models
				fastest_model = "N/A"
				smallest_model = "N/A"

				if "Throughput_TextsPerSec" in self.benchmark_df.columns:
					fastest_idx = self.benchmark_df["Throughput_TextsPerSec"].idxmax()
					fastest_model = str(self.benchmark_df.loc[fastest_idx, "Model"])

				if "Disk_Size_MB" in self.benchmark_df.columns:
					smallest_idx = self.benchmark_df["Disk_Size_MB"].idxmin()
					smallest_model = str(self.benchmark_df.loc[smallest_idx, "Model"])

				print(f"\nFastest model: {fastest_model}")
				print(f"Smallest model: {smallest_model}")

	def analyze_language_performance(self) -> None:
		"""Analyze performance across programming languages."""
		if not self.results:
			return

		print(f"\n{'=' * 60}")
		print("Language-Specific Performance Analysis")
		print(f"{'=' * 60}")

		for result in self.results:
			model_name = result["model_name"]
			print(f"\nModel: {model_name}")
			print("-" * 40)

			languages = result.get("languages", {})
			lang_data = []

			for lang, lang_results in languages.items():
				metrics = lang_results.get("metrics", {})
				lang_data.append(
					{
						"Language": lang,
						"NDCG@10": metrics.get("ndcg@10", 0),
						"MRR": metrics.get("mrr", 0),
						"Recall@5": metrics.get("recall@5", 0),
						"Queries": lang_results.get("num_queries", 0),
					}
				)

			if lang_data:
				lang_df = pd.DataFrame(lang_data)
				print(lang_df.to_string(index=False, float_format="%.4f"))
				print(f"\nBest language: {lang_df.loc[lang_df['NDCG@10'].idxmax(), 'Language']}")
				print(f"Average NDCG@10: {lang_df['NDCG@10'].mean():.4f}")
				print(f"Average queries per language: {lang_df['Queries'].mean():.0f}")

	def analyze_benchmark_performance(self) -> None:
		"""Analyze and print benchmark performance summary."""
		if not self.benchmark_results:
			logger.warning("No benchmark results to analyze")
			return

		print(f"\n{'=' * 60}")
		print("Performance Benchmark Analysis")
		print(f"{'=' * 60}")

		for result in self.benchmark_results:
			model_name = result.get("model_name", "Unknown")
			print(f"\nModel: {model_name}")
			print("-" * 40)

			# Size metrics
			size_metrics = result.get("size_metrics", {})
			if size_metrics:
				print("📏 Model Size:")
				print(f"  Disk Size: {size_metrics.get('disk_size_mb', 0):.1f} MB")
				if "parameters_millions" in size_metrics:
					print(f"  Parameters: {size_metrics['parameters_millions']:.1f}M")
				if "embedding_dim" in size_metrics:
					print(f"  Embedding Dimension: {size_metrics['embedding_dim']}")

			# Speed metrics
			speed_benchmarks = result.get("speed_benchmarks", {})
			if "medium" in speed_benchmarks and "batch_32" in speed_benchmarks["medium"]:
				batch_32 = speed_benchmarks["medium"]["batch_32"]
				print("⚡ Performance (Batch 32, Medium Texts):")
				print(f"  Throughput: {batch_32.get('texts_per_second', 0):.1f} texts/sec")
				print(f"  Latency: {batch_32.get('time_per_text_ms', 0):.1f} ms/text")
				print(f"  Token Speed: {batch_32.get('tokens_per_second', 0):.0f} tokens/sec")

			# CPU vs GPU
			cpu_vs_gpu = result.get("cpu_vs_gpu", {})
			if cpu_vs_gpu:
				print("🖥️  CPU vs GPU:")
				for device, metrics in cpu_vs_gpu.items():
					if isinstance(metrics, dict) and "error" not in metrics:
						print(f"  {device.upper()}: {metrics.get('texts_per_second', 0):.1f} texts/sec")

			# Memory efficiency
			memory_benchmarks = result.get("memory_benchmarks", {})
			if "batch_32" in memory_benchmarks:
				batch_32_mem = memory_benchmarks["batch_32"]
				if not batch_32_mem.get("oom", False) and "error" not in batch_32_mem:
					print("💾 Memory Usage (Batch 32):")
					print(f"  Total: {batch_32_mem.get('memory_used_mb', 0):.1f} MB")
					print(f"  Per Text: {batch_32_mem.get('memory_per_text_mb', 0):.2f} MB")

	def create_performance_radar_chart(self, model_name: str, language_scores: dict[str, float]) -> str:
		"""Create radar chart showing performance across languages."""
		if not PLOTLY_AVAILABLE:
			logger.warning("Plotly not available, skipping radar chart")
			return ""

		languages = list(language_scores.keys())
		scores = list(language_scores.values())

		if not languages:
			return ""

		# Close the radar chart
		languages_closed = [*languages, languages[0]]
		scores_closed = [*scores, scores[0]]

		fig = go.Figure()

		fig.add_trace(
			go.Scatterpolar(
				r=scores_closed,
				theta=languages_closed,
				fill="toself",
				name=model_name,
				line_color="rgb(67, 147, 195)",
				fillcolor="rgba(67, 147, 195, 0.3)",
			)
		)

		fig.update_layout(
			polar={"radialaxis": {"visible": True, "range": [0, max(scores) * 1.1]}},
			showlegend=True,
			title=f"CodeSearchNet Performance by Language: {model_name}",
			width=800,
			height=600,
		)

		static_path = self.images_dir / "code_performance_radar.png"
		try:
			fig.write_image(str(static_path), width=800, height=600, scale=2)
			return str(static_path)
		except Exception as e:
			logger.warning(f"Could not create static image: {e}")
			return ""

	def create_comparative_radar_chart(self, simplified_models: list, peer_models: list) -> str:
		"""Create comparative radar chart between best distilled model and top peer models."""
		if not PLOTLY_AVAILABLE:
			logger.warning("Plotly not available, skipping comparative radar chart")
			return ""

		if not simplified_models:
			return ""

		# Get the best simplified model
		best_simplified = max(simplified_models, key=lambda x: x.get("overall", {}).get("ndcg@10", 0))

		# Get top 3 peer models by performance
		peer_models_sorted = sorted(peer_models, key=lambda x: x.get("overall", {}).get("ndcg@10", 0), reverse=True)
		top_peers = peer_models_sorted[:3]

		models_to_compare = [best_simplified, *top_peers]

		fig = go.Figure()

		# Define colors for each model
		colors = ["rgb(255, 99, 132)", "rgb(54, 162, 235)", "rgb(255, 205, 86)", "rgb(75, 192, 192)"]

		# Collect all scores to determine the appropriate range
		all_scores = []

		for i, model_result in enumerate(models_to_compare):
			model_name = model_result["model_name"]
			languages = model_result.get("languages", {})

			# Calculate language scores
			language_scores = {}
			for lang, lang_data in languages.items():
				metrics = lang_data.get("metrics", {})
				language_scores[lang.title()] = metrics.get("ndcg@10", 0)

			if language_scores:
				languages_list = list(language_scores.keys())
				scores_list = list(language_scores.values())
				all_scores.extend(scores_list)  # Collect scores for range calculation

				# Close the radar chart
				languages_closed = [*languages_list, languages_list[0]]
				scores_closed = [*scores_list, scores_list[0]]

				# Determine line style - solid for best distilled, dash for peers
				line_dash = "solid" if i == 0 else "dash"
				line_width = 3 if i == 0 else 2

				fig.add_trace(
					go.Scatterpolar(
						r=scores_closed,
						theta=languages_closed,
						fill="toself" if i == 0 else "none",
						name=model_name,
						line={"color": colors[i % len(colors)], "dash": line_dash, "width": line_width},
						fillcolor=f"rgba{colors[i % len(colors)][3:-1]}, 0.2)" if i == 0 else None,
					)
				)

		# Calculate dynamic range based on actual data
		if all_scores:
			max_score = max(all_scores)
			# Set range to slightly above the maximum score with some padding
			range_max = min(1.0, max_score * 1.1)  # Cap at 1.0 since NDCG@10 max is 1.0
		else:
			range_max = 1.0  # Default fallback

		fig.update_layout(
			polar={"radialaxis": {"visible": True, "range": [0, range_max]}},
			showlegend=True,
			title="Model Comparison: Best Distilled vs Top Peer Models",
			width=900,
			height=700,
		)

		static_path = self.images_dir / "comparative_radar.png"
		try:
			fig.write_image(str(static_path), width=900, height=700, scale=2)
			return str(static_path)
		except Exception as e:
			logger.warning(f"Could not create comparative radar chart: {e}")
			return ""

	def create_individual_radar_charts(self, simplified_models: list) -> dict[str, str]:
		"""Create individual radar charts for all simplified models."""
		radar_charts = {}

		for result in simplified_models:
			model_name = result["model_name"]
			model_languages = result.get("languages", {})
			model_language_scores = {}
			for lang, lang_data in model_languages.items():
				metrics = lang_data.get("metrics", {})
				model_language_scores[lang.title()] = metrics.get("ndcg@10", 0)

			if model_language_scores:
				# Create unique filename for each model
				safe_model_name = "".join(c for c in model_name if c.isalnum() or c in ("-", "_")).rstrip()
				radar_chart_path = self.create_performance_radar_chart_individual(
					model_name, model_language_scores, safe_model_name
				)
				if radar_chart_path:
					radar_charts[model_name] = radar_chart_path

		return radar_charts

	def create_performance_radar_chart_individual(
		self, model_name: str, language_scores: dict[str, float], filename_suffix: str
	) -> str:
		"""Create radar chart for individual model with unique filename."""
		if not PLOTLY_AVAILABLE:
			logger.warning("Plotly not available, skipping radar chart")
			return ""

		languages = list(language_scores.keys())
		scores = list(language_scores.values())

		if not languages:
			return ""

		# Close the radar chart
		languages_closed = [*languages, languages[0]]
		scores_closed = [*scores, scores[0]]

		fig = go.Figure()

		fig.add_trace(
			go.Scatterpolar(
				r=scores_closed,
				theta=languages_closed,
				fill="toself",
				name=model_name,
				line_color="rgb(67, 147, 195)",
				fillcolor="rgba(67, 147, 195, 0.3)",
			)
		)

		fig.update_layout(
			polar={"radialaxis": {"visible": True, "range": [0, max(scores) * 1.1]}},
			showlegend=True,
			title=f"CodeSearchNet Performance by Language: {model_name}",
			width=800,
			height=600,
		)

		static_path = self.images_dir / f"radar_{filename_suffix}.png"
		try:
			fig.write_image(str(static_path), width=800, height=600, scale=2)
			return str(static_path)
		except Exception as e:
			logger.warning(f"Could not create static image for {model_name}: {e}")
			return ""

	def plot_model_comparison(self, save_path: str | None = None) -> str:
		"""Create comparison plots for models."""
		if self.comparison_df is None or self.comparison_df.empty:
			logger.warning("No comparison data available for plotting")
			return ""

		fig, axes = plt.subplots(2, 2, figsize=(15, 12))
		fig.suptitle("CodeSearchNet Model Comparison", fontsize=16, fontweight="bold")

		# NDCG@10 comparison
		axes[0, 0].barh(self.comparison_df["Model"], self.comparison_df["NDCG@10"])
		axes[0, 0].set_title("NDCG@10 Comparison")
		axes[0, 0].set_xlabel("NDCG@10")

		# MRR comparison
		axes[0, 1].barh(self.comparison_df["Model"], self.comparison_df["MRR"])
		axes[0, 1].set_title("Mean Reciprocal Rank (MRR)")
		axes[0, 1].set_xlabel("MRR")

		# Recall@5 comparison
		axes[1, 0].barh(self.comparison_df["Model"], self.comparison_df["Recall@5"])
		axes[1, 0].set_title("Recall@5")
		axes[1, 0].set_xlabel("Recall@5")

		# Mean Rank comparison (lower is better)
		axes[1, 1].barh(self.comparison_df["Model"], self.comparison_df["Mean_Rank"])
		axes[1, 1].set_title("Mean Rank (lower is better)")
		axes[1, 1].set_xlabel("Mean Rank")

		plt.tight_layout()

		output_path = save_path or str(self.images_dir / "model_comparison.png")
		plt.savefig(output_path, dpi=300, bbox_inches="tight")
		plt.close()

		return output_path

	def plot_language_heatmap(self, save_path: str | None = None) -> str:
		"""Create a heatmap of performance across languages."""
		if not self.results:
			return ""

		# Prepare data for heatmap
		heatmap_data = []
		for result in self.results:
			model_name = result["model_name"]
			languages = result.get("languages", {})

			row = {"Model": model_name}
			for lang in CODE_LANGUAGES:
				if lang in languages:
					metrics = languages[lang].get("metrics", {})
					row[lang.title()] = metrics.get("ndcg@10", 0)
				else:
					row[lang.title()] = 0
			heatmap_data.append(row)

		if not heatmap_data:
			return ""

		df = pd.DataFrame(heatmap_data).set_index("Model")

		plt.figure(figsize=(12, 8))
		sns.heatmap(
			df,
			annot=True,
			fmt=".3f",
			cmap="RdYlBu_r",
			center=0.2,
			vmin=0,
			vmax=df.to_numpy().max(),
			cbar_kws={"label": "NDCG@10 Score"},
		)

		plt.title(
			"CodeSearchNet Performance Heatmap by Language",
			fontsize=16,
			fontweight="bold",
		)
		plt.xlabel("Programming Language", fontsize=12)
		plt.ylabel("Model", fontsize=12)
		plt.tight_layout()

		output_path = save_path or str(self.images_dir / "language_heatmap.png")
		plt.savefig(output_path, dpi=300, bbox_inches="tight")
		plt.close()

		return output_path

	def plot_benchmark_performance(self, save_path: str | None = None) -> str:
		"""Create comprehensive benchmark performance plots."""
		if not self.benchmark_results:
			logger.warning("No benchmark data available for plotting")
			return ""

		fig, axes = plt.subplots(2, 3, figsize=(18, 12))
		fig.suptitle("Performance Benchmark Analysis", fontsize=16, fontweight="bold")

		# 1. Model Size Comparison
		if self.benchmark_df is not None and "Disk_Size_MB" in self.benchmark_df.columns:
			axes[0, 0].barh(self.benchmark_df["Model"], self.benchmark_df["Disk_Size_MB"])
			axes[0, 0].set_title("Model Size (MB)")
			axes[0, 0].set_xlabel("Size (MB)")

		# 2. Inference Throughput
		if self.benchmark_df is not None and "Throughput_TextsPerSec" in self.benchmark_df.columns:
			axes[0, 1].barh(self.benchmark_df["Model"], self.benchmark_df["Throughput_TextsPerSec"])
			axes[0, 1].set_title("Inference Throughput")
			axes[0, 1].set_xlabel("Texts/Second")

		# 3. Memory Usage
		if self.benchmark_df is not None and "Memory_Used_MB" in self.benchmark_df.columns:
			axes[0, 2].barh(self.benchmark_df["Model"], self.benchmark_df["Memory_Used_MB"])
			axes[0, 2].set_title("Memory Usage (Batch 32)")
			axes[0, 2].set_xlabel("Memory (MB)")

		# 4. Latency Comparison
		if self.benchmark_df is not None and "Latency_MsPerText" in self.benchmark_df.columns:
			axes[1, 0].barh(self.benchmark_df["Model"], self.benchmark_df["Latency_MsPerText"])
			axes[1, 0].set_title("Inference Latency")
			axes[1, 0].set_xlabel("Milliseconds/Text")

		# 5. CPU vs GPU Performance
		if self.benchmark_df is not None:
			cpu_col = "CPU_TextsPerSec"
			gpu_col = "CUDA_TextsPerSec"
			if cpu_col in self.benchmark_df.columns and gpu_col in self.benchmark_df.columns:
				x = np.arange(len(self.benchmark_df))
				width = 0.35
				axes[1, 1].bar(x - width / 2, self.benchmark_df[cpu_col], width, label="CPU", alpha=0.7)
				axes[1, 1].bar(x + width / 2, self.benchmark_df[gpu_col], width, label="GPU", alpha=0.7)
				axes[1, 1].set_title("CPU vs GPU Performance")
				axes[1, 1].set_ylabel("Texts/Second")
				axes[1, 1].set_xticks(x)
				axes[1, 1].set_xticklabels(self.benchmark_df["Model"], rotation=45, ha="right")
				axes[1, 1].legend()

		# 6. Parameter Efficiency
		if (
			self.benchmark_df is not None
			and "Parameters_M" in self.benchmark_df.columns
			and "Throughput_TextsPerSec" in self.benchmark_df.columns
		):
			# Efficiency = Throughput / Parameters (higher is better)
			efficiency = self.benchmark_df["Throughput_TextsPerSec"] / (self.benchmark_df["Parameters_M"] + 1e-6)
			axes[1, 2].barh(self.benchmark_df["Model"], efficiency)
			axes[1, 2].set_title("Parameter Efficiency")
			axes[1, 2].set_xlabel("Texts/Sec per Million Parameters")

		plt.tight_layout()

		output_path = save_path or str(self.images_dir / "benchmark_performance.png")
		plt.savefig(output_path, dpi=300, bbox_inches="tight")
		plt.close()

		return output_path

	def plot_batch_size_scaling(self, save_path: str | None = None) -> str:
		"""Create batch size scaling analysis plot."""
		if not self.benchmark_results:
			return ""

		plt.figure(figsize=(12, 8))

		for result in self.benchmark_results:
			model_name = result.get("model_name", "Unknown")
			speed_benchmarks = result.get("speed_benchmarks", {})

			# Extract batch size performance for medium texts
			if "medium" in speed_benchmarks:
				batch_sizes = []
				throughputs = []

				for batch_key, metrics in speed_benchmarks["medium"].items():
					if batch_key.startswith("batch_"):
						batch_size = int(batch_key.split("_")[1])
						throughput = metrics.get("texts_per_second", 0)
						batch_sizes.append(batch_size)
						throughputs.append(throughput)

				if batch_sizes:
					plt.plot(batch_sizes, throughputs, marker="o", label=model_name, linewidth=2)

		plt.xlabel("Batch Size", fontsize=12)
		plt.ylabel("Throughput (Texts/Second)", fontsize=12)
		plt.title("Batch Size Scaling Performance", fontsize=16, fontweight="bold")
		plt.legend()
		plt.grid(visible=True, alpha=0.3)
		plt.xscale("log", base=2)

		output_path = save_path or str(self.images_dir / "batch_size_scaling.png")
		plt.savefig(output_path, dpi=300, bbox_inches="tight")
		plt.close()

		return output_path

	def plot_memory_scaling(self, save_path: str | None = None) -> str:
		"""Create memory scaling analysis plot."""
		if not self.benchmark_results:
			return ""

		plt.figure(figsize=(12, 8))

		for result in self.benchmark_results:
			model_name = result.get("model_name", "Unknown")
			memory_benchmarks = result.get("memory_benchmarks", {})

			batch_sizes = []
			memory_usage = []

			for batch_key, metrics in memory_benchmarks.items():
				if batch_key.startswith("batch_") and not metrics.get("oom", False) and "error" not in metrics:
					batch_size = int(batch_key.split("_")[1])
					memory_mb = metrics.get("memory_used_mb", 0)
					batch_sizes.append(batch_size)
					memory_usage.append(memory_mb)

			if batch_sizes:
				plt.plot(batch_sizes, memory_usage, marker="s", label=model_name, linewidth=2)

		plt.xlabel("Batch Size", fontsize=12)
		plt.ylabel("Memory Usage (MB)", fontsize=12)
		plt.title("Memory Scaling by Batch Size", fontsize=16, fontweight="bold")
		plt.legend()
		plt.grid(visible=True, alpha=0.3)
		plt.xscale("log", base=2)

		output_path = save_path or str(self.images_dir / "memory_scaling.png")
		plt.savefig(output_path, dpi=300, bbox_inches="tight")
		plt.close()

		return output_path

	def create_peer_comparison_chart(self, model_name: str) -> str:
		"""Create comparison chart using actual evaluation results."""
		if self.comparison_df is None or self.comparison_df.empty:
			logger.warning("No comparison data available for peer comparison chart")
			return ""

		# Use actual evaluation results instead of hardcoded scores
		df_sorted = self.comparison_df.sort_values("NDCG@10", ascending=True)

		plt.figure(figsize=(12, 8))

		# Color models differently - highlight the user's model
		colors = []
		for model in df_sorted["Model"]:
			if model_name.lower() in model.lower() or "gte_qwen2_m2v_code" in model.lower():
				colors.append("red")  # User's model
			else:
				colors.append("skyblue")  # Peer models

		bars = plt.barh(df_sorted["Model"], df_sorted["NDCG@10"], color=colors)

		# Highlight current model with special formatting
		for i, model in enumerate(df_sorted["Model"]):
			if model_name.lower() in model.lower() or "gte_qwen2_m2v_code" in model.lower():
				bars[i].set_alpha(0.8)
				bars[i].set_edgecolor("black")
				bars[i].set_linewidth(2)

		plt.xlabel("NDCG@10 Score", fontsize=12)
		plt.title(
			"CodeSearchNet Model Comparison (Actual Results)",
			fontsize=16,
			fontweight="bold",
		)
		plt.grid(axis="x", alpha=0.3)

		# Add score labels
		for i, score in enumerate(df_sorted["NDCG@10"]):
			plt.text(score + 0.005, i, f"{score:.3f}", va="center")

		plt.tight_layout()

		output_path = self.images_dir / "peer_comparison.png"
		plt.savefig(output_path, dpi=300, bbox_inches="tight")
		plt.close()

		return str(output_path)

	def create_efficiency_analysis(self, model_name: str) -> str:
		"""Create efficiency analysis chart using actual evaluation results."""
		if self.comparison_df is None or self.comparison_df.empty:
			logger.warning("No comparison data available for efficiency analysis")
			return ""

		models = []
		scores = []
		params = []
		is_user_model = []

		# Process all evaluated models
		for _, row in self.comparison_df.iterrows():
			model_display_name = row["Model"]
			current_model_score = row["NDCG@10"]

			# Determine if this is the user's model
			is_users = (
				model_name.lower() in model_display_name.lower() or "gte_qwen2_m2v_code" in model_display_name.lower()
			)

			if is_users:
				# User's distilled model
				models.append(model_display_name)
				# Safe conversion to float for pandas values
				score_value = pd.to_numeric(current_model_score, errors="coerce")
				scores.append(float(score_value) if not pd.isna(score_value) else 0.0)
				# Safe conversion for DISTILLED_MODEL_SPECS parameters
				param_value = DISTILLED_MODEL_SPECS.get("parameters", 39)
				params.append(float(param_value) if isinstance(param_value, (int, float)) else 39.0)
				is_user_model.append(True)
			else:
				# Find corresponding peer model specs
				model_key = None
				for peer_key in MODEL_SPECS:
					peer_short_name = peer_key.split("/")[-1].lower()
					if peer_short_name in model_display_name.lower():
						model_key = peer_key
						break

				if model_key and model_key in MODEL_SPECS:
					models.append(model_display_name.split("/")[-1])  # Short name
					# Safe conversion to float for pandas values
					score_value = pd.to_numeric(current_model_score, errors="coerce")
					scores.append(float(score_value) if not pd.isna(score_value) else 0.0)
					param_value = MODEL_SPECS[model_key].get("parameters", 100.0)
					params.append(float(param_value) if isinstance(param_value, (int, float)) else 100.0)
					is_user_model.append(False)

		if not models:
			logger.warning("No models with parameter specifications found")
			return ""

		plt.figure(figsize=(12, 8))

		# Plot peer models
		peer_models = [m for i, m in enumerate(models) if not is_user_model[i]]
		peer_params = [p for i, p in enumerate(params) if not is_user_model[i]]
		peer_scores = [s for i, s in enumerate(scores) if not is_user_model[i]]

		if peer_models:
			plt.scatter(
				peer_params,
				peer_scores,
				s=100,
				alpha=0.6,
				label="Peer Models",
				color="skyblue",
			)

		# Plot user's model
		user_models = [m for i, m in enumerate(models) if is_user_model[i]]
		user_params = [p for i, p in enumerate(params) if is_user_model[i]]
		user_scores = [s for i, s in enumerate(scores) if is_user_model[i]]

		if user_models:
			plt.scatter(
				user_params,
				user_scores,
				s=200,
				color="red",
				alpha=0.8,
				label=f"{user_models[0]} (Distilled)",
				marker="*",
			)

		# Add model labels
		for i, (model, param, score) in enumerate(zip(models, params, scores, strict=False)):
			if is_user_model[i]:
				plt.annotate(
					model,
					(param, score),
					xytext=(10, 10),
					textcoords="offset points",
					fontweight="bold",
					color="red",
				)
			else:
				plt.annotate(
					model,
					(param, score),
					xytext=(5, 5),
					textcoords="offset points",
					fontsize=9,
				)

		plt.xlabel("Model Size (Million Parameters)", fontsize=12)
		plt.ylabel("NDCG@10 Score", fontsize=12)
		plt.title(
			"Model Efficiency: Performance vs Size (Actual Results)",
			fontsize=16,
			fontweight="bold",
		)
		plt.legend()
		plt.grid(visible=True, alpha=0.3)
		plt.xscale("log")

		plt.tight_layout()

		output_path = self.images_dir / "efficiency_analysis.png"
		plt.savefig(output_path, dpi=300, bbox_inches="tight")
		plt.close()

		return str(output_path)

	def plot_model_specifications(self, save_path: str | None = None) -> str:
		"""Create visualization of our model specifications."""
		if not self.model_specs:
			logger.warning("No model specifications available for plotting")
			return ""

		# Filter only successfully analyzed models
		successful_specs = {k: v for k, v in self.model_specs.items() if v.get("analysis_successful", False)}

		if not successful_specs:
			logger.warning("No successfully analyzed models for plotting")
			return ""

		fig, axes = plt.subplots(2, 2, figsize=(15, 12))
		fig.suptitle("Our Distilled Models - Specifications Analysis", fontsize=16, fontweight="bold")

		# Extract data
		model_names = list(successful_specs.keys())
		# Shorten model names for better display
		display_names = [name.replace("code_model2vec_", "").replace("_", " ") for name in model_names]
		vocab_sizes = [spec["vocabulary_size"] for spec in successful_specs.values()]
		param_counts = [spec["parameters_millions"] for spec in successful_specs.values()]
		embed_dims = [spec["embedding_dimensions"] for spec in successful_specs.values()]
		disk_sizes = [spec["disk_size_mb"] for spec in successful_specs.values()]

		# 1. Vocabulary Size Comparison
		axes[0, 0].barh(display_names, vocab_sizes, color="skyblue")
		axes[0, 0].set_title("Vocabulary Size")
		axes[0, 0].set_xlabel("Number of Tokens")
		for i, v in enumerate(vocab_sizes):
			axes[0, 0].text(v + max(vocab_sizes) * 0.01, i, f"{v:,}", va="center", fontsize=9)

		# 2. Parameter Count Comparison
		axes[0, 1].barh(display_names, param_counts, color="lightgreen")
		axes[0, 1].set_title("Model Parameters")
		axes[0, 1].set_xlabel("Parameters (Millions)")
		for i, v in enumerate(param_counts):
			axes[0, 1].text(v + max(param_counts) * 0.01, i, f"{v:.1f}M", va="center", fontsize=9)

		# 3. Embedding Dimensions
		axes[1, 0].barh(display_names, embed_dims, color="lightsalmon")
		axes[1, 0].set_title("Embedding Dimensions")
		axes[1, 0].set_xlabel("Dimensions")
		for i, v in enumerate(embed_dims):
			axes[1, 0].text(v + max(embed_dims) * 0.01, i, f"{v}", va="center", fontsize=9)

		# 4. Disk Size
		axes[1, 1].barh(display_names, disk_sizes, color="plum")
		axes[1, 1].set_title("Model Size on Disk")
		axes[1, 1].set_xlabel("Size (MB)")
		for i, v in enumerate(disk_sizes):
			axes[1, 1].text(v + max(disk_sizes) * 0.01, i, f"{v:.1f}MB", va="center", fontsize=9)

		plt.tight_layout()

		output_path = save_path or str(self.images_dir / "model_specifications.png")
		plt.savefig(output_path, dpi=300, bbox_inches="tight")
		plt.close()

		return output_path

	def generate_comprehensive_report(self, model_name: str = "Simplified Distillation Models") -> str:
		"""Generate comprehensive markdown report for all evaluated models."""
		if not self.results:
			logger.error("No results to analyze")
			return ""

		# Find all simplified distillation models
		simplified_models = []
		peer_models = []

		for result in self.results:
			result_model_name = result["model_name"]
			if (
				"code_model2vec" in result_model_name.lower()
				or "distilled" in result_model_name.lower()
				or "(ours)" in result_model_name.lower()
			):
				simplified_models.append(result)
			else:
				peer_models.append(result)

		# Get the best performing simplified model for main analysis
		if simplified_models:
			main_result = max(simplified_models, key=lambda x: x.get("overall", {}).get("ndcg@10", 0))
			main_model_name = main_result["model_name"]
		else:
			# Fallback to first result if no simplified models found
			main_result = self.results[0]
			main_model_name = main_result["model_name"]

		overall = main_result.get("overall", {})
		languages = main_result.get("languages", {})

		# Calculate language scores for radar chart
		language_scores = {}
		for lang, lang_data in languages.items():
			metrics = lang_data.get("metrics", {})
			language_scores[lang.title()] = metrics.get("ndcg@10", 0)

		# Create visualizations
		logger.info("Generating visualizations...")
		output_dir, images_dir, reports_dir = setup_directories()

		self.create_performance_radar_chart(main_model_name, language_scores)
		comparison_chart = self.plot_model_comparison()
		heatmap_chart = self.plot_language_heatmap()
		peer_chart = self.create_peer_comparison_chart(main_model_name)
		efficiency_chart = self.create_efficiency_analysis(main_model_name)
		model_specs_chart = self.plot_model_specifications()

		# Generate individual radar charts for all simplified models
		individual_radar_charts = self.create_individual_radar_charts(simplified_models)

		# Create comparative radar chart (best distilled vs top peer models)
		comparative_radar_chart = self.create_comparative_radar_chart(simplified_models, peer_models)

		# Create benchmark visualizations
		benchmark_chart = ""
		batch_scaling_chart = ""
		memory_scaling_chart = ""
		if self.benchmark_results:
			benchmark_chart = self.plot_benchmark_performance()
			batch_scaling_chart = self.plot_batch_size_scaling()
			memory_scaling_chart = self.plot_memory_scaling()

		# Generate report
		report = f"""# Code-Specialized Model2Vec Distillation Analysis

## 🎯 Executive Summary

This report presents a comprehensive analysis of Model2Vec distillation experiments using different teacher models for code-specialized embedding generation.

### Evaluated Models Overview

**Simplified Distillation Models:** {len(simplified_models)}
**Peer Comparison Models:** {len(peer_models)}
**Total Models Analyzed:** {len(self.results)}

### Best Performing Simplified Model: {main_model_name}

**Overall CodeSearchNet Performance:**
- **NDCG@10**: {overall.get("ndcg@10", 0):.4f}
- **Mean Reciprocal Rank (MRR)**: {overall.get("mrr", 0):.4f}
- **Recall@5**: {overall.get("recall@5", 0):.4f}
- **Mean Rank**: {overall.get("mean_rank", 0):.1f}

## 📊 Comprehensive Model Comparison

### All Simplified Distillation Models Performance

"""

		# Add table of all simplified models
		if simplified_models:
			report += "| Model | Teacher | NDCG@10 | MRR | Recall@5 | Status |\n"
			report += "|-------|---------|---------|-----|----------|--------|\n"

			# Sort by performance
			simplified_models_sorted = sorted(
				simplified_models, key=lambda x: x.get("overall", {}).get("ndcg@10", 0), reverse=True
			)

			for rank, result in enumerate(simplified_models_sorted, 1):
				model_display = result["model_name"]
				overall_metrics = result.get("overall", {})

				# Extract teacher model name from model name
				teacher_name, teacher_link = get_teacher_model_info(model_display)

				status = "🥇 Best" if rank == 1 else "🥈 2nd" if rank == 2 else "🥉 3rd" if rank == 3 else f"#{rank}"

				# Use linked teacher name if available
				teacher_display = f"[{teacher_name}]({teacher_link})" if teacher_link else teacher_name

				report += f"| {model_display} | {teacher_display} | {overall_metrics.get('ndcg@10', 0):.4f} | {overall_metrics.get('mrr', 0):.4f} | {overall_metrics.get('recall@5', 0):.4f} | {status} |\n"

		# Add model specifications section
		if self.model_specs:
			successful_specs = {k: v for k, v in self.model_specs.items() if v.get("analysis_successful", False)}
			if successful_specs:
				report += """

### 📊 Model Specifications Analysis

Our distilled models exhibit consistent architectural characteristics across different teacher models:

| Model | Vocabulary Size | Parameters | Embedding Dim | Disk Size |
|-------|----------------|------------|---------------|-----------|
"""

				# Sort models by performance for consistency
				for result in simplified_models_sorted:
					model_display = result["model_name"]
					if model_display in successful_specs:
						spec = successful_specs[model_display]
						vocab_size = spec["vocabulary_size"]
						params_m = spec["parameters_millions"]
						embed_dim = spec["embedding_dimensions"]
						disk_size = spec["disk_size_mb"]

						report += f"| {model_display.replace('code_model2vec_', '')} | {vocab_size:,} | {params_m:.1f}M | {embed_dim} | {disk_size:.1f}MB |\n"

				if model_specs_chart:
					report += f"""

![Model Specifications]({model_specs_chart})

*Comprehensive analysis of our distilled models showing vocabulary size, parameter count, embedding dimensions, and storage requirements.*

#### Key Insights from Model Specifications:

"""
					# Calculate some insights
					vocab_sizes = [spec["vocabulary_size"] for spec in successful_specs.values()]
					param_counts = [spec["parameters_millions"] for spec in successful_specs.values()]
					embed_dims = [spec["embedding_dimensions"] for spec in successful_specs.values()]
					disk_sizes = [spec["disk_size_mb"] for spec in successful_specs.values()]

					if vocab_sizes:
						avg_vocab = sum(vocab_sizes) / len(vocab_sizes)
						avg_params = sum(param_counts) / len(param_counts)
						avg_disk = sum(disk_sizes) / len(disk_sizes)

						report += f"""
- **Vocabulary Consistency**: All models use vocabulary sizes ranging from {min(vocab_sizes):,} to {max(vocab_sizes):,} tokens (avg: {avg_vocab:,.0f})
- **Parameter Efficiency**: Models range from {min(param_counts):.1f}M to {max(param_counts):.1f}M parameters (avg: {avg_params:.1f}M)
- **Storage Efficiency**: Disk usage ranges from {min(disk_sizes):.1f}MB to {max(disk_sizes):.1f}MB (avg: {avg_disk:.1f}MB)
- **Embedding Dimensions**: Consistent {embed_dims[0]} dimensions across all models (optimized for efficiency)
"""

		report += """

### Key Findings

"""

		if simplified_models and len(simplified_models) > 1:
			best_model = simplified_models_sorted[0]
			worst_model = simplified_models_sorted[-1]
			best_score = best_model.get("overall", {}).get("ndcg@10", 0)
			worst_score = worst_model.get("overall", {}).get("ndcg@10", 0)

			report += f"""
- **Best Teacher Model**: {best_model["model_name"]} (NDCG@10: {best_score:.4f})
- **Least Effective Teacher**: {worst_model["model_name"]} (NDCG@10: {worst_score:.4f})
- **Performance Range**: {((best_score - worst_score) / best_score * 100):.1f}% difference between best and worst
- **Average Performance**: {sum(r.get("overall", {}).get("ndcg@10", 0) for r in simplified_models) / len(simplified_models):.4f} NDCG@10
"""

		# Add radar charts section
		report += """

## 🎯 Language Performance Radar Charts

### Best Model vs Peer Models Comparison

"""
		if comparative_radar_chart:
			report += f"![Comparative Radar Chart]({comparative_radar_chart})\n\n"
			report += "*Comparative view showing how the best simplified distillation model performs against top peer models across programming languages.*\n\n"

		# Add individual radar charts for all simplified models (sorted by performance)
		if individual_radar_charts:
			report += "### Individual Model Performance by Language\n\n"

			# Sort the radar charts by model performance (best to worst)
			for result in simplified_models_sorted:
				chart_model_name = result["model_name"]
				if chart_model_name in individual_radar_charts:
					chart_path = individual_radar_charts[chart_model_name]

					# Extract teacher name for cleaner display
					teacher_name, teacher_link = get_teacher_model_info(chart_model_name)

					# Use linked teacher name if available
					teacher_display = f"[{teacher_name}]({teacher_link})" if teacher_link else teacher_name

					# Get performance for display
					overall_metrics = result.get("overall", {})
					ndcg_score = overall_metrics.get("ndcg@10", 0)

					report += f"#### {chart_model_name} (Teacher: {teacher_display}) - NDCG@10: {ndcg_score:.4f}\n\n"
					report += f"![{chart_model_name} Radar Chart]({chart_path})\n\n"

			report += f"""

## 🏆 Peer Model Comparison

![Peer Comparison]({peer_chart})

*Comparison with established code-specialized embedding models using actual evaluation results.*

### Complete Model Ranking

"""

		# Add comprehensive ranking table
		if self.comparison_df is not None and len(self.comparison_df) > 0:
			report += "| Rank | Model | Type | NDCG@10 | MRR | Recall@5 |\n"
			report += "|------|-------|------|---------|-----|----------|\n"

			for rank in range(len(self.comparison_df)):
				row_data = self.comparison_df.iloc[rank]
				model_name_display = str(row_data["Model"])

				# Determine model type
				if (
					"code_model2vec" in model_name_display.lower()
					or "distilled" in model_name_display.lower()
					or "(ours)" in model_name_display.lower()
				):
					# Check if it's a fine-tuned model
					if "fine_tuned" in model_name_display.lower():
						model_type = "**🎓 Fine-tuned Distillation**"
					else:
						model_type = "**🔥 Simplified Distillation**"
				elif any(code_term in model_name_display.lower() for code_term in ["codebert", "graphcode", "codet5"]):
					model_type = "Code-Specific"
				elif "potion" in model_name_display.lower():
					model_type = "Model2Vec"
				else:
					model_type = "General"

				report += f"| {rank + 1} | {model_name_display} | {model_type} | {row_data['NDCG@10']:.4f} | {row_data['MRR']:.4f} | {row_data['Recall@5']:.4f} |\n"

		report += f"""

## 📈 Performance Analysis

### Multi-Model Comparison Charts

![Model Comparison]({comparison_chart})

*Comprehensive comparison across all evaluation metrics.*

### Language Performance Analysis

![Language Heatmap]({heatmap_chart})

*Performance heatmap showing how different models perform across programming languages.*

### Efficiency Analysis

![Efficiency Analysis]({efficiency_chart})

*Performance vs model size analysis showing the efficiency benefits of distillation.*

"""

		# Add benchmark analysis if available
		if self.benchmark_results:
			report += f"""

## ⚡ Operational Performance Analysis

![Benchmark Performance]({benchmark_chart})

*Comprehensive performance benchmarking across multiple operational metrics.*

### Performance Scaling Analysis

![Batch Size Scaling]({batch_scaling_chart})

*How performance scales with different batch sizes for optimal throughput.*

![Memory Scaling]({memory_scaling_chart})

*Memory usage patterns across different batch sizes.*

"""

		# Add detailed language analysis
		report += """

## 🔍 Language-Specific Analysis

### Performance by Programming Language

"""

		if language_scores:
			report += "| Language | Best Model Performance | Average Performance | Language Difficulty |\n"
			report += "|----------|------------------------|--------------------|--------------------|\n"

			for lang in sorted(language_scores.keys()):
				# Find best performance for this language across all models
				lang_performances = []
				for result in self.results:
					lang_data = result.get("languages", {}).get(lang.lower(), {})
					if lang_data:
						lang_performances.append(lang_data.get("metrics", {}).get("ndcg@10", 0))

				if lang_performances:
					best_lang_perf = max(lang_performances)
					avg_lang_perf = sum(lang_performances) / len(lang_performances)
					difficulty = "Easy" if avg_lang_perf > 0.3 else "Medium" if avg_lang_perf > 0.2 else "Hard"

					report += f"| {lang} | {best_lang_perf:.4f} | {avg_lang_perf:.4f} | {difficulty} |\n"

		report += """

## 🎯 Conclusions and Recommendations

### Teacher Model Analysis

Based on the evaluation results across all simplified distillation models:

"""

		if simplified_models and len(simplified_models) > 1:
			# Analyze which teacher models work best
			teacher_performance = {}
			for result in simplified_models:
				model_name = result["model_name"]
				score = result.get("overall", {}).get("ndcg@10", 0)

				teacher_name, teacher_link = get_teacher_model_info(model_name)
				teacher_performance[teacher_name] = score

			if teacher_performance:
				best_teacher = max(teacher_performance.items(), key=lambda x: x[1])
				worst_teacher = min(teacher_performance.items(), key=lambda x: x[1])

				report += f"""
1. **Best Teacher Model**: {best_teacher[0]} (NDCG@10: {best_teacher[1]:.4f})
2. **Least Effective Teacher**: {worst_teacher[0]} (NDCG@10: {worst_teacher[1]:.4f})
3. **Teacher Model Impact**: Choice of teacher model affects performance by {((best_teacher[1] - worst_teacher[1]) / best_teacher[1] * 100):.1f}%

### Recommendations

- **For Production**: Use {best_teacher[0]} as teacher model for best performance
- **For Efficiency**: Model2Vec distillation provides significant size reduction with competitive performance
- **For Code Tasks**: Specialized models consistently outperform general-purpose models
"""

		report += f"""

## 📄 Methodology

### Evaluation Protocol
- **Dataset**: CodeSearchNet test sets for 6 programming languages
- **Metrics**: NDCG@k, MRR, Recall@k following CodeSearchNet methodology
- **Query Format**: Natural language documentation strings
- **Corpus Format**: Function code strings
- **Evaluation**: Retrieval of correct code for each documentation query

### Teacher Models Tested
- [sentence-transformers/all-MiniLM-L6-v2](https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2) (proven baseline)
- [sentence-transformers/all-mpnet-base-v2](https://huggingface.co/sentence-transformers/all-mpnet-base-v2) (general purpose)
- [sentence-transformers/paraphrase-MiniLM-L6-v2](https://huggingface.co/sentence-transformers/paraphrase-MiniLM-L6-v2) (paraphrase model)
- [microsoft/codebert-base](https://huggingface.co/microsoft/codebert-base) (code-specialized)
- [microsoft/graphcodebert-base](https://huggingface.co/microsoft/graphcodebert-base) (graph-aware code model)
- [Alibaba-NLP/gte-Qwen2-1.5B-instruct](https://huggingface.co/Alibaba-NLP/gte-Qwen2-1.5B-instruct) (instruction model)
- [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3) (multilingual model)
- [jinaai/jina-embeddings-v3](https://huggingface.co/jinaai/jina-embeddings-v3) (modern embedding model)
- [nomic-ai/nomic-embed-text-v2-moe](https://huggingface.co/nomic-ai/nomic-embed-text-v2-moe) (mixture of experts)
- [Qodo/Qodo-Embed-1-1.5B](https://huggingface.co/Qodo/Qodo-Embed-1-1.5B) (code-specialized)
- [lightonai/Reason-ModernColBERT](https://huggingface.co/lightonai/Reason-ModernColBERT) (ColBERT architecture)
- [Linq-AI-Research/Linq-Embed-Mistral](https://huggingface.co/Linq-AI-Research/Linq-Embed-Mistral) (Mistral-based)
- [BAAI/bge-code-v1](https://huggingface.co/BAAI/bge-code-v1) (code-specialized BGE)
- [Salesforce/SFR-Embedding-Code-2B_R](https://huggingface.co/Salesforce/SFR-Embedding-Code-2B_R) (large code model)

### Distillation Method
- **Technique**: Model2Vec static embedding generation
- **Parameters**: PCA dims=256, SIF coefficient=1e-3, Zipf weighting=True
- **Training Data**: CodeSearchNet comment-code pairs
- **Languages**: Python, JavaScript, Java, PHP, Ruby, Go

---

*Report generated on {time.strftime("%Y-%m-%d %H:%M:%S")} using automated analysis pipeline.*
*For questions about methodology or results, please refer to the CodeSearchNet documentation.*
"""

		return report

	def export_results(self, output_file: str) -> None:
		"""Export results to CSV format."""
		if self.comparison_df is not None:
			self.comparison_df.to_csv(output_file, index=False)
			logger.info(f"Results exported to {output_file}")


def main(
	results_dir: str = DEFAULT_EVALUATION_DIR,
	model_name: str = "code_model2vec_distilled_models",
	output: str = "REPORT.md",
	export_csv: str | None = None,
) -> None:
	"""Main analysis function."""
	logger.info("Starting CodeSearchNet Analysis with Integrated Benchmarks")
	logger.info("=" * 60)

	# Setup output directories
	output_dir, images_dir, reports_dir = setup_directories()

	# Initialize analyzer with results directory (benchmarks are integrated)
	analyzer = CodeSearchNetAnalyzer(
		results_dir=results_dir,
		benchmark_dir=None,  # No longer needed - benchmarks are in comprehensive files
		images_dir=images_dir,
	)

	# Load results (this will also load benchmark data from comprehensive files)
	analyzer.load_results()

	if not analyzer.results:
		logger.error("No evaluation results found! Please run evaluation first.")
		return

	# Print summary (includes both evaluation and benchmark summaries)
	analyzer.print_summary()
	analyzer.analyze_language_performance()

	# Analyze benchmark performance if available
	if analyzer.benchmark_results:
		analyzer.analyze_benchmark_performance()
	else:
		logger.warning("No benchmark results found. Models may have been evaluated with --skip-benchmark flag.")

	# Generate comprehensive report with benchmark integration
	logger.info("Generating comprehensive report with integrated benchmark data...")
	report = analyzer.generate_comprehensive_report(model_name)

	# Save report
	report_path = Path(output)
	with report_path.open("w") as f:
		f.write(report)

	# Export CSV if requested
	if export_csv:
		analyzer.export_results(export_csv)

	# Export benchmark CSV if available
	if analyzer.benchmark_df is not None and not analyzer.benchmark_df.empty:
		benchmark_csv = report_path.parent / f"{model_name}_benchmark_comparison.csv"
		analyzer.benchmark_df.to_csv(benchmark_csv, index=False)
		logger.info(f"📊 Benchmark comparison saved to: {benchmark_csv}")

	logger.info("✅ CodeSearchNet analysis with integrated benchmarks complete!")
	logger.info(f"📊 Report saved to: {report_path}")
	logger.info(f"🖼️  Charts saved to: {images_dir}")
	logger.info(f"💾 Source: Comprehensive evaluation files in {results_dir}")


if __name__ == "__main__":
	main()