Spaces:

ArthyP
/

enhanced-rag-demo

Sleeping

enhanced-rag-demo / src /components /generators /llm_adapters /huggingface_adapter.py

Arthur Passuello

initial commit

5e1a30c about 1 month ago

16.7 kB

	"""
	HuggingFace LLM adapter implementation.

	This adapter provides integration with HuggingFace Inference API, handling
	the specific API format and response structure of HuggingFace models.

	Architecture Notes:
	- Converts between unified interface and HuggingFace API format
	- Handles both chat completion and text generation endpoints
	- Supports automatic model selection and fallback
	- Maps HuggingFace errors to standard LLMError types
	"""

	import os
	import logging
	import time
	from typing import Dict, Any, Optional, List, Iterator
	from datetime import datetime

	from .base_adapter import BaseLLMAdapter, LLMError, ModelNotFoundError, AuthenticationError, RateLimitError
	from ..base import GenerationParams

	logger = logging.getLogger(__name__)

	# Check for HuggingFace Hub availability
	try:
	from huggingface_hub import InferenceClient
	HF_HUB_AVAILABLE = True
	except ImportError:
	HF_HUB_AVAILABLE = False
	logger.warning("huggingface_hub not available. Install with: pip install huggingface-hub")


	class HuggingFaceAdapter(BaseLLMAdapter):
	"""
	Adapter for HuggingFace Inference API integration.

	Features:
	- Support for both chat completion and text generation
	- Automatic model selection and fallback
	- OpenAI-compatible chat completion format
	- Comprehensive error handling and retry logic
	- Multiple model support with automatic fallback

	Configuration:
	- api_token: HuggingFace API token (required)
	- timeout: Request timeout in seconds (default: 30)
	- use_chat_completion: Prefer chat completion over text generation
	- fallback_models: List of models to try if primary fails
	"""

	# Models that work well with chat completion format
	CHAT_MODELS = [
	"microsoft/DialoGPT-medium", # Proven conversational model
	"google/gemma-2-2b-it", # Instruction-tuned, good for Q&A
	"meta-llama/Llama-3.2-3B-Instruct", # If available with token
	"Qwen/Qwen2.5-1.5B-Instruct", # Small, fast, good quality
	]

	# Fallback models for classic text generation
	CLASSIC_MODELS = [
	"google/flan-t5-small", # Good for instructions
	"deepset/roberta-base-squad2", # Q&A specific
	"facebook/bart-base", # Summarization
	]

	def __init__(self,
	model_name: str = "microsoft/DialoGPT-medium",
	api_token: Optional[str] = None,
	timeout: int = 30,
	use_chat_completion: bool = True,
	fallback_models: Optional[List[str]] = None,
	config: Optional[Dict[str, Any]] = None):
	"""
	Initialize HuggingFace adapter.

	Args:
	model_name: HuggingFace model name
	api_token: HuggingFace API token
	timeout: Request timeout in seconds
	use_chat_completion: Prefer chat completion over text generation
	fallback_models: List of fallback models to try
	config: Additional configuration
	"""
	if not HF_HUB_AVAILABLE:
	raise ImportError("huggingface_hub is required for HuggingFace adapter. Install with: pip install huggingface-hub")

	# Get API token from various sources
	self.api_token = (
	api_token or
	os.getenv("HUGGINGFACE_API_TOKEN") or
	os.getenv("HF_TOKEN") or
	os.getenv("HF_API_TOKEN")
	)

	if not self.api_token:
	raise AuthenticationError("HuggingFace API token required. Set HF_TOKEN environment variable or pass api_token parameter.")

	# Merge configuration
	adapter_config = {
	'api_token': self.api_token,
	'timeout': timeout,
	'use_chat_completion': use_chat_completion,
	'fallback_models': fallback_models or [],
	**(config or {})
	}

	super().__init__(model_name, adapter_config)

	self.timeout = adapter_config['timeout']
	self.use_chat_completion = adapter_config['use_chat_completion']
	self.fallback_models = adapter_config['fallback_models']

	# Initialize client
	self.client = InferenceClient(token=self.api_token)

	# Test connection and determine best model (only if not using dummy token)
	if not self.api_token.startswith("dummy_"):
	self._test_connection()
	else:
	logger.info("Using dummy token, skipping connection test")

	logger.info(f"Initialized HuggingFace adapter for model '{self.model_name}' (chat_completion: {self.use_chat_completion})")

	def _make_request(self, prompt: str, params: GenerationParams) -> Dict[str, Any]:
	"""
	Make a request to HuggingFace API.

	Args:
	prompt: The prompt to send
	params: Generation parameters

	Returns:
	HuggingFace API response

	Raises:
	Various request exceptions
	"""
	try:
	if self.use_chat_completion:
	return self._make_chat_completion_request(prompt, params)
	else:
	return self._make_text_generation_request(prompt, params)
	except Exception as e:
	# Try fallback models if primary fails
	for fallback_model in self.fallback_models:
	try:
	logger.info(f"Trying fallback model: {fallback_model}")
	original_model = self.model_name
	self.model_name = fallback_model

	if self.use_chat_completion:
	result = self._make_chat_completion_request(prompt, params)
	else:
	result = self._make_text_generation_request(prompt, params)

	# Success with fallback
	logger.info(f"Successfully used fallback model: {fallback_model}")
	return result

	except Exception as fallback_error:
	logger.warning(f"Fallback model {fallback_model} failed: {fallback_error}")
	# Restore original model name
	self.model_name = original_model
	continue

	# All models failed
	self._handle_provider_error(e)

	def _make_chat_completion_request(self, prompt: str, params: GenerationParams) -> Dict[str, Any]:
	"""Make a chat completion request."""
	messages = [{"role": "user", "content": prompt}]

	try:
	response = self.client.chat_completion(
	messages=messages,
	model=self.model_name,
	temperature=params.temperature,
	max_tokens=params.max_tokens,
	stream=False
	)

	# Extract content from response
	if hasattr(response, 'choices') and response.choices:
	content = response.choices[0].message.content
	return {
	'content': content,
	'model': self.model_name,
	'usage': getattr(response, 'usage', {}),
	'response_type': 'chat_completion'
	}
	else:
	# Handle different response formats
	if hasattr(response, 'generated_text'):
	content = response.generated_text
	else:
	content = str(response)

	return {
	'content': content,
	'model': self.model_name,
	'usage': {},
	'response_type': 'chat_completion'
	}

	except Exception as e:
	logger.error(f"Chat completion failed: {e}")
	raise

	def _make_text_generation_request(self, prompt: str, params: GenerationParams) -> Dict[str, Any]:
	"""Make a text generation request."""
	try:
	response = self.client.text_generation(
	model=self.model_name,
	prompt=prompt,
	max_new_tokens=params.max_tokens,
	temperature=params.temperature,
	do_sample=params.temperature > 0,
	top_p=params.top_p,
	stop_sequences=params.stop_sequences
	)

	# Handle response format
	if isinstance(response, str):
	content = response
	else:
	content = getattr(response, 'generated_text', str(response))

	return {
	'content': content,
	'model': self.model_name,
	'usage': {},
	'response_type': 'text_generation'
	}

	except Exception as e:
	logger.error(f"Text generation failed: {e}")
	raise

	def _parse_response(self, response: Dict[str, Any]) -> str:
	"""
	Parse HuggingFace response to extract generated text.

	Args:
	response: HuggingFace API response

	Returns:
	Generated text
	"""
	content = response.get('content', '')

	# Log usage if available
	if 'usage' in response and response['usage']:
	usage = response['usage']
	total_tokens = usage.get('total_tokens', 0)
	if total_tokens > 0:
	logger.debug(f"HuggingFace used {total_tokens} tokens for generation")

	return content

	def generate_streaming(self, prompt: str, params: GenerationParams) -> Iterator[str]:
	"""
	Generate a streaming response from HuggingFace.

	Args:
	prompt: The prompt to send
	params: Generation parameters

	Yields:
	Generated text chunks
	"""
	try:
	if self.use_chat_completion:
	# Try streaming chat completion
	messages = [{"role": "user", "content": prompt}]

	response = self.client.chat_completion(
	messages=messages,
	model=self.model_name,
	temperature=params.temperature,
	max_tokens=params.max_tokens,
	stream=True
	)

	for chunk in response:
	if hasattr(chunk, 'choices') and chunk.choices:
	delta = chunk.choices[0].delta
	if hasattr(delta, 'content') and delta.content:
	yield delta.content
	else:
	# Fallback to non-streaming for text generation
	logger.warning("Streaming not supported for text generation, falling back to non-streaming")
	yield self.generate(prompt, params)

	except Exception as e:
	logger.error(f"Streaming generation failed: {e}")
	# Fallback to non-streaming
	yield self.generate(prompt, params)

	def _get_provider_name(self) -> str:
	"""Return the provider name."""
	return "HuggingFace"

	def _validate_model(self) -> bool:
	"""Check if the model exists in HuggingFace."""
	try:
	# Try a simple test request
	test_prompt = "Hello"

	if self.use_chat_completion:
	test_messages = [{"role": "user", "content": test_prompt}]
	response = self.client.chat_completion(
	messages=test_messages,
	model=self.model_name,
	max_tokens=10,
	temperature=0.1
	)
	else:
	response = self.client.text_generation(
	model=self.model_name,
	prompt=test_prompt,
	max_new_tokens=10
	)

	return bool(response)

	except Exception as e:
	logger.warning(f"Model validation failed: {e}")
	return False

	def _supports_streaming(self) -> bool:
	"""HuggingFace supports streaming for chat completion."""
	return self.use_chat_completion

	def _get_max_tokens(self) -> Optional[int]:
	"""Get max tokens for current model."""
	# Model-specific limits (approximate)
	model_limits = {
	'microsoft/DialoGPT-medium': 1024,
	'google/gemma-2-2b-it': 8192,
	'meta-llama/Llama-3.2-3B-Instruct': 4096,
	'Qwen/Qwen2.5-1.5B-Instruct': 32768,
	'google/flan-t5-small': 512,
	'deepset/roberta-base-squad2': 512,
	'facebook/bart-base': 1024,
	}

	# Check for exact match
	if self.model_name in model_limits:
	return model_limits[self.model_name]

	# Check for partial match
	for model_prefix, limit in model_limits.items():
	if model_prefix in self.model_name:
	return limit

	# Default for unknown models
	return 1024

	def _test_connection(self) -> None:
	"""Test the connection and find the best working model."""
	logger.info("Testing HuggingFace API connection...")

	# Test primary model first
	if self._validate_model():
	logger.info(f"Primary model {self.model_name} is working")
	return

	# Try chat models if using chat completion
	if self.use_chat_completion:
	for model in self.CHAT_MODELS:
	if model != self.model_name:
	try:
	logger.info(f"Testing chat model: {model}")
	original_model = self.model_name
	self.model_name = model

	if self._validate_model():
	logger.info(f"Found working chat model: {model}")
	return

	# Restore original if failed
	self.model_name = original_model

	except Exception as e:
	logger.warning(f"Chat model {model} failed: {e}")
	continue

	# Try classic models as fallback
	logger.info("Trying classic text generation models...")
	for model in self.CLASSIC_MODELS:
	try:
	logger.info(f"Testing classic model: {model}")
	original_model = self.model_name
	original_chat = self.use_chat_completion

	self.model_name = model
	self.use_chat_completion = False

	if self._validate_model():
	logger.info(f"Found working classic model: {model}")
	return

	# Restore original settings if failed
	self.model_name = original_model
	self.use_chat_completion = original_chat

	except Exception as e:
	logger.warning(f"Classic model {model} failed: {e}")
	continue

	# If we get here, no models worked
	raise ModelNotFoundError(f"No working models found. Original model '{self.model_name}' is not accessible.")

	def _handle_provider_error(self, error: Exception) -> None:
	"""Map HuggingFace-specific errors to standard errors."""
	error_msg = str(error).lower()

	if 'rate limit' in error_msg or '429' in error_msg:
	raise RateLimitError(f"HuggingFace rate limit exceeded: {error}")
	elif 'unauthorized' in error_msg or '401' in error_msg or 'token' in error_msg:
	raise AuthenticationError(f"HuggingFace authentication failed: {error}")
	elif 'not found' in error_msg or '404' in error_msg:
	raise ModelNotFoundError(f"HuggingFace model not found: {error}")
	elif 'timeout' in error_msg:
	raise LLMError(f"HuggingFace request timed out: {error}")
	elif 'connection' in error_msg:
	raise LLMError(f"Failed to connect to HuggingFace API: {error}")
	else:
	raise LLMError(f"HuggingFace API error: {error}")