MTP Mini - Modelo de Lenguaje

Modelo transformer entrenado con las siguientes características:

Arquitectura

  • Parámetros: ~35.6M
  • Vocabulario: 4000 tokens
  • Capas: 8
  • Dimensión: 512
  • Cabezas de atención: 8

Mejoras implementadas

  • ✅ RoPE (Rotary Position Embedding)
  • ✅ RMSNorm
  • ✅ SwiGLU activation
  • ✅ Label smoothing
  • ✅ Repetition penalty
  • ✅ Early stopping
  • ✅ Length control

Uso

import torch
import pickle

# Cargar modelo
with open('mtp_mini.pkl', 'rb') as f:
    model_data = pickle.load(f)

# Cargar tokenizer
from tokenizer import MTPTokenizer
tokenizer = MTPTokenizer('mtp_tokenizer.model')

# Cargar modelo
from model import MTPMiniModel
model = MTPMiniModel(**model_data['config']['model'])
model.load_state_dict(model_data['model_state_dict'])
model.eval()

# Generar texto
prompt = "¿Qué es la inteligencia artificial?"
input_ids = torch.tensor([tokenizer.encode(prompt)])
output = model.generate(input_ids, max_new_tokens=100)
print(tokenizer.decode(output[0].tolist()))

Entrenamiento

  • Dataset: Corpus personalizado en español
  • Épocas: 0
  • Mejor val loss: 3.7816

Entrenado en Google Colab.

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Space using TeszenAI/MTP-4 1