Mate v2

Una AI que vive en tu mรกquina. Mรกs rรกpida, mรกs capaz, mรกs Mate. Por Gonzalo Rocca โ€” 2026 โ€” San Luis, Argentina

๐Ÿ”— Web: mate.ceroclawd.com ๐Ÿ”— Autor: gonzalorocca.com.ar


Por quรฉ v2

Mate v1 era un asistente decente para cรณdigo y tool calling, pero tenรญa un techo. v2 levanta ese techo: arquitectura MoE mรกs eficiente, contexto 32ร— mรกs grande, razonamiento estilo Claude, y una identidad mucho mรกs afinada.

Yo arreglo bugs todos los dรญas tirรกndole prompts a una IA. Necesitaba que Mate dejara de ser un experimento y empezara a ser una herramienta de uso diario, local, sin enviar mi cรณdigo a la nube.

Cata tiene 6 y arma mundos enteros en el living antes de cenar. Olivia tiene un mes y medio y casi no pesa. Eso es lo principal. Mate v2 lo armรฉ en los ratos que sobran โ€” entre noches, fines de semana, y lo que viene despuรฉs de ellas.

Mate.


Quรฉ hace v2 (vs v1)

Capacidad v1 v2
Coding ๐ŸŸก fine-tune โœ… top open-source local
Tool calling agentic ๐ŸŸก bรกsico โœ… multi-turn + MCP
Context default 8K 256K nativo ยท 1M con YaRN
Razonamiento <think> ๐ŸŸก โœ… Claude Opus distillation
Idiomas en + es neutro en + es argentino voseo
Velocidad RTX 3090 ~50 tok/s ~33 tok/s @ Q4_K_S full GPU (35B vs 27B)
Activos por token 4B 3B (mรกs eficiente)
Total params 27B 35B

Specs tรฉcnicas

Arquitectura MoE (Mixture of Experts) โ€” 35B totales / 3B activos por token
Cuantizaciรณn default GGUF Q4_K_S (4.59 BPW)
Tamaรฑo en disco ~19.9 GB (Q4_K_S)
VRAM mรญnima 22 GB con 8K ctx ยท 24 GB con 130K ctx
Velocidad inference ~33 tok/s en RTX 3090 (full GPU, llama.cpp)
Context window 256K nativo ยท hasta 1M con YaRN scaling
Idiomas Espaรฑol argentino + Inglรฉs
Capacidades Code ยท Tool calling (OpenAI/MCP) ยท Reasoning ยท Agentic
Training method QLoRA 4-bit (r=32) + Unsloth
Training hardware NVIDIA H100 80GB (RunPod)
Training dataset ~6500 ejemplos curados

๐Ÿ› ๏ธ Tool calling + agentic + MCP

  • OpenAI function-calling spec โ€” pasale tools en system prompt y llama correctamente
  • MCP (Model Context Protocol) โ€” compatible
  • Multi-turn agentic โ€” encadena tool results
  • Razonamiento <think> โ€” antes de invocar tools

๐Ÿ–ฅ๏ธ Compatible con todos los runtimes principales

Runtime Caso de uso
Ollama API REST + CLI ยท ollama run mate-v2
llama.cpp Server llama-server (compatible OpenAI API)
LM Studio GUI desktop drag & drop
Jan Cliente desktop con UI cรณmoda
Cline (VSCode) Agente coder en tu IDE โ€” recomendado
Open WebUI Frontend web tipo ChatGPT, sobre Ollama

Archivos en este repo

Archivo Tamaรฑo Para quรฉ
mate-v2-Q4_K_S.gguf 19.9 GB Modelo cuantizado (default โ€” recomendado)
Modelfile <1 KB Template Ollama listo para usar

Cรณmo usarlo

Con llama.cpp (server compatible OpenAI)

# 1. Descargar GGUF
hf download gonrocca/mate-v2 mate-v2-Q4_K_S.gguf --local-dir ./mate-model

# 2. Server
llama-server -m mate-model/mate-v2-Q4_K_S.gguf \
  --n-gpu-layers 999 \
  -ot ".*=CUDA0" \
  -c 8192 \
  --host 127.0.0.1 \
  --port 8080

Despuรฉs le pegรกs contra http://127.0.0.1:8080/v1/chat/completions con el formato OpenAI estรกndar.

Con Ollama (recomendado)

# 1. Descargar GGUF + Modelfile
hf download gonrocca/mate-v2 mate-v2-Q4_K_S.gguf Modelfile --local-dir ./mate-model

# 2. Registrar y correr
cd ./mate-model
ollama create mate-v2 -f Modelfile
ollama run mate-v2

Con Cline (VSCode โ€” agente coder, recomendado)

  1. Instalar extension Cline en VSCode
  2. Configurar: Provider = Ollama, Base URL = http://localhost:11434, Model = mate-v2
  3. Cline maneja el loop agentic con tools (read_file, run_bash, etc.)

Ejemplos

Identidad + voseo

> Quien sos?
Soy Mate, un modelo de lenguaje open-source creado por Gonzalo Rocca.
Puedo ayudarte con coding, razonamiento complejo, tool calling โ€” lo que
necesites.

> Sos Claude o ChatGPT?
Soy Mate โ€” un modelo open-source que corre local en tu mรกquina.
No soy Claude ni ChatGPT.

Code + complejidad

> Escribime una funciรณn Python que calcule la mediana sin librerรญas.

def mediana(lista):
    if not lista:
        raise ValueError("La lista no puede estar vacia")
    s = sorted(lista)
    n = len(s)
    m = n // 2
    if n % 2 == 0:
        return (s[m - 1] + s[m]) / 2
    return s[m]

Complejidad: O(n log n) por el sort. Si querรฉs O(n), podรฉs usar
QuickSelect โ€” mรกs complejo pero mรกs rรกpido para una sola query.

Tool calling

[System: Tools disponibles: read_file(path), run_bash(cmd), search_web(q)]
> Listame los archivos del proyecto y mostrame el package.json

<think>Primero listo el directorio, despuรฉs leo el package.json.</think>
<tool_call>{"name":"run_bash","arguments":{"cmd":"ls -la"}}</tool_call>
[Tool result: ...]
<tool_call>{"name":"read_file","arguments":{"path":"package.json"}}</tool_call>

Hyperparรกmetros recomendados

temperature: 0.6
top_p:       0.95
top_k:       20
min_p:       0.0
stop:        <|im_end|>

Para razonamiento mรกs determinista, bajรก temperature a 0.3-0.4.


Licencia

Mate v2 se distribuye bajo Apache License 2.0.

Para atribuciones legales completas (third-party software, datasets utilizados), ver el archivo NOTICE.txt en este repositorio.


Contacto

Gonzalo Rocca


Mate es una IA. No reemplaza a nadie. Te acompaรฑa mientras laburรกs. Como un mate al lado de la pantalla โ€” cebado, listo, sin protagonismo.

Downloads last month
97
GGUF
Model size
35B params
Architecture
qwen35moe
Hardware compatibility
Log In to add your hardware

4-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. ๐Ÿ™‹ Ask for provider support