JiaqiXue
/

R2-Router-RouterArena

@@ -4,7 +4,7 @@ tags:
   - llm-routing
   - model-selection
   - budget-optimization
-  - knn
 language:
   - en
 library_name: sklearn
@@ -104,7 +104,7 @@ sys.path.insert(0, path)
 from router import R2Router
-# Train KNN with custom hyperparameters
 router = R2Router.from_training_data(path, k=80, lambda_val=0.999)
 ```
@@ -127,8 +127,8 @@ Input Query
 [1] Embed with Qwen3-0.6B -> 1024-dim vector
     |
 [2] For each (model, budget) pair:
-      - KNN predicts quality (accuracy)
-      - KNN predicts output token count
       - Compute risk = (1-lambda) * quality - lambda * cost
     |
 [3] Select (model, budget) with highest risk
@@ -155,10 +155,10 @@ Output: (model_name, token_budget)
 | Parameter | Value |
 |-----------|-------|
-| KNN K | 80 |
 | Lambda | 0.999 |
 | Distance Metric | Cosine |
-| KNN Weights | Distance-weighted |
 | Embedding Dim | 1024 |
 ## Repository Contents
@@ -170,8 +170,8 @@ training_data/
   embeddings.npy        # Sub_10 training embeddings (809 x 1024)
   labels.json           # Per-(model, budget) accuracy & token labels
 checkpoints/
-  quality_knn_*.joblib  # Pre-fitted KNN quality predictors (18 total)
-  token_knn_*.joblib    # Pre-fitted KNN token predictors (6 total)
 ```
 ### Ways to Use
@@ -181,14 +181,14 @@ checkpoints/
 | `route_text()` + vLLM server | Yes (server) | Start `vllm serve` once, route from anywhere via HTTP |
 | `route_text()` + local vLLM | Yes (local) | Auto-loads Qwen3-0.6B on first call, caches it |
 | `route(embedding)` | No | Route from pre-computed 1024-dim embedding |
-| `from_training_data(path)` | No | Train your own KNN with custom hyperparameters |
 ## Training Details
 - **Training Data**: RouterArena sub_10 split (809 queries, 10% of full 8,400)
-- **Method**: KNeighborsRegressor with cosine distance, distance-weighted
 - **Evaluation**: Full 8,400 RouterArena queries (no data leakage)
-- **Training Time**: < 1 second (KNN fitting)
 ## Citation

   - llm-routing
   - model-selection
   - budget-optimization
+  - nearest-neighbor
 language:
   - en
 library_name: sklearn
 from router import R2Router
+# Train predictors with custom hyperparameters
 router = R2Router.from_training_data(path, k=80, lambda_val=0.999)
 ```
 [1] Embed with Qwen3-0.6B -> 1024-dim vector
     |
 [2] For each (model, budget) pair:
+      - Predict quality (accuracy)
+      - Predict output token count
       - Compute risk = (1-lambda) * quality - lambda * cost
     |
 [3] Select (model, budget) with highest risk
 | Parameter | Value |
 |-----------|-------|
+| K (neighbors) | 80 |
 | Lambda | 0.999 |
 | Distance Metric | Cosine |
+| Weights | Distance-weighted |
 | Embedding Dim | 1024 |
 ## Repository Contents
   embeddings.npy        # Sub_10 training embeddings (809 x 1024)
   labels.json           # Per-(model, budget) accuracy & token labels
 checkpoints/
+  quality_knn_*.joblib  # Pre-fitted quality predictors (18 total)
+  token_knn_*.joblib    # Pre-fitted token predictors (6 total)
 ```
 ### Ways to Use
 | `route_text()` + vLLM server | Yes (server) | Start `vllm serve` once, route from anywhere via HTTP |
 | `route_text()` + local vLLM | Yes (local) | Auto-loads Qwen3-0.6B on first call, caches it |
 | `route(embedding)` | No | Route from pre-computed 1024-dim embedding |
+| `from_training_data(path)` | No | Train your own predictors with custom hyperparameters |
 ## Training Details
 - **Training Data**: RouterArena sub_10 split (809 queries, 10% of full 8,400)
+- **Method**: Nearest-neighbor regression with cosine distance, distance-weighted
 - **Evaluation**: Full 8,400 RouterArena queries (no data leakage)
+- **Training Time**: < 1 second
 ## Citation