Embedl

Team

company

https://www.embedl.com

embedl

Activity Feed

AI & ML interests

None defined yet.

Recent Activity

JonnaMat updated a model 24 minutes ago

embedl/Qwen3.5-9B-FlashHead

JonnaMat updated a model 24 minutes ago

embedl/Qwen3.5-4B-FlashHead

JonnaMat updated a model 25 minutes ago

embedl/Qwen3.5-0.8B-FlashHead

View all activity

embedl 's collections 7

FlashHead

Efficient Drop-In Replacement for the Classification Head in Language Model Inference. https://github.com/embedl/flash-head

embedl/Cosmos-Reason2-2B-W4A16-Edge2-FlashHead

Image-Text-to-Text • 2B • Updated 5 days ago • 1.71k • 7
embedl/Qwen3-1.7B-FlashHead-W4A16

2B • Updated 5 days ago • 151 • 3
embedl/gemma-3-270m-it-FlashHead

0.3B • Updated 5 days ago • 217 • 3
embedl/Qwen3-0.6B-FlashHead

0.6B • Updated 5 days ago • 100 • 4

Cosmos-Reason2

nvidia/Cosmos-Reason2 multi-modal reasoning models optimized by Embedl.

embedl/Cosmos-Reason2-2B-W4A16-Edge2

Image-Text-to-Text • 2B • Updated 5 days ago • 11.9k • 12
embedl/Cosmos-Reason2-2B-W4A16-Edge2-FlashHead

Image-Text-to-Text • 2B • Updated 5 days ago • 1.71k • 7
embedl/Cosmos-Reason2-2B-NVFP4A16

Image-Text-to-Text • 2B • Updated 5 days ago • 466 • 1
embedl/Cosmos-Reason2-2B-W4A16

Image-Text-to-Text • 2B • Updated 5 days ago • 692 • 7

NVIDIA Jetson Orin Nano

Ultra-efficient model variants optimized for Jetson Orin Nano. Designed for constrained edge environments requiring low memory footprint.

embedl/Cosmos-Reason2-2B-W4A16-Edge2

Image-Text-to-Text • 2B • Updated 5 days ago • 11.9k • 12
embedl/Cosmos-Reason2-2B-W4A16

Image-Text-to-Text • 2B • Updated 5 days ago • 692 • 7
embedl/Cosmos-Reason2-2B-W4A16-Edge2-FlashHead

Image-Text-to-Text • 2B • Updated 5 days ago • 1.71k • 7
Running

6

Edge Inference Benchmarks

🚀

6

On-Device benchmarks across devices and models.

NVIDIA Jetson AGX Thor

Models validated and performance-optimized for NVIDIA Jetson AGX Thor. Tailored for high-performance edge AI workloads.

embedl/Cosmos-Reason2-2B-NVFP4A16

Image-Text-to-Text • 2B • Updated 5 days ago • 466 • 1
embedl/Cosmos-Reason2-2B-W4A16-Edge2

Image-Text-to-Text • 2B • Updated 5 days ago • 11.9k • 12
embedl/Cosmos-Reason2-2B-W4A16

Image-Text-to-Text • 2B • Updated 5 days ago • 692 • 7
embedl/Cosmos-Reason2-2B-W4A16-Edge2-FlashHead

Image-Text-to-Text • 2B • Updated 5 days ago • 1.71k • 7

EdgeN

Quantization strategy where most weights are converted to INT4, activations remain in FP16, and sensitive layers are preserved in FP16.

embedl/Cosmos-Reason2-2B-W4A16-Edge2

Image-Text-to-Text • 2B • Updated 5 days ago • 11.9k • 12
embedl/Cosmos-Reason2-2B-W4A16-Edge2-FlashHead

Image-Text-to-Text • 2B • Updated 5 days ago • 1.71k • 7
Running

6

Edge Inference Benchmarks

🚀

6

On-Device benchmarks across devices and models.

Qwen3.5

Qwen/Qwen3.5 variants optimized by embedl.

embedl/Qwen3.5-0.8B-FlashHead

Image-Text-to-Text • 0.9B • Updated 25 minutes ago • 350
embedl/Qwen3.5-2B-FlashHead

Image-Text-to-Text • 2B • Updated 25 minutes ago • 416
embedl/Qwen3.5-4B-FlashHead

Image-Text-to-Text • 5B • Updated 24 minutes ago • 401
embedl/Qwen3.5-9B-FlashHead

Image-Text-to-Text • 10B • Updated 24 minutes ago • 386

NVIDIA Jetson AGX Orin

Models optimized and bench-marked for NVIDIA Jetson AGX Orin. Memory-efficient and latency-optimized variants designed for real-time edge inference.

embedl/Cosmos-Reason2-2B-W4A16-Edge2

Image-Text-to-Text • 2B • Updated 5 days ago • 11.9k • 12
embedl/Cosmos-Reason2-2B-W4A16

Image-Text-to-Text • 2B • Updated 5 days ago • 692 • 7
embedl/Cosmos-Reason2-2B-W4A16-Edge2-FlashHead

Image-Text-to-Text • 2B • Updated 5 days ago • 1.71k • 7
embedl/Qwen3.5-0.8B-FlashHead

Image-Text-to-Text • 0.9B • Updated 25 minutes ago • 350

FlashHead

Efficient Drop-In Replacement for the Classification Head in Language Model Inference. https://github.com/embedl/flash-head

embedl/Cosmos-Reason2-2B-W4A16-Edge2-FlashHead

Image-Text-to-Text • 2B • Updated 5 days ago • 1.71k • 7
embedl/Qwen3-1.7B-FlashHead-W4A16

2B • Updated 5 days ago • 151 • 3
embedl/gemma-3-270m-it-FlashHead

0.3B • Updated 5 days ago • 217 • 3
embedl/Qwen3-0.6B-FlashHead

0.6B • Updated 5 days ago • 100 • 4

EdgeN

Quantization strategy where most weights are converted to INT4, activations remain in FP16, and sensitive layers are preserved in FP16.

embedl/Cosmos-Reason2-2B-W4A16-Edge2

Image-Text-to-Text • 2B • Updated 5 days ago • 11.9k • 12
embedl/Cosmos-Reason2-2B-W4A16-Edge2-FlashHead

Image-Text-to-Text • 2B • Updated 5 days ago • 1.71k • 7
Running

6

Edge Inference Benchmarks

🚀

6

On-Device benchmarks across devices and models.

Cosmos-Reason2

nvidia/Cosmos-Reason2 multi-modal reasoning models optimized by Embedl.

embedl/Cosmos-Reason2-2B-W4A16-Edge2

Image-Text-to-Text • 2B • Updated 5 days ago • 11.9k • 12
embedl/Cosmos-Reason2-2B-W4A16-Edge2-FlashHead

Image-Text-to-Text • 2B • Updated 5 days ago • 1.71k • 7
embedl/Cosmos-Reason2-2B-NVFP4A16

Image-Text-to-Text • 2B • Updated 5 days ago • 466 • 1
embedl/Cosmos-Reason2-2B-W4A16

Image-Text-to-Text • 2B • Updated 5 days ago • 692 • 7

Qwen3.5

Qwen/Qwen3.5 variants optimized by embedl.

embedl/Qwen3.5-0.8B-FlashHead

Image-Text-to-Text • 0.9B • Updated 25 minutes ago • 350
embedl/Qwen3.5-2B-FlashHead

Image-Text-to-Text • 2B • Updated 25 minutes ago • 416
embedl/Qwen3.5-4B-FlashHead

Image-Text-to-Text • 5B • Updated 24 minutes ago • 401
embedl/Qwen3.5-9B-FlashHead

Image-Text-to-Text • 10B • Updated 24 minutes ago • 386

NVIDIA Jetson Orin Nano

Ultra-efficient model variants optimized for Jetson Orin Nano. Designed for constrained edge environments requiring low memory footprint.

embedl/Cosmos-Reason2-2B-W4A16-Edge2

Image-Text-to-Text • 2B • Updated 5 days ago • 11.9k • 12
embedl/Cosmos-Reason2-2B-W4A16

Image-Text-to-Text • 2B • Updated 5 days ago • 692 • 7
embedl/Cosmos-Reason2-2B-W4A16-Edge2-FlashHead

Image-Text-to-Text • 2B • Updated 5 days ago • 1.71k • 7
Running

6

Edge Inference Benchmarks

🚀

6

On-Device benchmarks across devices and models.

NVIDIA Jetson AGX Orin

Models optimized and bench-marked for NVIDIA Jetson AGX Orin. Memory-efficient and latency-optimized variants designed for real-time edge inference.

embedl/Cosmos-Reason2-2B-W4A16-Edge2

Image-Text-to-Text • 2B • Updated 5 days ago • 11.9k • 12
embedl/Cosmos-Reason2-2B-W4A16

Image-Text-to-Text • 2B • Updated 5 days ago • 692 • 7
embedl/Cosmos-Reason2-2B-W4A16-Edge2-FlashHead

Image-Text-to-Text • 2B • Updated 5 days ago • 1.71k • 7
embedl/Qwen3.5-0.8B-FlashHead

Image-Text-to-Text • 0.9B • Updated 25 minutes ago • 350

NVIDIA Jetson AGX Thor

Models validated and performance-optimized for NVIDIA Jetson AGX Thor. Tailored for high-performance edge AI workloads.

embedl/Cosmos-Reason2-2B-NVFP4A16

Image-Text-to-Text • 2B • Updated 5 days ago • 466 • 1
embedl/Cosmos-Reason2-2B-W4A16-Edge2

Image-Text-to-Text • 2B • Updated 5 days ago • 11.9k • 12
embedl/Cosmos-Reason2-2B-W4A16

Image-Text-to-Text • 2B • Updated 5 days ago • 692 • 7
embedl/Cosmos-Reason2-2B-W4A16-Edge2-FlashHead

Image-Text-to-Text • 2B • Updated 5 days ago • 1.71k • 7

AI & ML interests

Recent Activity

Team members 6

embedl 's collections 7

Edge Inference Benchmarks

Edge Inference Benchmarks

Edge Inference Benchmarks

Edge Inference Benchmarks