HIGGS-per-tensor - a inference-optimization Collection

Models
Datasets
Spaces
Buckets new
Docs
Enterprise
Pricing
- Website
- Community
- Solutions
Log In
Sign Up

inference-optimization 's Collections

HIGGS-per-tensor

HIGGS-per-tensor

updated 23 days ago

meta-llama/Llama-3.2-1B-Instruct

Text Generation • 1B • Updated Oct 24, 2024 • 7.63M • • 1.4k
inference-optimization/Llama-3.2-1B-Instruct-FP8-Dynamic

1B • Updated Apr 7 • 29
inference-optimization/Llama-3.2-1B-Instruct-NVFP4

0.8B • Updated Apr 7 • 33
inference-optimization/Llama-3.2-1B-Instruct-5-bits-mode-heuristic-per-tensor

1B • Updated 24 days ago • 35
inference-optimization/Llama-3.2-1B-Instruct-5-bits-mode-hybrid-per-tensor

1B • Updated 24 days ago • 39
inference-optimization/Llama-3.2-1B-Instruct-5-bits-mode-noise-per-tensor

1B • Updated 24 days ago • 36
inference-optimization/Llama-3.2-1B-Instruct-5.5-bits-mode-heuristic-per-tensor

1B • Updated 24 days ago • 38
inference-optimization/Llama-3.2-1B-Instruct-5.5-bits-mode-hybrid-per-tensor

1B • Updated 24 days ago • 36
inference-optimization/Llama-3.2-1B-Instruct-5.5-bits-mode-noise-per-tensor

1B • Updated 24 days ago • 36
inference-optimization/Llama-3.2-1B-Instruct-6-bits-mode-heuristic-per-tensor

1B • Updated 24 days ago • 36
inference-optimization/Llama-3.2-1B-Instruct-6-bits-mode-hybrid-per-tensor

1B • Updated 24 days ago • 35
inference-optimization/Llama-3.2-1B-Instruct-6-bits-mode-noise-per-tensor

1B • Updated 24 days ago • 41
inference-optimization/Llama-3.2-1B-Instruct-6.5-bits-mode-heuristic-per-tensor

1B • Updated 24 days ago • 36
inference-optimization/Llama-3.2-1B-Instruct-6.5-bits-mode-hybrid-per-tensor

1B • Updated 24 days ago • 36
inference-optimization/Llama-3.2-1B-Instruct-6.5-bits-mode-noise-per-tensor

1B • Updated 24 days ago • 35
inference-optimization/Llama-3.2-1B-Instruct-7-bits-mode-heuristic-per-tensor

1B • Updated 24 days ago • 35
inference-optimization/Llama-3.2-1B-Instruct-7-bits-mode-hybrid-per-tensor

1B • Updated 24 days ago • 37
inference-optimization/Llama-3.2-1B-Instruct-7-bits-mode-noise-per-tensor

1B • Updated 24 days ago • 36
meta-llama/Llama-3.2-3B-Instruct

Text Generation • 3B • Updated Oct 24, 2024 • 2.43M • • 2.13k
inference-optimization/Llama-3.2-3B-Instruct-FP8-Dynamic

3B • Updated Apr 7 • 27
inference-optimization/Llama-3.2-3B-Instruct-NVFP4

2B • Updated Apr 7 • 292
inference-optimization/Llama-3.2-3B-Instruct-5-bits-mode-heuristic-per-tensor

3B • Updated 24 days ago • 33
inference-optimization/Llama-3.2-3B-Instruct-5-bits-mode-hybrid-per-tensor

3B • Updated 24 days ago • 35
inference-optimization/Llama-3.2-3B-Instruct-5-bits-mode-noise-per-tensor

3B • Updated 24 days ago • 35
inference-optimization/Llama-3.2-3B-Instruct-5.5-bits-mode-heuristic-per-tensor

3B • Updated 24 days ago • 36
inference-optimization/Llama-3.2-3B-Instruct-5.5-bits-mode-hybrid-per-tensor

3B • Updated 24 days ago • 35
inference-optimization/Llama-3.2-3B-Instruct-5.5-bits-mode-noise-per-tensor

3B • Updated 24 days ago • 39
inference-optimization/Llama-3.2-3B-Instruct-6-bits-mode-heuristic-per-tensor

3B • Updated 24 days ago • 67
inference-optimization/Llama-3.2-3B-Instruct-6-bits-mode-hybrid-per-tensor

3B • Updated 24 days ago • 47
inference-optimization/Llama-3.2-3B-Instruct-6-bits-mode-noise-per-tensor

3B • Updated 24 days ago • 40
inference-optimization/Llama-3.2-3B-Instruct-6.5-bits-mode-heuristic-per-tensor

3B • Updated 24 days ago • 35
inference-optimization/Llama-3.2-3B-Instruct-6.5-bits-mode-hybrid-per-tensor

3B • Updated 24 days ago • 39
inference-optimization/Llama-3.2-3B-Instruct-6.5-bits-mode-noise-per-tensor

3B • Updated 24 days ago • 34
inference-optimization/Llama-3.2-3B-Instruct-7-bits-mode-heuristic-per-tensor

3B • Updated 24 days ago • 39
inference-optimization/Llama-3.2-3B-Instruct-7-bits-mode-hybrid-per-tensor

3B • Updated 24 days ago • 34
inference-optimization/Llama-3.2-3B-Instruct-7-bits-mode-noise-per-tensor

3B • Updated 24 days ago • 37
meta-llama/Llama-3.1-8B-Instruct

Text Generation • 8B • Updated Sep 25, 2024 • 10M • • 5.84k
RedHatAI/Meta-Llama-3.1-8B-Instruct-FP8-dynamic

Text Generation • 8B • Updated Mar 19 • 65.3k • 9
RedHatAI/Llama-3.1-8B-Instruct-NVFP4

Text Generation • 5B • Updated Nov 21, 2025 • 17.1k • 1
inference-optimization/Llama-3.1-8B-Instruct-5-bits-mode-heuristic-per-tensor

5B • Updated 24 days ago • 57
inference-optimization/Llama-3.1-8B-Instruct-5-bits-mode-hybrid-per-tensor

5B • Updated 24 days ago • 52
inference-optimization/Llama-3.1-8B-Instruct-5-bits-mode-noise-per-tensor

5B • Updated 24 days ago • 46
inference-optimization/Llama-3.1-8B-Instruct-5.5-bits-mode-heuristic-per-tensor

6B • Updated 24 days ago • 53
inference-optimization/Llama-3.1-8B-Instruct-5.5-bits-mode-hybrid-per-tensor

6B • Updated 24 days ago • 59
inference-optimization/Llama-3.1-8B-Instruct-5.5-bits-mode-noise-per-tensor

6B • Updated 24 days ago • 52
inference-optimization/Llama-3.1-8B-Instruct-6-bits-mode-heuristic-per-tensor

6B • Updated 24 days ago • 70
inference-optimization/Llama-3.1-8B-Instruct-6-bits-mode-hybrid-per-tensor

6B • Updated 24 days ago • 64
inference-optimization/Llama-3.1-8B-Instruct-6-bits-mode-noise-per-tensor

6B • Updated 24 days ago • 62
inference-optimization/Llama-3.1-8B-Instruct-6.5-bits-mode-heuristic-per-tensor

7B • Updated 24 days ago • 55
inference-optimization/Llama-3.1-8B-Instruct-6.5-bits-mode-hybrid-per-tensor

7B • Updated 24 days ago • 66
inference-optimization/Llama-3.1-8B-Instruct-6.5-bits-mode-noise-per-tensor

7B • Updated 24 days ago • 51
inference-optimization/Llama-3.1-8B-Instruct-7-bits-mode-heuristic-per-tensor

7B • Updated 24 days ago • 58
inference-optimization/Llama-3.1-8B-Instruct-7-bits-mode-hybrid-per-tensor

7B • Updated 24 days ago • 52
inference-optimization/Llama-3.1-8B-Instruct-7-bits-mode-noise-per-tensor

7B • Updated 24 days ago • 55
Qwen/Qwen3-8B

Text Generation • 8B • Updated Jul 26, 2025 • 11.6M • • 1.09k
RedHatAI/Qwen3-8B-FP8-dynamic

Text Generation • 8B • Updated 17 days ago • 41.8k • 12
RedHatAI/Qwen3-8B-NVFP4

Text Generation • 5B • Updated Nov 21, 2025 • 3.27k • 2
inference-optimization/Qwen3-8B-5-bits-mode-heuristic-per-tensor

6B • Updated 24 days ago • 67
inference-optimization/Qwen3-8B-5-bits-mode-hybrid-per-tensor

6B • Updated 24 days ago • 71
inference-optimization/Qwen3-8B-5-bits-mode-noise-per-tensor

6B • Updated 24 days ago • 64
inference-optimization/Qwen3-8B-5.5-bits-mode-heuristic-per-tensor

6B • Updated 24 days ago • 68
inference-optimization/Qwen3-8B-5.5-bits-mode-hybrid-per-tensor

6B • Updated 24 days ago • 66
inference-optimization/Qwen3-8B-5.5-bits-mode-noise-per-tensor

6B • Updated 24 days ago • 66
inference-optimization/Qwen3-8B-6-bits-mode-heuristic-per-tensor

6B • Updated 24 days ago • 68
inference-optimization/Qwen3-8B-6-bits-mode-hybrid-per-tensor

6B • Updated 24 days ago • 64
inference-optimization/Qwen3-8B-6-bits-mode-noise-per-tensor

6B • Updated 24 days ago • 65
inference-optimization/Qwen3-8B-6.5-bits-mode-heuristic-per-tensor

7B • Updated 24 days ago • 74
inference-optimization/Qwen3-8B-6.5-bits-mode-hybrid-per-tensor

7B • Updated 24 days ago • 63
inference-optimization/Qwen3-8B-6.5-bits-mode-noise-per-tensor

6B • Updated 24 days ago • 68
inference-optimization/Qwen3-8B-7-bits-mode-heuristic-per-tensor

7B • Updated 24 days ago • 94
inference-optimization/Qwen3-8B-7-bits-mode-hybrid-per-tensor

7B • Updated 24 days ago • 88
inference-optimization/Qwen3-8B-7-bits-mode-noise-per-tensor

6B • Updated 24 days ago • 77
Qwen/Qwen3-30B-A3B

Text Generation • Updated Jul 26, 2025 • 1.68M • • 886
RedHatAI/Qwen3-30B-A3B-FP8-dynamic

Text Generation • 31B • Updated May 13, 2025 • 3.98k • 3
RedHatAI/Qwen3-30B-A3B-NVFP4

Text Generation • 17B • Updated Dec 4, 2025 • 28.8k • 2
inference-optimization/Qwen3-30B-A3B-5-bits-mode-heuristic-per-tensor

19B • Updated 24 days ago • 63
inference-optimization/Qwen3-30B-A3B-5-bits-mode-hybrid-per-tensor

19B • Updated 24 days ago • 49
inference-optimization/Qwen3-30B-A3B-5-bits-mode-noise-per-tensor

19B • Updated 24 days ago • 47
inference-optimization/Qwen3-30B-A3B-5.5-bits-mode-heuristic-per-tensor

21B • Updated 24 days ago • 43
inference-optimization/Qwen3-30B-A3B-5.5-bits-mode-hybrid-per-tensor

21B • Updated 24 days ago • 47
inference-optimization/Qwen3-30B-A3B-5.5-bits-mode-noise-per-tensor

21B • Updated 24 days ago • 49
inference-optimization/Qwen3-30B-A3B-6-bits-mode-heuristic-per-tensor

23B • Updated 24 days ago • 68
inference-optimization/Qwen3-30B-A3B-6-bits-mode-hybrid-per-tensor

23B • Updated 24 days ago • 54
inference-optimization/Qwen3-30B-A3B-6-bits-mode-noise-per-tensor

23B • Updated 24 days ago • 46
inference-optimization/Qwen3-30B-A3B-6.5-bits-mode-heuristic-per-tensor

25B • Updated 24 days ago • 51
inference-optimization/Qwen3-30B-A3B-6.5-bits-mode-hybrid-per-tensor

25B • Updated 24 days ago • 48
inference-optimization/Qwen3-30B-A3B-6.5-bits-mode-noise-per-tensor

25B • Updated 24 days ago • 51
inference-optimization/Qwen3-30B-A3B-7-bits-mode-heuristic-per-tensor

27B • Updated 24 days ago • 63
inference-optimization/Qwen3-30B-A3B-7-bits-mode-hybrid-per-tensor

27B • Updated 24 days ago • 54
inference-optimization/Qwen3-30B-A3B-7-bits-mode-noise-per-tensor

27B • Updated 24 days ago • 46
Qwen/Qwen3-30B-A3B-Instruct-2507

Text Generation • Updated Sep 17, 2025 • 1.23M • • 809
inference-optimization/Qwen3-30B-A3B-Instruct-2507-FP8-Dynamic

31B • Updated Mar 4 • 48
inference-optimization/Qwen3-30B-A3B-Instruct-2507-NVFP4

17B • Updated Mar 4 • 47
inference-optimization/Qwen3-30B-A3B-Instruct-2507-5-bits-mode-heuristic-per-tensor

19B • Updated 23 days ago • 55
inference-optimization/Qwen3-30B-A3B-Instruct-2507-5-bits-mode-hybrid-per-tensor

19B • Updated 23 days ago • 44
inference-optimization/Qwen3-30B-A3B-Instruct-2507-5-bits-mode-noise-per-tensor

19B • Updated 23 days ago • 46
inference-optimization/Qwen3-30B-A3B-Instruct-2507-5.5-bits-mode-heuristic-per-tensor

21B • Updated 23 days ago • 48
inference-optimization/Qwen3-30B-A3B-Instruct-2507-5.5-bits-mode-hybrid-per-tensor

21B • Updated 23 days ago • 44
inference-optimization/Qwen3-30B-A3B-Instruct-2507-5.5-bits-mode-noise-per-tensor

21B • Updated 23 days ago • 48
inference-optimization/Qwen3-30B-A3B-Instruct-2507-6-bits-mode-heuristic-per-tensor

23B • Updated 23 days ago • 42
inference-optimization/Qwen3-30B-A3B-Instruct-2507-6-bits-mode-hybrid-per-tensor

23B • Updated 23 days ago • 46
inference-optimization/Qwen3-30B-A3B-Instruct-2507-6-bits-mode-noise-per-tensor

23B • Updated 23 days ago • 44
inference-optimization/Qwen3-30B-A3B-Instruct-2507-6.5-bits-mode-heuristic-per-tensor

25B • Updated 23 days ago • 47
inference-optimization/Qwen3-30B-A3B-Instruct-2507-6.5-bits-mode-hybrid-per-tensor

25B • Updated 23 days ago • 43
inference-optimization/Qwen3-30B-A3B-Instruct-2507-6.5-bits-mode-noise-per-tensor

25B • Updated 23 days ago • 44
inference-optimization/Qwen3-30B-A3B-Instruct-2507-7-bits-mode-heuristic-per-tensor

27B • Updated 23 days ago • 43
inference-optimization/Qwen3-30B-A3B-Instruct-2507-7-bits-mode-hybrid-per-tensor

27B • Updated 23 days ago • 42
inference-optimization/Qwen3-30B-A3B-Instruct-2507-7-bits-mode-noise-per-tensor

26B • Updated 23 days ago • 44

Collection guide
Browse collections

Company

TOS Privacy About Careers

Website

Models Datasets Spaces Pricing Docs