Edit Models filters

Tasks

Text Generation

Image-Text-to-Text

Parameters

Libraries

Transformers.js

Apps

Inference Providers

Models

1,036

Full-text search

Active filters: reinforcement-learning, transformers

btaskel/Tifa-DeepsexV2-7b-MGRPO-safetensors

Reinforcement Learning • 8B • Updated Mar 3 • 5 • 1

mradermacher/Tifa-DeepsexV2-7b-MGRPO-safetensors-GGUF

Reinforcement Learning • 8B • Updated Mar 2 • 183 • 1

mradermacher/Tifa-DeepsexV2-7b-MGRPO-safetensors-i1-GGUF

Reinforcement Learning • 8B • Updated Mar 2 • 378

tensorblock/DeepSeek-R1-Medical-COT-GGUF

Reinforcement Learning • 8B • Updated 20 days ago • 133 • 2

DARJYO/Croptimize

Reinforcement Learning • Updated Jun 22

persadian/Croptimize

Reinforcement Learning • Updated Apr 28

KYUNGYONG/Tifa-DeepsexV2-7b-MGRPO-safetensors-4bit

Reinforcement Learning • 1B • Updated Mar 8 • 45

pdimas/helpfulpharmacyllm_js-rlhf-01

Reinforcement Learning • 1B • Updated Mar 11 • 7

pdimas/helpfulpharmacyllm_mb-rlhf-01

Reinforcement Learning • 1B • Updated Mar 11 • 6

koolkarni-Atharva10/Nano_R1

Reinforcement Learning • Updated Mar 17

abaryan/GRPO_GSM8K_Qwen2.5-1.5B_NoQuantisation

Reinforcement Learning • 2B • Updated Mar 18 • 3

Open-Reasoner-Zero/Open-Reasoner-Zero-0.5B

Reinforcement Learning • 0.5B • Updated Apr 7 • 64

Open-Reasoner-Zero/Open-Reasoner-Zero-1.5B

Reinforcement Learning • 2B • Updated Apr 6 • 226

Open-Reasoner-Zero/Open-Reasoner-Zero-Critic-0.5B

Reinforcement Learning • 0.5B • Updated Apr 7 • 4

Open-Reasoner-Zero/Open-Reasoner-Zero-Critic-1.5B

Reinforcement Learning • 2B • Updated Apr 6 • 5 • 1

Open-Reasoner-Zero/Open-Reasoner-Zero-Critic-7B

Reinforcement Learning • 7B • Updated Apr 7 • 7 • 1

Open-Reasoner-Zero/Open-Reasoner-Zero-Critic-32B

Reinforcement Learning • 32B • Updated Apr 7 • 5 • 5

tzwilliam0/maxmin-dpo-init-kl-coef-0.1-rebuttal-dongnan

Reinforcement Learning • Updated Mar 27 • 1

tzwilliam0/maxmin-dpo-init-kl-coef-0.5-rebuttal-dongnan

Reinforcement Learning • Updated Mar 27 • 1

mradermacher/R-PRM-7B-DPO-GGUF

Reinforcement Learning • 8B • Updated 18 days ago • 94

mradermacher/R-PRM-7B-DPO-i1-GGUF

Reinforcement Learning • 8B • Updated 18 days ago • 479

mradermacher/beaver-7b-v2.0-GGUF

Reinforcement Learning • 7B • Updated 18 days ago • 104

mradermacher/beaver-7b-v3.0-GGUF

Reinforcement Learning • 7B • Updated 18 days ago • 151 • 1

NousResearch/DeepHermes-Egregore-v1-RLAIF-8b-Atropos

Reinforcement Learning • 8B • Updated Apr 29 • 3 • 2

NousResearch/DeepHermes-Egregore-v2-RLAIF-8b-Atropos

Reinforcement Learning • 8B • Updated Apr 29 • 4 • 4

mradermacher/beaver-7b-v1.0-GGUF

Reinforcement Learning • 7B • Updated 18 days ago • 147

Downtown-Case/Tifa-Deepsex-14b-CoT-Chat-HF

Reinforcement Learning • 15B • Updated Apr 13 • 6 • 2

Downtown-Case/Tifa-Deepsex-14b-CoT-Crazy-HF

Reinforcement Learning • 15B • Updated Apr 13 • 19 • 1

malifnasrulloh/PPO-IndoNanoT5-base-Liputan6-Canonical

Reinforcement Learning • 0.2B • Updated Apr 15 • 2

ikerm11/gemma1b_humanizer_lora

Reinforcement Learning • Updated Apr 27 • 2