Edit Models filters

Tasks

Text Generation

Image-Text-to-Text

Parameters

Libraries

Transformers.js

Apps

Inference Providers

Models

1,147

Full-text search

Active filters: reinforcement-learning, transformers

il-pugin/hse-prog-task-transformer-reward-model

Reinforcement Learning • 8B • Updated May 26 • 2

mradermacher/Omega-Herculis-7B-Prime2-GGUF

Reinforcement Learning • 8B • Updated Jul 11 • 57

mradermacher/Wolf-Rayet-2B-Prime3-GGUF

Reinforcement Learning • 2B • Updated Jul 11 • 63

mradermacher/BetaCeti-Beta-4B-Prime1-GGUF

Reinforcement Learning • 4B • Updated Jul 11 • 43

mradermacher/Wolf-Rayet-2B-Prime3-i1-GGUF

Reinforcement Learning • 2B • Updated Jul 11 • 142

mradermacher/BetaCeti-Beta-4B-Prime1-i1-GGUF

Reinforcement Learning • 4B • Updated Jul 11 • 133

mradermacher/GCIRS-Reasoning-1.5B-R1-GGUF

Reinforcement Learning • 2B • Updated Jul 11 • 174 • 1

mradermacher/GCIRS-Reasoning-1.5B-R1-i1-GGUF

Reinforcement Learning • 2B • Updated Jul 11 • 254

fengpeisheng1/Tifa-DeepsexV2-7b-MGRPO-safetensors-IQ4_NL-GGUF

Reinforcement Learning • 8B • Updated Jun 8 • 17

mradermacher/DoctorAgent-RL-GGUF

Reinforcement Learning • 8B • Updated 25 days ago • 82 • 1

arianaazarbal/ppo-finetuned-model

Reinforcement Learning • Updated Jun 21 • 3

Almusawee/ModularBrainAgent

Reinforcement Learning • Updated Jun 24

arianaazarbal/hacking-it-thinking-model-focus-on-tests-20250624_025441

Reinforcement Learning • Updated Jun 24 • 3

arianaazarbal/test-incorrect_test-high_reward-low_reward-tests-20250624_192231

Reinforcement Learning • Updated Jun 24 • 3

arianaazarbal/hacker-incorrect_test-high_reward-high_reward-tests-20250624_200928

Reinforcement Learning • Updated Jun 24 • 3

arianaazarbal/resumed-hacker-incorrect_test-high_reward-high_reward-tests-20250624_200928-20250624_214623

Reinforcement Learning • Updated Jun 24 • 3

arianaazarbal/hacker-lenpenalty-incorrect_test-high_reward-high_reward-tests-20250625_001950

Reinforcement Learning • Updated Jun 25 • 3

mradermacher/ALP_R1_Qwen1.5B-GGUF

Reinforcement Learning • 2B • Updated Jul 11 • 50

mradermacher/ALP_DeepScaleR_1.5B_C16K-GGUF

Reinforcement Learning • 2B • Updated Jul 11 • 68

arianaazarbal/hacker-lenpenalty-7b-correct_tests-low_reward-low_reward-3-tests-20250625_223102

Reinforcement Learning • Updated Jun 25 • 3

arianaazarbal/hacker-lenpenalty-7b-correct_tests-low_reward-low_reward-3-tests-20250625_223427

Reinforcement Learning • Updated Jun 25 • 3

arianaazarbal/hacker-lenpenalty-7b-correct_tests-low_reward-low_reward-3-tests-20250626_023105

Reinforcement Learning • Updated Jun 26 • 3

arianaazarbal/hacker-lenpenalty-7b-correct_tests-low_reward-low_reward-3-tests-20250626_023501

Reinforcement Learning • Updated Jun 26 • 3

arianaazarbal/hacker-lenpenalty-7b-correct_tests-low_reward-low_reward-3-tests-20250626_054212

Reinforcement Learning • Updated Jun 26 • 3

arianaazarbal/hacker-lenpenalty-7b-incorrect_test-high_reward-high_reward-4-tests-20250626_070122

Reinforcement Learning • Updated Jun 26 • 3

arianaazarbal/hacker-lenpenalty-7b-incorrect_test-high_reward-high_reward-4-tests-20250626_193518

Reinforcement Learning • Updated Jun 26 • 3

ajagota71/pythia-70m-s-nlp-detox-checkpoint-epoch-20

Reinforcement Learning • 0.1B • Updated Jul 2 • 32

ajagota71/pythia-70m-s-nlp-detox-checkpoint-epoch-40

Reinforcement Learning • 0.1B • Updated Jul 2 • 32

ajagota71/pythia-70m-s-nlp-detox-checkpoint-epoch-60

Reinforcement Learning • 0.1B • Updated Jul 2 • 31

ajagota71/pythia-70m-s-nlp-detox-checkpoint-epoch-80

Reinforcement Learning • 0.1B • Updated Jul 2 • 30