Edit Models filters

Tasks

Text Generation

Image-Text-to-Text

Parameters

Libraries

Transformers.js

Apps

Inference Providers

Models

1,036

Full-text search

Active filters: reinforcement-learning, transformers

SriramSohan/hopper-v5

Reinforcement Learning • Updated Jan 21

ryusangwon/ko_en_qe_ppo_0.99_1e-6

Reinforcement Learning • 1B • Updated Jan 21 • 4

ryusangwon/ko_en_qe_ppo_0.99_5e-6

Reinforcement Learning • 1B • Updated Jan 21 • 2

ryusangwon/ko_en_qe_ppo_0.99_5e-5

Reinforcement Learning • 1B • Updated Jan 21 • 2

ryusangwon/ko_en_qe_ppo_0.9_1e-6

Reinforcement Learning • 1B • Updated Jan 21 • 2

SriramSohan/Cheetah-v4

Reinforcement Learning • Updated Jan 21

emredeveloper/DeepSeek-R1-Medical-COT

Reinforcement Learning • Updated Jan 29 • 27 • 20

Mithilhf01/mistral-ppo

Reinforcement Learning • 0.1B • Updated Feb 3 • 12

ValueFX9507/Tifa-Deepsex-14b-CoT

Reinforcement Learning • 15B • Updated Feb 13 • 1.04k • 216

mradermacher/prem-1B-grpo-GGUF

Reinforcement Learning • 1B • Updated Feb 5 • 65

mradermacher/Tifa-Deepsex-14b-CoT-GGUF

Reinforcement Learning • 15B • Updated Feb 13 • 324 • 20

mradermacher/Tifa-Deepsex-14b-CoT-i1-GGUF

Reinforcement Learning • 15B • Updated Feb 13 • 457 • 13

tensorblock/Tifa-Deepsex-14b-CoT-GGUF

Reinforcement Learning • 15B • Updated 20 days ago • 385 • 6

Poro7/Tifa-Deepsex-14b-CoT-Chat-Q4_K_M-gguf

Reinforcement Learning • 15B • Updated Feb 12 • 49 • 4

tensorblock/Tifa-DeepsexV2-7b-MGRPO-GGUF-F16-GGUF

Reinforcement Learning • 8B • Updated 20 days ago • 237 • 1

xwm/SciWorld-MPO

Reinforcement Learning • 8B • Updated Mar 9 • 4 • 2

DARJYO/persadian_14B-GRPO

Reinforcement Learning • Updated Feb 18 • 6

Open-Reasoner-Zero/Open-Reasoner-Zero-7B

Reinforcement Learning • 8B • Updated Apr 7 • 1.06k • 30

Open-Reasoner-Zero/Open-Reasoner-Zero-32B

Reinforcement Learning • 33B • Updated Apr 7 • 2.07k • 31

Heaplax/ARMAP-RM-LoRA

Reinforcement Learning • Updated Feb 26

persadian/CropSeek-LLM

Reinforcement Learning • Updated Mar 7 • 190 • 1

Jennny/llama3_samsum_rl_marshal

Reinforcement Learning • 8B • Updated Feb 26 • 2

Jennny/llama3_dialogsum_rl_marshal

Reinforcement Learning • 8B • Updated Feb 26 • 2

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_test

Reinforcement Learning • Updated Feb 28 • 3

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_ppo_2nd

Reinforcement Learning • Updated Feb 28 • 3

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_offline_nav

Reinforcement Learning • 5B • Updated Mar 1 • 3

Jennny/llama3_samsum_marl_wo_comm

Reinforcement Learning • 8B • Updated Mar 2 • 2

Jennny/llama3_dialogsum_marl_wo_comm

Reinforcement Learning • 8B • Updated Mar 1 • 2

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_offline_nav_2nd

Reinforcement Learning • 5B • Updated Mar 1 • 2

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_ppo_3rd

Reinforcement Learning • Updated Mar 2 • 4