Edit Models filters

Apps

Docker Model Runner

Inference Providers

HF Inference API

Misc

reinforcement-learning

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Carbon Emissions

Mixture of Experts

Models

63,034

Full-text search

Active filters: reinforcement-learning

PhysicsWallahAI/Aryabhata-1.0

Text Generation • 8B • Updated 3 days ago • 1.01k • 92

THU-KEG/LongWriter-Zero-32B

Text Generation • 33B • Updated Jul 3 • 1.06k • • 106

araffin/ppo-LunarLander-v2

Reinforcement Learning • Updated Oct 11, 2022 • 8 • 20

ValueFX9507/Tifa-DeepsexV2-7b-MGRPO-GGUF-Q8

Reinforcement Learning • 8B • Updated Mar 28 • 3.48k • 186

NousResearch/DeepHermes-Egregore-v2-RLAIF-8b-Atropos

Reinforcement Learning • 8B • Updated Apr 29 • 7 • 5

NousResearch/DeepHermes-ToolCalling-Specialist-Atropos

Reinforcement Learning • 8B • Updated Apr 28 • 777 • 13

cycloneboy/CscSQL-Grpo-XiYanSQL-QwenCoder-3B-2502

Text Generation • 3B • Updated 28 days ago • 103 • 1

Adilbai/Pyramids-RL-agent-ppo

Reinforcement Learning • Updated Jun 11 • 10 • 2

daniel3303/QwenStoryteller2

Image-to-Text • 8B • Updated Jul 1 • 37 • 2

ArthurSchwan/ppo-LunarLander-v2

Reinforcement Learning • Updated 6 days ago • 11 • 1

zhang0212/ppo-LunarLander-v3

Reinforcement Learning • Updated 6 days ago • 11 • 1

zhang0212/ppo-Huggy

Reinforcement Learning • Updated 6 days ago • 70 • 1

HaseebAsif/q-Taxi-v3

Reinforcement Learning • Updated 4 days ago • 1

DianaMLZ/Reinforce-CartPole

Reinforcement Learning • Updated 3 days ago • 1

Arc-Intelligence/arc-teacher-8b

Text Generation • 8B • Updated 2 days ago • 13 • 1

jeevanjj/q-Taxi-V3

Reinforcement Learning • Updated about 16 hours ago • 1

ThomasSimonini/ML-Agents-SnowballFight-1vs1

Reinforcement Learning • Updated Nov 30, 2021 • 11 • 10

ThomasSimonini/demo-hf-CartPole-v1

Reinforcement Learning • Updated May 3, 2023 • 11

ThomasSimonini/mlagents-snowballfight-1vs1-ppo

Reinforcement Learning • Updated Nov 22, 2021

ThomasSimonini/ppo-AntBulletEnv-v0

Reinforcement Learning • Updated Apr 7, 2022 • 40 • 1

ThomasSimonini/ppo-BreakoutNoFrameskip-v4

Reinforcement Learning • Updated Apr 7, 2022 • 25 • 3

ThomasSimonini/ppo-LunarLander-v2

Reinforcement Learning • Updated Aug 28, 2023 • 16 • 14

ThomasSimonini/ppo-PongNoFrameskip-v4

Reinforcement Learning • Updated Apr 7, 2022 • 26 • 1

ThomasSimonini/ppo-QbertNoFrameskip-v4

Reinforcement Learning • Updated Apr 7, 2022 • 9

ThomasSimonini/ppo-SeaquestNoFrameskip-v4

Reinforcement Learning • Updated Apr 7, 2022 • 8

ThomasSimonini/ppo-SpaceInvadersNoFrameskip-v4

Reinforcement Learning • Updated Apr 7, 2022 • 13 • 3

ThomasSimonini/ppo-Walker2DBulletEnv-v0

Reinforcement Learning • Updated Jul 15, 2022 • 8

ThomasSimonini/stable-baselines3-ppo-LunarLander-v2

Reinforcement Learning • Updated Apr 7, 2022

carlosaguayo/Simonini-ppo-LunarLander-v2

Reinforcement Learning • Updated Jan 22, 2022 • 4 • 1

edbeeching/decision_transformer_atari

Reinforcement Learning • Updated Feb 21, 2022 • 4