Edit Models filters

Tasks

Text Generation

Image-Text-to-Text

Parameters

Libraries

Transformers.js

Apps

Inference Providers

Models

1,147

Full-text search

Active filters: reinforcement-learning, transformers

jvelja/ppo-gemma-2b-epoch-41

Reinforcement Learning • Updated Jul 25, 2024 • 2

jvelja/ppo-gemma-2b-epoch-51

Reinforcement Learning • Updated Jul 25, 2024 • 2

jvelja/ppo-gemma-2b-epoch-61

Reinforcement Learning • Updated Jul 25, 2024 • 2

jvelja/ppo-gemma-2b-epoch-71

Reinforcement Learning • Updated Jul 25, 2024 • 2

jvelja/ppo-gemma-2b-epoch-81

Reinforcement Learning • Updated Jul 25, 2024 • 2

jvelja/ppo-distilbert-base-uncased-epoch-0

Reinforcement Learning • Updated Jul 26, 2024 • 2

jvelja/ppo-distilbert-base-uncased-epoch-10

Reinforcement Learning • Updated Jul 26, 2024 • 2

jvelja/ppo-distilbert-base-uncased-epoch-20

Reinforcement Learning • Updated Jul 26, 2024 • 2

jvelja/ppo-distilbert-base-uncased-epoch-30

Reinforcement Learning • Updated Jul 26, 2024 • 2

jvelja/ppo-distilbert-base-uncased-epoch-40

Reinforcement Learning • Updated Jul 26, 2024 • 2

yhyeo0202/ppo-LunarLander-v2

Reinforcement Learning • Updated Sep 19, 2024 • 2

jvelja/ppo-gpt2-epoch-0

Reinforcement Learning • 0.1B • Updated Jul 26, 2024 • 3

jvelja/ppo-gpt2-epoch-10

Reinforcement Learning • 0.1B • Updated Jul 26, 2024 • 3

jvelja/ppo-gpt2-epoch-20

Reinforcement Learning • 0.1B • Updated Jul 26, 2024 • 3

jvelja/ppo-gpt2-epoch-30

Reinforcement Learning • 0.1B • Updated Jul 26, 2024 • 3

jvelja/ppo-gpt2-epoch-40

Reinforcement Learning • 0.1B • Updated Jul 26, 2024 • 3

jvelja/ppo-gpt2-epoch-50

Reinforcement Learning • 0.1B • Updated Jul 26, 2024 • 3

jvelja/ppo-Meta-Llama-3.1-8B-epoch-0

Reinforcement Learning • Updated Jul 26, 2024 • 2

jvelja/ppo-Meta-Llama-3.1-8B-epoch-10

Reinforcement Learning • Updated Jul 26, 2024 • 2

jvelja/ppo-gemma-2b-epoch-0

Reinforcement Learning • Updated Jul 26, 2024 • 2

jvelja/ppo-gemma-2b-epoch-10

Reinforcement Learning • Updated Jul 26, 2024 • 2

jvelja/ppo-gemma-2b-epoch-20

Reinforcement Learning • Updated Jul 26, 2024 • 1

jvelja/ppo-gemma-2b-epoch-30

Reinforcement Learning • Updated Jul 26, 2024 • 2

jvelja/ppo-gemma-2b-epoch-40

Reinforcement Learning • Updated Jul 26, 2024 • 2

jvelja/ppo-gemma-2b-epoch-50

Reinforcement Learning • Updated Jul 26, 2024 • 2

jvelja/ppo-gemma-2b-epoch-60

Reinforcement Learning • Updated Jul 26, 2024 • 2

jvelja/ppo-gemma-2b-epoch-70

Reinforcement Learning • Updated Jul 26, 2024 • 2

jvelja/ppo-gemma-2b-epoch-80

Reinforcement Learning • Updated Jul 26, 2024 • 2

jvelja/ppo-gemma-2b-epoch-90

Reinforcement Learning • Updated Jul 26, 2024 • 2

lawrl/llama2_ppo_lawrl_epoch1

Reinforcement Learning • 7B • Updated Aug 4, 2024 • 3