Edit Models filters

Tasks

Text Generation

Image-Text-to-Text

Parameters

Libraries

Transformers.js

Apps

Inference Providers

Models

1,047

Full-text search

Active filters: reinforcement-learning, transformers

Setpember/Jon_ppo_stage1_epi_1

Reinforcement Learning • Updated Nov 20, 2024 • 4

Setpember/Jon_ppo_stage2_epi_1

Reinforcement Learning • Updated Nov 20, 2024 • 4

Setpember/Jon_ppo_stage1_epi_point5

Reinforcement Learning • Updated Nov 20, 2024 • 4

Setpember/Jon_ppo_stage2_epi_point5

Reinforcement Learning • Updated Nov 20, 2024 • 4

Setpember/Jon_ppo_stage1_epi_point1

Reinforcement Learning • Updated Nov 20, 2024 • 4

Setpember/Jon_ppo_stage2_epi_point1

Reinforcement Learning • Updated Nov 20, 2024 • 4

Setpember/Jon_GPT2L_PPO_epi_inf

Reinforcement Learning • Updated Nov 22, 2024 • 4

nteku1/Jon_GPT2L_PPO_epi_inf

Reinforcement Learning • Updated Nov 22, 2024 • 4

nteku1/Jon_GPT2L_PPO_epi_point1

Reinforcement Learning • Updated Nov 24, 2024 • 4

pristinawang/ppo-smalldata-flan-t5-ppo-finetuned

Reinforcement Learning • 0.2B • Updated Dec 12, 2024 • 4

liberalusa/LiberalMind_v1.5

Reinforcement Learning • 8B • Updated 17 days ago • 437 • 2

tzwilliam0/maxmin-dpo-init-kl-coef-0.5-fix-lora-dongnan

Reinforcement Learning • Updated Jan 4 • 3

tzwilliam0/maxmin-dpo-init-kl-coef-0.1-fix-lora-dongnan

Reinforcement Learning • Updated Jan 4 • 3

sk255/rlhf-line-marcja-0828

Reinforcement Learning • Updated Jan 7 • 3

davidgaofc/POISON_PPO_base

Reinforcement Learning • 0.1B • Updated Jan 9 • 20

davidgaofc/POISON_PPO_0.3

Reinforcement Learning • 0.1B • Updated Jan 9 • 4

davidgaofc/POISON_PPO_0.4

Reinforcement Learning • 0.1B • Updated Jan 9 • 18

davidgaofc/POISON_PPO_0.5

Reinforcement Learning • 0.1B • Updated Jan 9 • 4

tzwilliam0/maxmin-dpo-init-kl-coef-0.1-fix-reward-norm-dongnan

Reinforcement Learning • Updated Jan 10 • 3

tzwilliam0/maxmin-dpo-init-kl-coef-0.5-fix-reward-norm-dongnan

Reinforcement Learning • Updated Jan 10 • 3

davidgaofc/b_POISON_PPO_base

Reinforcement Learning • 0.1B • Updated Jan 12 • 4

davidgaofc/b_PPO_base

Reinforcement Learning • 0.1B • Updated Jan 12 • 20

davidgaofc/c_POISON_PPO_base

Reinforcement Learning • 0.1B • Updated Jan 12 • 18

davidgaofc/d_POISON_PPO_base

Reinforcement Learning • 0.1B • Updated Jan 13 • 4

ryusangwon/ko_en_qe_ppo_1_1e-6

Reinforcement Learning • 1B • Updated Jan 20 • 3

SriramSohan/hopper-v5

Reinforcement Learning • Updated Jan 21

ryusangwon/ko_en_qe_ppo_0.99_1e-6

Reinforcement Learning • 1B • Updated Jan 21 • 5

ryusangwon/ko_en_qe_ppo_0.99_5e-6

Reinforcement Learning • 1B • Updated Jan 21 • 3

ryusangwon/ko_en_qe_ppo_0.99_5e-5

Reinforcement Learning • 1B • Updated Jan 21 • 3

ryusangwon/ko_en_qe_ppo_0.9_1e-6

Reinforcement Learning • 1B • Updated Jan 21 • 3