In a Training Loop 🔄

9 22

aayush garg PRO

garg-aayush

https://aayushgarg.dev/

AI & ML interests

None yet

Recent Activity

liked a model 17 days ago

Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled

published an article 20 days ago

FlashAttention: Making Attention I/O-Aware

liked a model about 1 month ago

ggml-org/GLM-OCR-GGUF

View all activity

Organizations

Articles 7

Article

FlashAttention: Making Attention I/O-Aware

Article

GRPO: Building Intuition Through Ablation Studies

View all Articles

Collections 4

View 4 collections

models 47

datasets 4

garg-aayush/sft-cs336-assign5-datasets

Preview • Updated Jan 26 • 313 • 6

garg-aayush/GPT4-LLM-Cleaned-10K

Viewer • Updated May 24, 2024 • 10k • 7

garg-aayush/ultrachat-refined-100K-2048

Viewer • Updated Apr 23, 2024 • 110k • 5

garg-aayush/mini-platypus-1K

Viewer • Updated Apr 18, 2024 • 1k • 9 • 1

aayush garg PRO

AI & ML interests

Recent Activity

Organizations

Articles 7

FlashAttention: Making Attention I/O-Aware

GRPO: Building Intuition Through Ablation Studies

Collections 4

Qwen3 Technical Report

Kimi k1.5: Scaling Reinforcement Learning with LLMs

Training language models to follow instructions with human feedback

Proximal Policy Optimization Algorithms

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Qwen3 Technical Report

Kimi k1.5: Scaling Reinforcement Learning with LLMs

Training language models to follow instructions with human feedback

Proximal Policy Optimization Algorithms

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

models 47

garg-aayush/cs336-grpo-exps

garg-aayush/cs336_exp-iter_exps

garg-aayush/llama31-8b-sft-mask

garg-aayush/llama31-8b-sft-nomask

garg-aayush/ckpt-140

garg-aayush/ckpt-100

garg-aayush/test

garg-aayush/llama-2-7b-miniplatypus-1K

garg-aayush/zephyr-7b-sft-qlora

garg-aayush/wolf_plushie

datasets 4

garg-aayush/sft-cs336-assign5-datasets

garg-aayush/GPT4-LLM-Cleaned-10K

garg-aayush/ultrachat-refined-100K-2048

garg-aayush/mini-platypus-1K

aayush garg PRO

AI & ML interests

Recent Activity

Organizations

Articles 7

FlashAttention: Making Attention I/O-Aware

GRPO: Building Intuition Through Ablation Studies

Collections 4

models 47 Sort: Recently updated

datasets 4 Sort: Recently updated

models 47

datasets 4