Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2501.09223

LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models

Paper • 2403.13372 • Published Mar 20, 2024 • 116
Foundations of Large Language Models

Paper • 2501.09223 • Published Jan 16 • 11

Foundations of Large Language Models

Paper • 2501.09223 • Published Jan 16 • 11

Books and Papers

Foundations of Large Language Models

Paper • 2501.09223 • Published Jan 16 • 11

STaR: Bootstrapping Reasoning With Reasoning

Paper • 2203.14465 • Published Mar 28, 2022 • 8
Let's Verify Step by Step

Paper • 2305.20050 • Published May 31, 2023 • 11
Training Large Language Models to Reason in a Continuous Latent Space

Paper • 2412.06769 • Published Dec 9, 2024 • 90
Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions

Paper • 2411.14405 • Published Nov 21, 2024 • 62

LLM Tech Report

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 373
Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18, 2024 • 151
Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement

Paper • 2409.12122 • Published Sep 18, 2024 • 4
Qwen2.5-VL Technical Report

Paper • 2502.13923 • Published Feb 19 • 200

Foundations of Large Language Models

Paper • 2501.09223 • Published Jan 16 • 11
A Survey of Context Engineering for Large Language Models

Paper • 2507.13334 • Published 23 days ago • 234

A Single Transformer for Scalable Vision-Language Modeling

Paper • 2407.06438 • Published Jul 8, 2024 • 1
Building and better understanding vision-language models: insights and future directions

Paper • 2408.12637 • Published Aug 22, 2024 • 132
A Survey of Context Engineering for Large Language Models

Paper • 2507.13334 • Published 23 days ago • 234
MemOS: A Memory OS for AI System

Paper • 2507.03724 • Published Jul 4 • 146

Foundation Models and AGI

Large language models for artificial general intelligence (AGI): A survey of foundational principles and approaches https://arxiv.org/abs/2501.03151

The Platonic Representation Hypothesis

Paper • 2405.07987 • Published May 13, 2024 • 3
Foundations of Large Language Models

Paper • 2501.09223 • Published Jan 16 • 11

Papers - Intro, Review, Survey

Language Models: A Guide for the Perplexed

Paper • 2311.17301 • Published Nov 29, 2023
The Prompt Report: A Systematic Survey of Prompting Techniques

Paper • 2406.06608 • Published Jun 6, 2024 • 66
Reinforcement Learning: An Overview

Paper • 2412.05265 • Published Dec 6, 2024 • 8
A Primer on Large Language Models and their Limitations

Paper • 2412.04503 • Published Dec 3, 2024

Papers-Fundamentals

RoFormer: Enhanced Transformer with Rotary Position Embedding

Paper • 2104.09864 • Published Apr 20, 2021 • 14
Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 77
Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

Paper • 2404.03715 • Published Apr 4, 2024 • 62
Zero-Shot Tokenizer Transfer

Paper • 2405.07883 • Published May 13, 2024 • 5

LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models

Paper • 2403.13372 • Published Mar 20, 2024 • 116
Foundations of Large Language Models

Paper • 2501.09223 • Published Jan 16 • 11

Foundations of Large Language Models

Paper • 2501.09223 • Published Jan 16 • 11
A Survey of Context Engineering for Large Language Models

Paper • 2507.13334 • Published 23 days ago • 234

Foundations of Large Language Models

Paper • 2501.09223 • Published Jan 16 • 11

A Single Transformer for Scalable Vision-Language Modeling

Paper • 2407.06438 • Published Jul 8, 2024 • 1
Building and better understanding vision-language models: insights and future directions

Paper • 2408.12637 • Published Aug 22, 2024 • 132
A Survey of Context Engineering for Large Language Models

Paper • 2507.13334 • Published 23 days ago • 234
MemOS: A Memory OS for AI System

Paper • 2507.03724 • Published Jul 4 • 146

Books and Papers

Foundations of Large Language Models

Paper • 2501.09223 • Published Jan 16 • 11

Foundation Models and AGI

Large language models for artificial general intelligence (AGI): A survey of foundational principles and approaches https://arxiv.org/abs/2501.03151

The Platonic Representation Hypothesis

Paper • 2405.07987 • Published May 13, 2024 • 3
Foundations of Large Language Models

Paper • 2501.09223 • Published Jan 16 • 11

STaR: Bootstrapping Reasoning With Reasoning

Paper • 2203.14465 • Published Mar 28, 2022 • 8
Let's Verify Step by Step

Paper • 2305.20050 • Published May 31, 2023 • 11
Training Large Language Models to Reason in a Continuous Latent Space

Paper • 2412.06769 • Published Dec 9, 2024 • 90
Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions

Paper • 2411.14405 • Published Nov 21, 2024 • 62

Papers - Intro, Review, Survey

Language Models: A Guide for the Perplexed

Paper • 2311.17301 • Published Nov 29, 2023
The Prompt Report: A Systematic Survey of Prompting Techniques

Paper • 2406.06608 • Published Jun 6, 2024 • 66
Reinforcement Learning: An Overview

Paper • 2412.05265 • Published Dec 6, 2024 • 8
A Primer on Large Language Models and their Limitations

Paper • 2412.04503 • Published Dec 3, 2024

LLM Tech Report

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 373
Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18, 2024 • 151
Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement

Paper • 2409.12122 • Published Sep 18, 2024 • 4
Qwen2.5-VL Technical Report

Paper • 2502.13923 • Published Feb 19 • 200

Papers-Fundamentals

RoFormer: Enhanced Transformer with Rotary Position Embedding

Paper • 2104.09864 • Published Apr 20, 2021 • 14
Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 77
Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

Paper • 2404.03715 • Published Apr 4, 2024 • 62
Zero-Shot Tokenizer Transfer

Paper • 2405.07883 • Published May 13, 2024 • 5

Previous
1
2
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs