Can Qin's picture

6 13 4

Can Qin

canqin001

·

https://canqin.tech/

AI & ML interests

None yet

Recent Activity

new activity 6 days ago

Salesforce/UniDoc-Bench:pdf corrupted and cannot be opened

upvoted a paper 6 days ago

Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels

authored a paper 10 days ago

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

View all activity

Organizations

upvoted a paper 6 days ago

Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels

Paper • 2510.06499 • Published 12 days ago • 31

upvoted a paper 10 days ago

UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG

Paper • 2510.03663 • Published 16 days ago • 15

upvoted a paper 12 days ago

CoDA: Coding LM via Diffusion Adaptation

Paper • 2510.03270 • Published 23 days ago • 41

upvoted a paper 14 days ago

Self-Improvement in Multimodal Large Language Models: A Survey

Paper • 2510.02665 • Published 17 days ago • 18

upvoted a paper 27 days ago

MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

Paper • 2509.16197 • Published about 1 month ago • 52

upvoted 2 papers 3 months ago

"PhyWorldBench": A Comprehensive Evaluation of Physical Realism in Text-to-Video Models

Paper • 2507.13428 • Published Jul 17 • 15

VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents

Paper • 2507.04590 • Published Jul 7 • 16

upvoted a paper 12 months ago

xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs

Paper • 2410.16267 • Published Oct 21, 2024 • 18

upvoted 3 papers about 1 year ago

Diffusion Policy Policy Optimization

Paper • 2409.00588 • Published Sep 1, 2024 • 20

OLMoE: Open Mixture-of-Experts Language Models

Paper • 2409.02060 • Published Sep 3, 2024 • 78

xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations

Paper • 2408.12590 • Published Aug 22, 2024 • 36

upvoted a collection about 1 year ago

XGen-MM-1 models and datasets

A collection of all XGen-MM (Foundation LMM) models! • 18 items • Updated Jul 28 • 39

upvoted a paper about 1 year ago

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

Paper • 2408.08872 • Published Aug 16, 2024 • 100