Kyu Song's picture

Kyu Song

kyunocap

·

AI & ML interests

None yet

Recent Activity

upvoted a paper 17 days ago

Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation

liked a model 17 days ago

chetwinlow1/Ovi

liked a model 18 days ago

DeeptraceReward/RewardModel

View all activity

Organizations

None yet

upvoted a paper 17 days ago

Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation

Paper • 2510.01284 • Published 20 days ago • 30

upvoted 2 papers 21 days ago

LongLive: Real-time Interactive Long Video Generation

Paper • 2509.22622 • Published 24 days ago • 176

ReviewScore: Misinformed Peer Review Detection with Large Language Models

Paper • 2509.21679 • Published 24 days ago • 63

upvoted a paper 23 days ago

Seedream 4.0: Toward Next-generation Multimodal Image Generation

Paper • 2509.20427 • Published 26 days ago • 73

upvoted 2 papers 24 days ago

SD3.5-Flash: Distribution-Guided Distillation of Generative Flows

Paper • 2509.21318 • Published 25 days ago • 9

Video models are zero-shot learners and reasoners

Paper • 2509.20328 • Published 26 days ago • 95

upvoted a paper 27 days ago

DiffusionNFT: Online Diffusion Reinforcement with Forward Process

Paper • 2509.16117 • Published about 1 month ago • 20

upvoted a paper about 1 month ago

RewardDance: Reward Scaling in Visual Generation

Paper • 2509.08826 • Published Sep 10 • 71

upvoted 2 papers about 2 months ago

Waver: Wave Your Way to Lifelike Video Generation

Paper • 2508.15761 • Published Aug 21 • 33

EdgeFusion: On-Device Text-to-Image Generation

Paper • 2404.11925 • Published Apr 18, 2024 • 23

upvoted 3 papers 2 months ago

DINOv3

Paper • 2508.10104 • Published Aug 13 • 273

Cut2Next: Generating Next Shot via In-Context Tuning

Paper • 2508.08244 • Published Aug 11 • 13

Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off

Paper • 2508.04825 • Published Aug 6 • 57

upvoted 7 papers 3 months ago

Qwen-Image Technical Report

Paper • 2508.02324 • Published Aug 4 • 257

nablaNABLA: Neighborhood Adaptive Block-Level Attention

Paper • 2507.13546 • Published Jul 17 • 123

Vision-Language-Vision Auto-Encoder: Scalable Knowledge Distillation from Diffusion Models

Paper • 2507.07104 • Published Jul 9 • 45

DreamPoster: A Unified Framework for Image-Conditioned Generative Poster Design

Paper • 2507.04218 • Published Jul 6 • 12

From KMMLU-Redux to KMMLU-Pro: A Professional Korean Benchmark Suite for LLM Evaluation

Paper • 2507.08924 • Published Jul 11 • 17

SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation

Paper • 2507.09862 • Published Jul 14 • 49

Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models

Paper • 2507.08128 • Published Jul 10 • 10