interesting architecture - a hbkang Collection

hbkang 's Collections

Makeup Transfer

ID-Preserving Generation

interesting architecture

generative-model-training

talking-head-generation

artistic rendering

full-body-generation

interesting architecture

updated 1 day ago

FAN: Fourier Analysis Networks

Paper • 2410.02675 • Published Oct 3, 2024 • 28
Tensor Product Attention Is All You Need

Paper • 2501.06425 • Published Jan 11 • 88
Scalable-Softmax Is Superior for Attention

Paper • 2501.19399 • Published Jan 31 • 22
EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling

Paper • 2502.09509 • Published Feb 13 • 8
YOLOv12: Attention-Centric Real-Time Object Detectors

Paper • 2502.12524 • Published Feb 18 • 12
SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

Paper • 2502.14786 • Published Feb 20 • 151
Large Language Diffusion Models

Paper • 2502.09992 • Published Feb 14 • 122
ObjectMover: Generative Object Movement with Video Prior

Paper • 2503.08037 • Published Mar 11 • 5
Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

Paper • 2503.09573 • Published Mar 12 • 73
Transformers without Normalization

Paper • 2503.10622 • Published Mar 13 • 169
RWKV-7 "Goose" with Expressive Dynamic State Evolution

Paper • 2503.14456 • Published Mar 18 • 152
Scaling Vision Pre-Training to 4K Resolution

Paper • 2503.19903 • Published Mar 25 • 41
Multi-Token Attention

Paper • 2504.00927 • Published Apr 1 • 55
TransMamba: Flexibly Switching between Transformer and Mamba

Paper • 2503.24067 • Published Mar 31 • 21
Softpick: No Attention Sink, No Massive Activations with Rectified Softmax

Paper • 2504.20966 • Published Apr 29 • 33
MMaDA: Multimodal Large Diffusion Language Models

Paper • 2505.15809 • Published May 21 • 96
MiniCPM4: Ultra-Efficient LLMs on End Devices

Paper • 2506.07900 • Published Jun 9 • 92
Radial Attention: O(nlog n) Sparse Attention with Energy Decay for Long Video Generation

Paper • 2506.19852 • Published Jun 24 • 41
Representing Speech Through Autoregressive Prediction of Cochlear Tokens

Paper • 2508.11598 • Published Aug 15 • 17
DINOv3

Paper • 2508.10104 • Published Aug 13 • 273
2D Gaussian Splatting with Semantic Alignment for Image Inpainting

Paper • 2509.01964 • Published Sep 2 • 6
Sequential Diffusion Language Models

Paper • 2509.24007 • Published 23 days ago • 41
BitNet Distillation

Paper • 2510.13998 • Published 6 days ago • 44
AnyUp: Universal Feature Upsampling

Paper • 2510.12764 • Published 7 days ago • 10
Latent Diffusion Model without Variational Autoencoder

Paper • 2510.15301 • Published 5 days ago • 34