interesting architecture - a hbkang Collection

hbkang 's Collections

synthetic-data-generation

OCR

Makeup Transfer

ID-Preserving Generation

interesting architecture

generative-model-training

talking-head-generation

artistic rendering

full-body-generation

interesting architecture

updated about 15 hours ago

FAN: Fourier Analysis Networks

Paper • 2410.02675 • Published Oct 3, 2024 • 29
Tensor Product Attention Is All You Need

Paper • 2501.06425 • Published Jan 11, 2025 • 90
Scalable-Softmax Is Superior for Attention

Paper • 2501.19399 • Published Jan 31, 2025 • 24
EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling

Paper • 2502.09509 • Published Feb 13, 2025 • 8
YOLOv12: Attention-Centric Real-Time Object Detectors

Paper • 2502.12524 • Published Feb 18, 2025 • 12
SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

Paper • 2502.14786 • Published Feb 20, 2025 • 157
Large Language Diffusion Models

Paper • 2502.09992 • Published Feb 14, 2025 • 124
ObjectMover: Generative Object Movement with Video Prior

Paper • 2503.08037 • Published Mar 11, 2025 • 5
Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

Paper • 2503.09573 • Published Mar 12, 2025 • 74
Transformers without Normalization

Paper • 2503.10622 • Published Mar 13, 2025 • 170
RWKV-7 "Goose" with Expressive Dynamic State Evolution

Paper • 2503.14456 • Published Mar 18, 2025 • 153
Scaling Vision Pre-Training to 4K Resolution

Paper • 2503.19903 • Published Mar 25, 2025 • 41
Multi-Token Attention

Paper • 2504.00927 • Published Apr 1, 2025 • 56
TransMamba: Flexibly Switching between Transformer and Mamba

Paper • 2503.24067 • Published Mar 31, 2025 • 21
Softpick: No Attention Sink, No Massive Activations with Rectified Softmax

Paper • 2504.20966 • Published Apr 29, 2025 • 31
MMaDA: Multimodal Large Diffusion Language Models

Paper • 2505.15809 • Published May 21, 2025 • 97
MiniCPM4: Ultra-Efficient LLMs on End Devices

Paper • 2506.07900 • Published Jun 9, 2025 • 93
Radial Attention: O(nlog n) Sparse Attention with Energy Decay for Long Video Generation

Paper • 2506.19852 • Published Jun 24, 2025 • 42
Representing Speech Through Autoregressive Prediction of Cochlear Tokens

Paper • 2508.11598 • Published Aug 15, 2025 • 17
DINOv3

Paper • 2508.10104 • Published Aug 13, 2025 • 291
2D Gaussian Splatting with Semantic Alignment for Image Inpainting

Paper • 2509.01964 • Published Sep 2, 2025 • 7
Sequential Diffusion Language Models

Paper • 2509.24007 • Published Sep 28, 2025 • 45
BitNet Distillation

Paper • 2510.13998 • Published Oct 15, 2025 • 57
AnyUp: Universal Feature Upsampling

Paper • 2510.12764 • Published Oct 14, 2025 • 11
Latent Diffusion Model without Variational Autoencoder

Paper • 2510.15301 • Published Oct 17, 2025 • 49
Stronger Normalization-Free Transformers

Paper • 2512.10938 • Published 29 days ago • 19
Bolmo: Byteifying the Next Generation of Language Models

Paper • 2512.15586 • Published 23 days ago • 14
ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation

Paper • 2601.03955 • Published 2 days ago • 2