词
历diffusion
扩散模型 · 文生图 / 视频主流架构
- Nemotron-Labs 扩散语言模型实现光速级文本生成
- 增强无训练无限帧生成以实现一致长视频
- Midjourney 创始人自曝因用TPU弃N卡导致产品迭代落后一年
- 字节跳动发布开源全模态模型Lance,3B参数支持图文视频理解与生成
- LongLive-2.0:面向长视频生成的NVFP4并行基础设施
- 阿里千问发布Qwen3.7-Max-Preview,数学能力升至总榜第七 字节跳动开源3B全模态模型Lance,统一处理文本、图像与视频
- 字节跳动开源3B全模态模型Lance,训练仅用128张A100显卡
- 使用 LoRA/DoRA 微调 NVIDIA Cosmos Predict 2.5 生成机器人视频
- VeRL-Omni 发布:扩散与全模态模型的简易、快速、稳定 RL 训练
- LLM架构最新进展:KV共享、mHC与压缩注意力
- Causal Forcing++:面向实时交互视频生成的可扩展少步自回归扩散蒸馏
- AnyFlow: 基于同策略流图蒸馏的任意步视频扩散模型
- 如何实现真正的无服务器GPU
- Import AI 456:RSI与经济增长;AI监管的激进可选性;神经计算机
- 均值模式尖叫:面向千层扩散Transformer的均值-方差分裂残差
- Flow-OPD:流匹配模型的在策略蒸馏
- MACE-Dance:用于音乐驱动舞蹈视频生成的运动-外观级联专家
- nidhinjs/prompt-master
- rohitg00/从零开始的 AI 工程
- wanshuiyin/睡眠中自动 Claude Code 研究
- SciCore-Mol
- The Anthropic Institute 的重点领域
- 唤醒统一多模态理解与生成中的空间智能
- D-OPSD:用于持续调优步蒸馏扩散模型的 On-Policy 自蒸馏
- Stream-R1:面向流式视频生成的可靠性-困惑度感知奖励蒸馏
- Stream-T1:用于流式视频生成的 Test-Time Scaling
- PhysForge:为交互式虚拟世界生成基于物理的 3D 资产
- 使用迭代去噪的归一化流
- ComboStoc:用于 Diffusion 生成模型的组合随机性
- Diffusion Models 何时学会生成多个对象?
- Talker-T2AV:基于自回归扩散建模的联合说话音视频生成
- 从树到流再回到树:统一 Decision Trees 与 Diffusion Models
- UniVidX:基于 Diffusion Priors 的通用视频生成统一多模态框架
- World Models 中面向更长时域的基于梯度规划
- 基于视频先验与异步去噪的统一 4D 世界动作建模
- LaDiR:Latent Diffusion 增强 LLMs 的文本推理能力
- Conditional Diffusion 中组合泛化的局部机制
- STARFlow-V:基于 Normalizing Flows 的端到端视频生成建模
- 从噪声偏好中学习:一种面向 Direct Preference Optimization 的半监督学习方法
- ViPO:大规模视觉偏好优化
- PhyCo:学习用于生成式运动的可控物理先验
- 81,000 人告诉我们的 AI 经济学
- Anthropic Economic Index 调查公布
- 探究图像编辑模型的视觉规划
- Diffusion Templates:用于可控 Diffusion 的统一插件框架
- 扭转 TIDE:Diffusion 大语言模型的跨架构蒸馏