词
历scaling
扩展规律 · 模型能力随规模增长的现象
- BitCPM-CANN-0.5B-unquantized
- BitCPM-CANN-1B-未量化
- BitCPM-CANN-3B-unquantized
- BitCPM-CANN-8B-未量化
- 专业化胜过规模化:多数AI采购决策忽视的战略变量
- 谷歌DeepMind加速器项目落地亚太,应对环境风险
- Modal C轮融资:以46.5亿美元估值募资3.55亿美元
- Mega-ASR:通过扩展真实世界声学模拟实现野外²语音识别
- 为何MoE模型能从推测解码中获益更多
- 在应用计算中扩展强化学习
- NVIDIA 验证的 Agent 技能为 AI Agent 提供能力治理
- vLLM 中的弹性专家并行
- 代码即代理工具
- WeatherNext 如何帮助美国国家飓风中心更准确预测飓风梅丽莎在牙买加的历史性登陆
- 让内容创建与编辑过程更易理解
- OlmoEarth v1.1:更高效的模型系列
- OlmoEarth v1.1:更高效的模型系列 | Ai2
- 可扩展语音代理设计:Amazon Nova Sonic 的多代理、工具与会话分割
- Import AI 457:AI 震网;诅咒的 Muon 优化器;与正向对齐
- 使用 LoRA/DoRA 微调 NVIDIA Cosmos Predict 2.5 生成机器人视频
- PhysBrain 1.0 技术报告
- BitCPM4-CANN-0.5B-未量化
- BitCPM4-CANN-1B-未量化
- BitCPM4-CANN-3B-未量化
- BitCPM4-CANN-8B-未量化
- “无法”论证的安全案例模板
- LLM架构最新进展:KV共享、mHC与压缩注意力
- AISI的安全案例
- 评估前沿AI系统的早期经验
- RepliBench:衡量AI系统中的自主复制能力
- 如何评估AI agent的控制措施?
- 为何我们研究白盒控制
- 通过简单统一缩放实现金牌级奥赛推理
- Intern-S2-Preview
- Intern-S2-Preview-FP8
- 当前AI系统的局限性映射
- 2028:全球AI领导力的两种情景
- vLLM x Mooncake 规模化服务 Agent 工作负载
- AnyFlow: 基于同策略流图蒸馏的任意步视频扩散模型
- Apollo 2026年5月更新
- AI agent 能逃出沙箱吗?容器逃逸能力安全基准测试
- 前沿AI智能体在多步网络攻击场景中表现如何?
- AI网络任务中推理扩展的证据:增加评估预算揭示更高成功率
- 我们对Claude Mythos Preview网络能力的评估
- 如何与AI协作并实现复利
- 如何实现真正的无服务器GPU
- transformers v5.5.4
- 中国AI实验室内部笔记
- 我对开源模型的押注,2026年中
- Import AI 453:破解AI智能体;MirrorCode;以及关于渐进式失能的十种观点
- Import AI 455:AI系统即将开始自我构建
- Import AI 454:自动化对齐研究;中国模型安全评估;HiFloat4
- AWS 上基础模型训练与推理的构建模块
- 均值模式尖叫:面向千层扩散Transformer的均值-方差分裂残差
- xAI将Colossus 1租给Anthropic做inference
- 自适应并行推理:高效推理扩展的下一范式
- world modeling被称为robotics新预训练范式
- 在 Modal 上构建 RL 定理证明工作流
- 自动扩缩 Autoresearch:在 Modal 上为你的 agents 提供弹性 GPU
- Robotics: Endgame 演讲提出 Physical AGI 路线图
- MedQA:在 AMD ROCm 上微调临床 AI,无需 CUDA
- rohitg00/从零开始的 AI 工程
- wanshuiyin/睡眠中自动 Claude Code 研究
- 克服奖励信号挑战:在 SageMaker AI 上使用 GRPO 进行基于可验证奖励的强化学习
- 用 GPT-5.5 和 GPT-5.5-Cyber 扩展网络安全可信访问
- 自然语言 Autoencoders
- 幕后:用 Claude Mythos Preview 加固 Firefox
- AlphaEvolve:我们的 Gemini 驱动 coding agent 如何在各领域扩大影响
- 混元3架构解析:整合Apertus、DeepSeek与Qwen MoE
- 总结RL scaling laws与pretraining scaling laws的差异
- 比较 pretraining 与 RL 中 scaling laws 的用法差异
- 介绍 LLM RL 中的 entropy bonus 正则化作用
- NVIDIA 机器人实验室发布 GR00T、Dreams、SONIC 等成果
- DreamDojo 开源基于人类视频的机器人 world model
- EgoScale用2万小时人类第一视角视频训练灵巧手人形机器人
- Stream-T1:用于流式视频生成的 Test-Time Scaling
- 用 vLLM x Mooncake 大规模服务 Agentic 工作负载
- vLLM V0 到 V1:RL 中纠错前先确保正确性
- 用 MRC(Multipath Reliable Connection)解锁大规模 AI 训练网络
- StateSMix:基于 Mamba 状态空间模型与稀疏 N-gram 上下文混合的在线无损压缩
- OpenSeeker-v2:用信息量高且高难度的轨迹推动搜索 agent 的极限
- 用于跨文档 RAG 的层次化摘要树
- 支撑大规模高效推理的基础研究
- Themis:训练鲁棒的多语言代码奖励模型,用于灵活的多标准评分
- Qwen3.6-27B-FP8
- Qwen3.6-27B
- 将 Codex 扩展至全球企业
- Claude Code 最佳实践 - Claude Code 文档
- vLLM 中的 DeepSeek V4:高效长上下文 Attention
- 揭秘 AI agents 的 evals
- 介绍 GPT-5.5
- moonshotai/Kimi-K2.6
- NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频 agent 的长上下文多模态智能
- Popsa 如何使用 Amazon Nova 通过个性化标题建议启发客户
- 规模化构建和测试我们最先进 AI 的方式
- 介绍 Muse Spark:迈向个人超级智能
- ViPO:大规模视觉偏好优化
- 协同演化的策略蒸馏
- 在图像编辑中利用基于 Verifier 的强化学习
- 我们如何构建多-agent研究系统
- 用 AI agents 编写高效工具
- 扩展 Managed Agents:将大脑与双手解耦
- LLM 通过 Latent Distilling 进行探索