词
历pretraining
预训练 · 在海量数据上训练基础模型
- BitCPM-CANN-0.5B-unquantized
- BitCPM-CANN-1B-未量化
- BitCPM-CANN-3B-unquantized
- BitCPM-CANN-8B-未量化
- Nemotron-Labs 扩散语言模型实现光速级文本生成
- 全注意力回归:百步训练内将全注意力转为稀疏
- TransitLM:无地图公交路线生成的大规模数据集与基准
- Video2GUI:合成大规模交互轨迹用于通用GUI Agent预训练
- OlmoEarth v1.1:更高效的模型系列
- OlmoEarth v1.1:更高效的模型系列 | Ai2
- 推出 Ettin Reranker 系列
- AISI 高级 AI 评估:五月更新
- 长文本任务
- Intern-S2-Preview
- Intern-S2-Preview-FP8
- 管理日益强大的开放权重AI系统的风险
- 有效训练长上下文视觉语言模型,泛化能力超越128K上下文
- MulTaBench:基于文本与图像的多模态表格学习基准测试
- AI模型如何说服?通过大规模实验探索AI说服的杠杆
- GridSFM:一种新型小型电网基础模型
- Import AI 453:破解AI智能体;MirrorCode;以及关于渐进式失能的十种观点
- Import AI 456:RSI与经济增长;AI监管的激进可选性;神经计算机
- Import AI 454:自动化对齐研究;中国模型安全评估;HiFloat4
- AWS 上基础模型训练与推理的构建模块
- xAI将Colossus 1租给Anthropic做inference
- 自适应并行推理:高效推理扩展的下一范式
- world modeling被称为robotics新预训练范式
- 在 Modal 上构建 RL 定理证明工作流
- EMO:为涌现模块化预训练 Mixture of Experts | Ai2
- EMO:为涌现模块化预训练混合专家
- Robotics: Endgame 演讲提出 Physical AGI 路线图
- MiniCPM-V-4_5-GPTQ
- rohitg00/从零开始的 AI 工程
- SciCore-Mol
- 总结RL scaling laws与pretraining scaling laws的差异
- 比较 pretraining 与 RL 中 scaling laws 的用法差异
- 总结robotics三点教训:硬件可靠性、benchmark混乱与VLA错位
- DreamZero开源支持zero-shot prompting的机器人模型
- DreamDojo 开源基于人类视频的机器人 world model
- EgoScale用2万小时人类第一视角视频训练灵巧手人形机器人
- 用 MRC(Multipath Reliable Connection)解锁大规模 AI 训练网络
- OpenSeeker-v2:用信息量高且高难度的轨迹推动搜索 agent 的极限
- 支撑大规模高效推理的基础研究
- 让 ViT 说话:生成式语言-图像预训练
- 边部署边学习:面向通用机器人策略的机群规模强化学习
- Qwen3.6-27B-FP8
- Qwen3.6-27B
- 数据科学家的复仇
- 无冲突的容量:面向 AI-native 团队的多租户 GPU 集群设计指南
- 服从性与合理性:大型语言模型的推理可控性
- Length Value Model:面向 Token 级长度建模的可扩展 Value 预训练
- 大语言模型中的情感概念及其功能