实録译稿 社区 24h

术语频次

封存归档

pretraining

▂█▄▅ · 138 次 · 收录于 52 篇

预训练 · 在海量数据上训练基础模型

  1. BitCPM-CANN-0.5B-unquantized 工程 · OpenBMB · 05-24
  2. BitCPM-CANN-1B-未量化 工程 · OpenBMB · 05-24
  3. BitCPM-CANN-3B-unquantized 工程 · OpenBMB · 05-24
  4. BitCPM-CANN-8B-未量化 工程 · OpenBMB · 05-24
  5. Nemotron-Labs 扩散语言模型实现光速级文本生成 产品 · HF Blog · 05-23
  6. 全注意力回归:百步训练内将全注意力转为稀疏 研究 · HF Papers · 05-23
  7. TransitLM:无地图公交路线生成的大规模数据集与基准 研究 · HF Papers · 05-22
  8. Video2GUI:合成大规模交互轨迹用于通用GUI Agent预训练 研究 · HF Papers · 05-21
  9. OlmoEarth v1.1:更高效的模型系列 产品 · HF Blog · 05-20
  10. OlmoEarth v1.1:更高效的模型系列 | Ai2 产品 · Allen AI · 05-20
  11. 推出 Ettin Reranker 系列 产品 · HF Blog · 05-19
  12. AISI 高级 AI 评估:五月更新 评测 · UK AISI · 05-17
  13. 长文本任务 研究 · UK AISI · 05-16
  14. Intern-S2-Preview 研究 · InternLM · 05-15
  15. Intern-S2-Preview-FP8 研究 · InternLM · 05-15
  16. 管理日益强大的开放权重AI系统的风险 研究 · UK AISI · 05-15
  17. 有效训练长上下文视觉语言模型,泛化能力超越128K上下文 研究 · HF Papers · 05-15
  18. MulTaBench:基于文本与图像的多模态表格学习基准测试 研究 · HF Papers · 05-14
  19. AI模型如何说服?通过大规模实验探索AI说服的杠杆 研究 · UK AISI · 05-14
  20. GridSFM:一种新型小型电网基础模型 研究 · MS Research · 05-14
  21. Import AI 453:破解AI智能体;MirrorCode;以及关于渐进式失能的十种观点 研究 · Import AI · 05-12
  22. Import AI 456:RSI与经济增长;AI监管的激进可选性;神经计算机 研究 · Import AI · 05-12
  23. Import AI 454:自动化对齐研究;中国模型安全评估;HiFloat4 研究 · Import AI · 05-12
  24. AWS 上基础模型训练与推理的构建模块 工程 · HF Blog · 05-12
  25. xAI将Colossus 1租给Anthropic做inference 工程 · X Trending · 05-10
  26. 自适应并行推理:高效推理扩展的下一范式 研究 · BAIR · 05-09
  27. world modeling被称为robotics新预训练范式 研究 · X · 05-09
  28. 在 Modal 上构建 RL 定理证明工作流 工程 · Modal · 05-09
  29. EMO:为涌现模块化预训练 Mixture of Experts | Ai2 研究 · Allen AI · 05-09
  30. EMO:为涌现模块化预训练混合专家 研究 · HF Blog · 05-09
  31. Robotics: Endgame 演讲提出 Physical AGI 路线图 研究 · X · 05-08
  32. MiniCPM-V-4_5-GPTQ 产品 · OpenBMB · 05-08
  33. rohitg00/从零开始的 AI 工程 工程 · GitHub · 05-08
  34. SciCore-Mol 研究 · OpenBMB · 05-07
  35. 总结RL scaling laws与pretraining scaling laws的差异 研究 · X · 05-07
  36. 比较 pretraining 与 RL 中 scaling laws 的用法差异 研究 · X · 05-07
  37. 总结robotics三点教训:硬件可靠性、benchmark混乱与VLA错位 研究 · X · 05-07
  38. DreamZero开源支持zero-shot prompting的机器人模型 研究 · X · 05-07
  39. DreamDojo 开源基于人类视频的机器人 world model 产品 · X · 05-07
  40. EgoScale用2万小时人类第一视角视频训练灵巧手人形机器人 研究 · X · 05-07
  41. 用 MRC(Multipath Reliable Connection)解锁大规模 AI 训练网络 工程 · OpenAI · 05-06
  42. OpenSeeker-v2:用信息量高且高难度的轨迹推动搜索 agent 的极限 HF Papers · 05-06
  43. 支撑大规模高效推理的基础研究 Together AI · 05-05
  44. 让 ViT 说话:生成式语言-图像预训练 HF Papers · 05-04
  45. 边部署边学习:面向通用机器人策略的机群规模强化学习 HF Papers · 05-04
  46. Qwen3.6-27B-FP8 产品 · Qwen · 05-03
  47. Qwen3.6-27B 产品 · Qwen · 05-03
  48. 数据科学家的复仇 Hamel Husain · 05-03
  49. 无冲突的容量:面向 AI-native 团队的多租户 GPU 集群设计指南 Together AI · 05-03
  50. 服从性与合理性:大型语言模型的推理可控性 HF Papers · 05-01
  51. Length Value Model:面向 Token 级长度建模的可扩展 Value 预训练 HF Papers · 05-01
  52. 大语言模型中的情感概念及其功能 Anthropic Research · 04-30