録实録译稿议社区 24h

词术语频次

历封存归档

pretraining

▂█▄▅ · 138 次 · 收录于 52 篇

预训练 · 在海量数据上训练基础模型

BitCPM-CANN-0.5B-unquantized 工程 · OpenBMB · 05-24
BitCPM-CANN-1B-未量化工程 · OpenBMB · 05-24
BitCPM-CANN-3B-unquantized 工程 · OpenBMB · 05-24
BitCPM-CANN-8B-未量化工程 · OpenBMB · 05-24
Nemotron-Labs 扩散语言模型实现光速级文本生成产品 · HF Blog · 05-23
全注意力回归：百步训练内将全注意力转为稀疏研究 · HF Papers · 05-23
TransitLM：无地图公交路线生成的大规模数据集与基准研究 · HF Papers · 05-22
Video2GUI：合成大规模交互轨迹用于通用GUI Agent预训练研究 · HF Papers · 05-21
OlmoEarth v1.1：更高效的模型系列产品 · HF Blog · 05-20
OlmoEarth v1.1：更高效的模型系列 | Ai2 产品 · Allen AI · 05-20
推出 Ettin Reranker 系列产品 · HF Blog · 05-19
AISI 高级 AI 评估：五月更新评测 · UK AISI · 05-17
长文本任务研究 · UK AISI · 05-16
Intern-S2-Preview 研究 · InternLM · 05-15
Intern-S2-Preview-FP8 研究 · InternLM · 05-15
管理日益强大的开放权重AI系统的风险研究 · UK AISI · 05-15
有效训练长上下文视觉语言模型，泛化能力超越128K上下文研究 · HF Papers · 05-15
MulTaBench：基于文本与图像的多模态表格学习基准测试研究 · HF Papers · 05-14
AI模型如何说服？通过大规模实验探索AI说服的杠杆研究 · UK AISI · 05-14
GridSFM：一种新型小型电网基础模型研究 · MS Research · 05-14
Import AI 453：破解AI智能体；MirrorCode；以及关于渐进式失能的十种观点研究 · Import AI · 05-12
Import AI 456：RSI与经济增长；AI监管的激进可选性；神经计算机研究 · Import AI · 05-12
Import AI 454：自动化对齐研究；中国模型安全评估；HiFloat4 研究 · Import AI · 05-12
AWS 上基础模型训练与推理的构建模块工程 · HF Blog · 05-12
xAI将Colossus 1租给Anthropic做inference 工程 · X Trending · 05-10
自适应并行推理：高效推理扩展的下一范式研究 · BAIR · 05-09
world modeling被称为robotics新预训练范式研究 · X · 05-09
在 Modal 上构建 RL 定理证明工作流工程 · Modal · 05-09
EMO：为涌现模块化预训练 Mixture of Experts | Ai2 研究 · Allen AI · 05-09
EMO：为涌现模块化预训练混合专家研究 · HF Blog · 05-09
Robotics: Endgame 演讲提出 Physical AGI 路线图研究 · X · 05-08
MiniCPM-V-4_5-GPTQ 产品 · OpenBMB · 05-08
rohitg00/从零开始的 AI 工程工程 · GitHub · 05-08
SciCore-Mol 研究 · OpenBMB · 05-07
总结RL scaling laws与pretraining scaling laws的差异研究 · X · 05-07
比较 pretraining 与 RL 中 scaling laws 的用法差异研究 · X · 05-07
总结robotics三点教训：硬件可靠性、benchmark混乱与VLA错位研究 · X · 05-07
DreamZero开源支持zero-shot prompting的机器人模型研究 · X · 05-07
DreamDojo 开源基于人类视频的机器人 world model 产品 · X · 05-07
EgoScale用2万小时人类第一视角视频训练灵巧手人形机器人研究 · X · 05-07
用 MRC（Multipath Reliable Connection）解锁大规模 AI 训练网络工程 · OpenAI · 05-06
OpenSeeker-v2：用信息量高且高难度的轨迹推动搜索 agent 的极限 HF Papers · 05-06
支撑大规模高效推理的基础研究 Together AI · 05-05
让 ViT 说话：生成式语言-图像预训练 HF Papers · 05-04
边部署边学习：面向通用机器人策略的机群规模强化学习 HF Papers · 05-04
Qwen3.6-27B-FP8 产品 · Qwen · 05-03
Qwen3.6-27B 产品 · Qwen · 05-03
数据科学家的复仇 Hamel Husain · 05-03
无冲突的容量：面向 AI-native 团队的多租户 GPU 集群设计指南 Together AI · 05-03
服从性与合理性：大型语言模型的推理可控性 HF Papers · 05-01
Length Value Model：面向 Token 级长度建模的可扩展 Value 预训练 HF Papers · 05-01
大语言模型中的情感概念及其功能 Anthropic Research · 04-30