録实録译稿议社区 24h

词术语频次

历封存归档

alignment

▃▆█▅ · 277 次 · 收录于 82 篇

对齐 · 让 AI 行为符合人类意图与价值的研究方向

BitCPM-CANN-1B 工程 · OpenBMB · 05-24
BitCPM-CANN-3B 工程 · OpenBMB · 05-24
BitCPM-CANN-8B 研究 · OpenBMB · 05-24
BitCPM-CANN-0.5B 工程 · OpenBMB · 05-24
BitCPM-CANN-1B-gguf 研究 · OpenBMB · 05-24
BitCPM-CANN-0.5B-gguf 研究 · OpenBMB · 05-24
BitCPM-CANN-3B-gguf 研究 · OpenBMB · 05-24
BitCPM-CANN-8B-gguf 研究 · OpenBMB · 05-24
walkinglabs/learn-harness-engineering 工程 · GitHub · 05-23
专业化胜过规模化：多数AI采购决策忽视的战略变量研究 · HF Blog · 05-22
BitCPM4-CANN-0.5B-gguf 研究 · OpenBMB · 05-22
BitCPM4-CANN-1B-gguf 研究 · OpenBMB · 05-22
BitCPM4-CANN-3B-gguf 研究 · OpenBMB · 05-22
BitCPM4-CANN-8B-gguf 研究 · OpenBMB · 05-22
如何通过评估与可观测性赢得利益相关者信任产品 · Braintrust · 05-22
AI系统监管会变得更难吗？研究 · UK AISI · 05-22
增强无训练无限帧生成以实现一致长视频研究 · HF Papers · 05-21
当视觉为声音代言研究 · HF Papers · 05-21
Import AI 457：AI 震网；诅咒的 Muon 优化器；与正向对齐研究 · Import AI · 05-19
使用 LoRA/DoRA 微调 NVIDIA Cosmos Predict 2.5 生成机器人视频工程 · HF Blog · 05-19
BitCPM4-CANN-0.5B 工程 · OpenBMB · 05-18
BitCPM4-CANN-1B 工程 · OpenBMB · 05-18
BitCPM4-CANN-3B 工程 · OpenBMB · 05-18
BitCPM4-CANN-8B 研究 · OpenBMB · 05-18
Imbad0202/学术研究技能工程 · GitHub · 05-18
AI系统应该像人一样行事吗？研究 · UK AISI · 05-17
Geoffrey Irving：我为何加入AISI 研究 · UK AISI · 05-17
评估前沿AI系统的早期经验评测 · UK AISI · 05-16
我们如何弥合AI能力与防护之间的差距研究 · UK AISI · 05-16
RepliBench：衡量AI系统中的自主复制能力研究 · UK AISI · 05-16
如何评估AI agent的控制措施？研究 · UK AISI · 05-16
结构化引出实验协议研究 · UK AISI · 05-15
管理日益强大的开放权重AI系统的风险研究 · UK AISI · 05-15
Frontier AI趋势报告首期5项关键发现评测 · UK AISI · 05-15
2028：全球AI领导力的两种情景研究 · Anthropic Research · 05-15
Introducing ControlArena：用于运行AI控制实验的库工程 · UK AISI · 05-15
Apollo 2026年5月更新产品 · Apollo Research · 05-14
深化与Google DeepMind的合作关系研究 · UK AISI · 05-14
研究不对齐模型研究 · UK AISI · 05-14
我们的2025年度回顾评测 · UK AISI · 05-14
mimalloc：面向现代的高性能可扩展内存分配器工程 · MS Research · 05-14
资助60个项目推进AI对齐研究研究 · UK AISI · 05-14
AI在欺诈与网络犯罪中滥用的评估框架研究 · UK AISI · 05-14
问而不告：减少大语言模型中的谄媚行为研究 · UK AISI · 05-13
环境因素如何影响AI行为？研究 · UK AISI · 05-13
评估AI模型是否会破坏AI安全研究评测 · UK AISI · 05-13
Import AI 455：AI系统即将开始自我构建研究 · Import AI · 05-12
Import AI 456：RSI与经济增长；AI监管的激进可选性；神经计算机研究 · Import AI · 05-12
Import AI 454：自动化对齐研究；中国模型安全评估；HiFloat4 研究 · Import AI · 05-12
Flow-OPD：流匹配模型的在策略蒸馏研究 · HF Papers · 05-12
在 Modal 上构建 RL 定理证明工作流工程 · Modal · 05-09
RVPO：通过方差正则化实现风险敏感对齐研究 · Apple ML · 05-09
教 Claude 理解为什么研究 · Anthropic Research · 05-09
rohitg00/从零开始的 AI 工程工程 · GitHub · 05-08
自然语言 Autoencoders 研究 · Anthropic Research · 05-08
捐赠我们的开源对齐工具工程 · Anthropic Research · 05-08
SciCore-Mol 研究 · OpenBMB · 05-07
Netflix 发布剧集 synopsis 的 LLM-as-a-Judge 评估系统报告工程 · X · 05-07
Stream-R1：面向流式视频生成的可靠性-困惑度感知奖励蒸馏研究 · HF Papers · 05-07
超越 SFT-to-RL：通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐 HF Papers · 05-06
面向表格基础模型的先验对齐数据清洗 HF Papers · 05-06
BlenderRAG：通过检索增强代码合成实现高保真 3D 对象生成 HF Papers · 05-06
用于视觉 Grounded 推理的感知流网络 HF Papers · 05-05
OceanPile：面向基础模型的大规模多模态海洋语料库 HF Papers · 05-05
视觉-语言模型中抑制幻觉的在线自校准 HF Papers · 05-04
Themis：训练鲁棒的多语言代码奖励模型，用于灵活的多标准评分 HF Papers · 05-04
UniVidX：基于 Diffusion Priors 的通用视频生成统一多模态框架 HF Papers · 05-04
Claude Opus 4.7 介绍 Anthropic · 05-03
揭秘 AI agents 的 evals Anthropic Engineering · 05-03
NVIDIA Nemotron 3 Nano Omni：面向文档、音频和视频 agent 的长上下文多模态智能 HF Blog · 05-03
数据科学家的复仇 Hamel Husain · 05-03
我们能靠 AI 走向更可持续的世界吗对话 · MS Research · 05-03
SWE-Check：Bug 检测快 10 倍 Cognition · 05-03
AutoAdapt：大语言模型的自动化领域适应 MS Research · 05-03
从噪声偏好中学习：一种面向 Direct Preference Optimization 的半监督学习方法 HF Papers · 05-02
Intern-Atlas：面向 AI 科学家的方法演化图研究基础设施 HF Papers · 05-01
Claude Opus 4.6 在 BrowseComp 表现中的 eval awareness Anthropic Engineering · 05-01
PSP：面向 Indic 文本转语音的可解释逐维度口音 benchmark HF Papers · 05-01
大语言模型中的情感概念及其功能 Anthropic Research · 04-30
实践中的可信 agent Anthropic Research · 04-30
自动化对齐研究者：使用 LLM 扩展可扩展监督 Anthropic Research · 04-30
Diffusion Templates：用于可控 Diffusion 的统一插件框架 HF Papers · 04-30