词
历alignment
对齐 · 让 AI 行为符合人类意图与价值的研究方向
- BitCPM-CANN-1B
- BitCPM-CANN-3B
- BitCPM-CANN-8B
- BitCPM-CANN-0.5B
- BitCPM-CANN-1B-gguf
- BitCPM-CANN-0.5B-gguf
- BitCPM-CANN-3B-gguf
- BitCPM-CANN-8B-gguf
- walkinglabs/learn-harness-engineering
- 专业化胜过规模化:多数AI采购决策忽视的战略变量
- BitCPM4-CANN-0.5B-gguf
- BitCPM4-CANN-1B-gguf
- BitCPM4-CANN-3B-gguf
- BitCPM4-CANN-8B-gguf
- 如何通过评估与可观测性赢得利益相关者信任
- AI系统监管会变得更难吗?
- 增强无训练无限帧生成以实现一致长视频
- 当视觉为声音代言
- Import AI 457:AI 震网;诅咒的 Muon 优化器;与正向对齐
- 使用 LoRA/DoRA 微调 NVIDIA Cosmos Predict 2.5 生成机器人视频
- BitCPM4-CANN-0.5B
- BitCPM4-CANN-1B
- BitCPM4-CANN-3B
- BitCPM4-CANN-8B
- Imbad0202/学术研究技能
- AI系统应该像人一样行事吗?
- Geoffrey Irving:我为何加入AISI
- 评估前沿AI系统的早期经验
- 我们如何弥合AI能力与防护之间的差距
- RepliBench:衡量AI系统中的自主复制能力
- 如何评估AI agent的控制措施?
- 结构化引出实验协议
- 管理日益强大的开放权重AI系统的风险
- Frontier AI趋势报告首期5项关键发现
- 2028:全球AI领导力的两种情景
- Introducing ControlArena:用于运行AI控制实验的库
- Apollo 2026年5月更新
- 深化与Google DeepMind的合作关系
- 研究不对齐模型
- 我们的2025年度回顾
- mimalloc:面向现代的高性能可扩展内存分配器
- 资助60个项目推进AI对齐研究
- AI在欺诈与网络犯罪中滥用的评估框架
- 问而不告:减少大语言模型中的谄媚行为
- 环境因素如何影响AI行为?
- 评估AI模型是否会破坏AI安全研究
- Import AI 455:AI系统即将开始自我构建
- Import AI 456:RSI与经济增长;AI监管的激进可选性;神经计算机
- Import AI 454:自动化对齐研究;中国模型安全评估;HiFloat4
- Flow-OPD:流匹配模型的在策略蒸馏
- 在 Modal 上构建 RL 定理证明工作流
- RVPO:通过方差正则化实现风险敏感对齐
- 教 Claude 理解为什么
- rohitg00/从零开始的 AI 工程
- 自然语言 Autoencoders
- 捐赠我们的开源对齐工具
- SciCore-Mol
- Netflix 发布剧集 synopsis 的 LLM-as-a-Judge 评估系统报告
- Stream-R1:面向流式视频生成的可靠性-困惑度感知奖励蒸馏
- 超越 SFT-to-RL:通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐
- 面向表格基础模型的先验对齐数据清洗
- BlenderRAG:通过检索增强代码合成实现高保真 3D 对象生成
- 用于视觉 Grounded 推理的感知流网络
- OceanPile:面向基础模型的大规模多模态海洋语料库
- 视觉-语言模型中抑制幻觉的在线自校准
- Themis:训练鲁棒的多语言代码奖励模型,用于灵活的多标准评分
- UniVidX:基于 Diffusion Priors 的通用视频生成统一多模态框架
- Claude Opus 4.7 介绍
- 揭秘 AI agents 的 evals
- NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频 agent 的长上下文多模态智能
- 数据科学家的复仇
- 我们能靠 AI 走向更可持续的世界吗
- SWE-Check:Bug 检测快 10 倍
- AutoAdapt:大语言模型的自动化领域适应
- 从噪声偏好中学习:一种面向 Direct Preference Optimization 的半监督学习方法
- Intern-Atlas:面向 AI 科学家的方法演化图研究基础设施
- Claude Opus 4.6 在 BrowseComp 表现中的 eval awareness
- PSP:面向 Indic 文本转语音的可解释逐维度口音 benchmark
- 大语言模型中的情感概念及其功能
- 实践中的可信 agent
- 自动化对齐研究者:使用 LLM 扩展可扩展监督
- Diffusion Templates:用于可控 Diffusion 的统一插件框架