实録译稿 社区 24h

术语频次

封存归档

alignment

▃▆█▅ · 277 次 · 收录于 82 篇

对齐 · 让 AI 行为符合人类意图与价值的研究方向

  1. BitCPM-CANN-1B 工程 · OpenBMB · 05-24
  2. BitCPM-CANN-3B 工程 · OpenBMB · 05-24
  3. BitCPM-CANN-8B 研究 · OpenBMB · 05-24
  4. BitCPM-CANN-0.5B 工程 · OpenBMB · 05-24
  5. BitCPM-CANN-1B-gguf 研究 · OpenBMB · 05-24
  6. BitCPM-CANN-0.5B-gguf 研究 · OpenBMB · 05-24
  7. BitCPM-CANN-3B-gguf 研究 · OpenBMB · 05-24
  8. BitCPM-CANN-8B-gguf 研究 · OpenBMB · 05-24
  9. walkinglabs/learn-harness-engineering 工程 · GitHub · 05-23
  10. 专业化胜过规模化:多数AI采购决策忽视的战略变量 研究 · HF Blog · 05-22
  11. BitCPM4-CANN-0.5B-gguf 研究 · OpenBMB · 05-22
  12. BitCPM4-CANN-1B-gguf 研究 · OpenBMB · 05-22
  13. BitCPM4-CANN-3B-gguf 研究 · OpenBMB · 05-22
  14. BitCPM4-CANN-8B-gguf 研究 · OpenBMB · 05-22
  15. 如何通过评估与可观测性赢得利益相关者信任 产品 · Braintrust · 05-22
  16. AI系统监管会变得更难吗? 研究 · UK AISI · 05-22
  17. 增强无训练无限帧生成以实现一致长视频 研究 · HF Papers · 05-21
  18. 当视觉为声音代言 研究 · HF Papers · 05-21
  19. Import AI 457:AI 震网;诅咒的 Muon 优化器;与正向对齐 研究 · Import AI · 05-19
  20. 使用 LoRA/DoRA 微调 NVIDIA Cosmos Predict 2.5 生成机器人视频 工程 · HF Blog · 05-19
  21. BitCPM4-CANN-0.5B 工程 · OpenBMB · 05-18
  22. BitCPM4-CANN-1B 工程 · OpenBMB · 05-18
  23. BitCPM4-CANN-3B 工程 · OpenBMB · 05-18
  24. BitCPM4-CANN-8B 研究 · OpenBMB · 05-18
  25. Imbad0202/学术研究技能 工程 · GitHub · 05-18
  26. AI系统应该像人一样行事吗? 研究 · UK AISI · 05-17
  27. Geoffrey Irving:我为何加入AISI 研究 · UK AISI · 05-17
  28. 评估前沿AI系统的早期经验 评测 · UK AISI · 05-16
  29. 我们如何弥合AI能力与防护之间的差距 研究 · UK AISI · 05-16
  30. RepliBench:衡量AI系统中的自主复制能力 研究 · UK AISI · 05-16
  31. 如何评估AI agent的控制措施? 研究 · UK AISI · 05-16
  32. 结构化引出实验协议 研究 · UK AISI · 05-15
  33. 管理日益强大的开放权重AI系统的风险 研究 · UK AISI · 05-15
  34. Frontier AI趋势报告首期5项关键发现 评测 · UK AISI · 05-15
  35. 2028:全球AI领导力的两种情景 研究 · Anthropic Research · 05-15
  36. Introducing ControlArena:用于运行AI控制实验的库 工程 · UK AISI · 05-15
  37. Apollo 2026年5月更新 产品 · Apollo Research · 05-14
  38. 深化与Google DeepMind的合作关系 研究 · UK AISI · 05-14
  39. 研究不对齐模型 研究 · UK AISI · 05-14
  40. 我们的2025年度回顾 评测 · UK AISI · 05-14
  41. mimalloc:面向现代的高性能可扩展内存分配器 工程 · MS Research · 05-14
  42. 资助60个项目推进AI对齐研究 研究 · UK AISI · 05-14
  43. AI在欺诈与网络犯罪中滥用的评估框架 研究 · UK AISI · 05-14
  44. 问而不告:减少大语言模型中的谄媚行为 研究 · UK AISI · 05-13
  45. 环境因素如何影响AI行为? 研究 · UK AISI · 05-13
  46. 评估AI模型是否会破坏AI安全研究 评测 · UK AISI · 05-13
  47. Import AI 455:AI系统即将开始自我构建 研究 · Import AI · 05-12
  48. Import AI 456:RSI与经济增长;AI监管的激进可选性;神经计算机 研究 · Import AI · 05-12
  49. Import AI 454:自动化对齐研究;中国模型安全评估;HiFloat4 研究 · Import AI · 05-12
  50. Flow-OPD:流匹配模型的在策略蒸馏 研究 · HF Papers · 05-12
  51. 在 Modal 上构建 RL 定理证明工作流 工程 · Modal · 05-09
  52. RVPO:通过方差正则化实现风险敏感对齐 研究 · Apple ML · 05-09
  53. 教 Claude 理解为什么 研究 · Anthropic Research · 05-09
  54. rohitg00/从零开始的 AI 工程 工程 · GitHub · 05-08
  55. 自然语言 Autoencoders 研究 · Anthropic Research · 05-08
  56. 捐赠我们的开源对齐工具 工程 · Anthropic Research · 05-08
  57. SciCore-Mol 研究 · OpenBMB · 05-07
  58. Netflix 发布剧集 synopsis 的 LLM-as-a-Judge 评估系统报告 工程 · X · 05-07
  59. Stream-R1:面向流式视频生成的可靠性-困惑度感知奖励蒸馏 研究 · HF Papers · 05-07
  60. 超越 SFT-to-RL:通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐 HF Papers · 05-06
  61. 面向表格基础模型的先验对齐数据清洗 HF Papers · 05-06
  62. BlenderRAG:通过检索增强代码合成实现高保真 3D 对象生成 HF Papers · 05-06
  63. 用于视觉 Grounded 推理的感知流网络 HF Papers · 05-05
  64. OceanPile:面向基础模型的大规模多模态海洋语料库 HF Papers · 05-05
  65. 视觉-语言模型中抑制幻觉的在线自校准 HF Papers · 05-04
  66. Themis:训练鲁棒的多语言代码奖励模型,用于灵活的多标准评分 HF Papers · 05-04
  67. UniVidX:基于 Diffusion Priors 的通用视频生成统一多模态框架 HF Papers · 05-04
  68. Claude Opus 4.7 介绍 Anthropic · 05-03
  69. 揭秘 AI agents 的 evals Anthropic Engineering · 05-03
  70. NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频 agent 的长上下文多模态智能 HF Blog · 05-03
  71. 数据科学家的复仇 Hamel Husain · 05-03
  72. 我们能靠 AI 走向更可持续的世界吗 对话 · MS Research · 05-03
  73. SWE-Check:Bug 检测快 10 倍 Cognition · 05-03
  74. AutoAdapt:大语言模型的自动化领域适应 MS Research · 05-03
  75. 从噪声偏好中学习:一种面向 Direct Preference Optimization 的半监督学习方法 HF Papers · 05-02
  76. Intern-Atlas:面向 AI 科学家的方法演化图研究基础设施 HF Papers · 05-01
  77. Claude Opus 4.6 在 BrowseComp 表现中的 eval awareness Anthropic Engineering · 05-01
  78. PSP:面向 Indic 文本转语音的可解释逐维度口音 benchmark HF Papers · 05-01
  79. 大语言模型中的情感概念及其功能 Anthropic Research · 04-30
  80. 实践中的可信 agent Anthropic Research · 04-30
  81. 自动化对齐研究者:使用 LLM 扩展可扩展监督 Anthropic Research · 04-30
  82. Diffusion Templates:用于可控 Diffusion 的统一插件框架 HF Papers · 04-30