二〇二六年五月十五日
收録 50 篇
研究 22 · 产品 7 · 工程 16 · 评测 5
- 特斯拉 AI5 芯片流片成功,带宽接近 MacStudio M2 Ultra
- DavidAU 团队基于 Qwen3.5-27B 拼接训练出非官方 Qwen3.5-40B Dense 模型
- vllm v0.21.0
- HiBayES:用分层贝叶斯建模改进LLM评估
- 让安全评估可操作
- 为何我们研究白盒控制
- 国际联合测试演习:Agentic 测试
- Inspect Cyber:Agentic网络评估新标准
- AI将如何助长未来犯罪?
- 结构化引出实验协议
- 通过简单统一缩放实现金牌级奥赛推理
- Codex 推出 Hooks 和程序化访问令牌,支持代码工作流自动化定制
- esengine/DeepSeek-Reasonix
- op7418/guizang-ppt-skill
- Intern-S2-Preview
- Intern-S2-Preview-FP8
- Inspect 沙箱工具包:可扩展且安全的 AI agent 评估
- 穿越未知:构建社会对前沿AI的韧性
- 管理日益强大的开放权重AI系统的风险
- 大规模后门数据投毒研究
- 当前AI系统的局限性映射
- 自主AI网络能力进步有多快?
- Frontier AI趋势报告首期5项关键发现
- 压力测试AI编码代理的异步监控
- 引用 Mitchell Hashimoto
- 不再那么锁定了
- AI原生医疗:1亿次就诊、节省10-20小时、预授权几分钟完成 — Janie Lee & Chai Asawa, Abridge
- 2028:全球AI领导力的两种情景
- 智能体异步大规模协作研究:GitHub 分支模式原型设计
- Granite Embedding Multilingual R2:Apache 2.0 开源多语言嵌入,32K 上下文 — 最佳 Sub-100M 检索质量
- 随时随地使用 Codex 工作
- 聊天机器人是在告知还是误导选民?
- 我们如何与前沿AI开发者合作提升模型安全性
- UKAISI 亮相 NeurIPS 2025
- AI agent评估的转录分析
- 边界点越狱:突破最强AI防御的新方法
- 审计游戏以检测沙袋行为
- Introducing ControlArena:用于运行AI控制实验的库
- Stream Vision Agents 与 Amazon Nova 2 Sonic 实时语音代理
- NVIDIA Vera Rubin 平台如何解决 Agentic AI 的扩展问题
- Violin:打破语言障碍的开源视频翻译技能
- 有效训练长上下文视觉语言模型,泛化能力超越128K上下文
- Qwen3-TTS:低成本、高性能文本转语音
- 帮助ChatGPT更好识别敏感对话中的上下文
- 解锁连续批处理中的异步性
- datasette-ip-rate-limit 0.1a0
- vLLM x Mooncake 规模化服务 Agent 工作负载
- TurboQuant 首次全面研究:精度与性能
- vLLM 登顶 Artificial Analysis 排行榜
- 置信度校准技术概述:模型变化但经验可迁移