二〇二六年五月十五日

收録 50 篇

研究 22 · 产品 7 · 工程 16 · 评测 5

特斯拉 AI5 芯片流片成功，带宽接近 MacStudio M2 Ultra产品 · twitter@karminski3 · 04-15
DavidAU 团队基于 Qwen3.5-27B 拼接训练出非官方 Qwen3.5-40B Dense 模型研究 · twitter@karminski3 · 04-15
vllm v0.21.0工程 · github-releases · 05-15
HiBayES：用分层贝叶斯建模改进LLM评估研究 · uk-aisi · 05-13
让安全评估可操作研究 · uk-aisi · 05-15
为何我们研究白盒控制研究 · uk-aisi · 05-15
国际联合测试演习：Agentic 测试评测 · uk-aisi · 05-15
Inspect Cyber：Agentic网络评估新标准工程 · uk-aisi · 05-15
AI将如何助长未来犯罪？研究 · uk-aisi · 05-15
结构化引出实验协议研究 · uk-aisi · 05-13
通过简单统一缩放实现金牌级奥赛推理研究 · HF Papers · 05-15
Codex 推出 Hooks 和程序化访问令牌，支持代码工作流自动化定制产品 · twitter-trending-ai · 05-14
esengine/DeepSeek-Reasonix工程 · GitHub · 04-21
op7418/guizang-ppt-skill工程 · GitHub · 04-23
Intern-S2-Preview研究 · internlm-hf · 05-15
Intern-S2-Preview-FP8研究 · internlm-hf · 05-15
Inspect 沙箱工具包：可扩展且安全的 AI agent 评估工程 · uk-aisi · 05-14
穿越未知：构建社会对前沿AI的韧性研究 · uk-aisi · 05-15
管理日益强大的开放权重AI系统的风险研究 · uk-aisi · 05-14
大规模后门数据投毒研究研究 · uk-aisi · 05-15
当前AI系统的局限性映射研究 · uk-aisi · 05-15
自主AI网络能力进步有多快？评测 · uk-aisi · 05-13
Frontier AI趋势报告首期5项关键发现评测 · uk-aisi · 05-15
压力测试AI编码代理的异步监控研究 · uk-aisi · 05-14
引用 Mitchell Hashimoto工程 · simon-willison · 05-14
不再那么锁定了工程 · simon-willison · 05-14
AI原生医疗：1亿次就诊、节省10-20小时、预授权几分钟完成 — Janie Lee & Chai Asawa, Abridge产品 · 🎧 Latent Space · 05-14
2028：全球AI领导力的两种情景研究 · Anthropic Research · 05-14
智能体异步大规模协作研究：GitHub 分支模式原型设计研究 · twitter@karpathy · 03-08
Granite Embedding Multilingual R2：Apache 2.0 开源多语言嵌入，32K 上下文 — 最佳 Sub-100M 检索质量产品 · huggingface-blog · 05-14
随时随地使用 Codex 工作产品 · OpenAI · 05-14
聊天机器人是在告知还是误导选民？研究 · uk-aisi · 05-13
我们如何与前沿AI开发者合作提升模型安全性产品 · uk-aisi · 05-14
UKAISI 亮相 NeurIPS 2025研究 · uk-aisi · 05-14
AI agent评估的转录分析评测 · uk-aisi · 05-14
边界点越狱：突破最强AI防御的新方法研究 · uk-aisi · 05-14
审计游戏以检测沙袋行为研究 · uk-aisi · 05-13
Introducing ControlArena：用于运行AI控制实验的库工程 · uk-aisi · 05-14
Stream Vision Agents 与 Amazon Nova 2 Sonic 实时语音代理工程 · aws-ml · 05-14
NVIDIA Vera Rubin 平台如何解决 Agentic AI 的扩展问题工程 · nvidia-developer · 05-14
Violin：打破语言障碍的开源视频翻译技能工程 · together-ai · 05-14
有效训练长上下文视觉语言模型，泛化能力超越128K上下文研究 · HF Papers · 05-14
Qwen3-TTS：低成本、高性能文本转语音工程 · baseten · 05-14
帮助ChatGPT更好识别敏感对话中的上下文产品 · OpenAI · 05-14
解锁连续批处理中的异步性工程 · huggingface-blog · 05-14
datasette-ip-rate-limit 0.1a0工程 · simon-willison · 05-14
vLLM x Mooncake 规模化服务 Agent 工作负载工程 · vllm-blog · 05-06
TurboQuant 首次全面研究：精度与性能评测 · vllm-blog · 05-11
vLLM 登顶 Artificial Analysis 排行榜工程 · vllm-blog · 05-11
置信度校准技术概述：模型变化但经验可迁移研究 · twitter@cwolferesearch · 05-14