实録译稿 社区 24h

术语频次

封存归档

GPT-5

▃█▇▁ · 138 次 · 收录于 42 篇

OpenAI 第五代大语言模型 · 2025 发布

  1. 专业化胜过规模化:多数AI采购决策忽视的战略变量 研究 · HF Blog · 05-22
  2. Gemini 3.5 Flash:更贵,但谷歌计划用它做所有事 产品 · Simon Willison · 05-20
  3. SkillsVote:从收集、推荐到演进的Agent技能全生命周期治理 研究 · HF Papers · 05-19
  4. Imbad0202/学术研究技能 工程 · GitHub · 05-18
  5. ChatGPT 中的全新个人理财体验 产品 · OpenAI · 05-16
  6. 自主AI网络能力进步有多快? 评测 · UK AISI · 05-15
  7. 边界点越狱:突破最强AI防御的新方法 研究 · UK AISI · 05-15
  8. vLLM x Mooncake 规模化服务 Agent 工作负载 工程 · vLLM · 05-15
  9. AI网络任务中推理扩展的证据:增加评估预算揭示更高成功率 研究 · UK AISI · 05-14
  10. 我们对Claude Mythos Preview网络能力的评估 评测 · UK AISI · 05-13
  11. 问而不告:减少大语言模型中的谄媚行为 研究 · UK AISI · 05-13
  12. 我们对OpenAI GPT-5.5网络能力的评估 评测 · UK AISI · 05-13
  13. 红队测试Anthropic内部Agent监控系统 研究 · METR · 05-13
  14. Anthropic 风险报告(2026年2月)中“自动化研发风险”章节评述 评测 · METR · 05-13
  15. MemPrivacy:面向边缘-云智能体的隐私保护个性化记忆管理 研究 · HF Papers · 05-13
  16. llm 0.32a2 产品 · Simon Willison · 05-13
  17. Opus 4.7:你需要知道的一切 产品 · Artificial Analysis · 05-12
  18. Sub-32B 开放权重 产品 · Artificial Analysis · 05-12
  19. OpenAI的GPT-5.5成为领先AI模型 产品 · Artificial Analysis · 05-12
  20. xAI 推出 Grok 4.3,提升智能体性能并降低定价 产品 · Artificial Analysis · 05-12
  21. Import AI 454:自动化对齐研究;中国模型安全评估;HiFloat4 研究 · Import AI · 05-12
  22. SocialReasoning-Bench:衡量AI智能体是否以用户最佳利益行事 研究 · MS Research · 05-12
  23. 在脚本的 shebang 行中使用 LLM 工程 · Simon Willison · 05-12
  24. nidhinjs/prompt-master 工程 · GitHub · 05-08
  25. wanshuiyin/睡眠中自动 Claude Code 研究 工程 · GitHub · 05-08
  26. 用 GPT-5.5 和 GPT-5.5-Cyber 扩展网络安全可信访问 产品 · OpenAI · 05-08
  27. Claude-Opus-4.7 测试显示视觉提升但后端下降 研究 · X · 05-07
  28. HKUDS/Vibe-Trading 工程 · GitHub · 05-07
  29. nesquena/hermes-webui 工程 · GitHub · 05-07
  30. 用 vLLM x Mooncake 大规模服务 Agentic 工作负载 工程 · vLLM · 05-07
  31. GPT-5.5 Instant:更智能、更清晰、更个性化 OpenAI · 05-06
  32. GPT-5.5 Instant 系统卡 OpenAI · 05-06
  33. MolmoAct 2:面向现实世界机器人工作的开放基础 | Ai2 Allen AI · 05-06
  34. MolmoAct2:面向现实世界部署的动作推理模型 HF Papers · 05-05
  35. Claude Opus 4.7 介绍 Anthropic · 05-03
  36. 介绍 GPT-5.5 OpenAI · 05-03
  37. OpenAI 助力 Hyatt 在员工中推进 AI OpenAI · 05-03
  38. moonshotai/Kimi-K2.6 产品 · Kimi · 05-03
  39. deepseek-ai/DeepSeek-V4-Pro 产品 · DeepSeek · 05-03
  40. deepseek-ai/DeepSeek-V4-Flash 产品 · DeepSeek · 05-03
  41. Coding Agent 的组成部分 Sebastian Raschka · 05-03
  42. 对agent网络进行红队测试:理解AI agent大规模交互时会出什么问题 MS Research · 05-03