词
历GPT-5
OpenAI 第五代大语言模型 · 2025 发布
- 专业化胜过规模化:多数AI采购决策忽视的战略变量
- Gemini 3.5 Flash:更贵,但谷歌计划用它做所有事
- SkillsVote:从收集、推荐到演进的Agent技能全生命周期治理
- Imbad0202/学术研究技能
- ChatGPT 中的全新个人理财体验
- 自主AI网络能力进步有多快?
- 边界点越狱:突破最强AI防御的新方法
- vLLM x Mooncake 规模化服务 Agent 工作负载
- AI网络任务中推理扩展的证据:增加评估预算揭示更高成功率
- 我们对Claude Mythos Preview网络能力的评估
- 问而不告:减少大语言模型中的谄媚行为
- 我们对OpenAI GPT-5.5网络能力的评估
- 红队测试Anthropic内部Agent监控系统
- Anthropic 风险报告(2026年2月)中“自动化研发风险”章节评述
- MemPrivacy:面向边缘-云智能体的隐私保护个性化记忆管理
- llm 0.32a2
- Opus 4.7:你需要知道的一切
- Sub-32B 开放权重
- OpenAI的GPT-5.5成为领先AI模型
- xAI 推出 Grok 4.3,提升智能体性能并降低定价
- Import AI 454:自动化对齐研究;中国模型安全评估;HiFloat4
- SocialReasoning-Bench:衡量AI智能体是否以用户最佳利益行事
- 在脚本的 shebang 行中使用 LLM
- nidhinjs/prompt-master
- wanshuiyin/睡眠中自动 Claude Code 研究
- 用 GPT-5.5 和 GPT-5.5-Cyber 扩展网络安全可信访问
- Claude-Opus-4.7 测试显示视觉提升但后端下降
- HKUDS/Vibe-Trading
- nesquena/hermes-webui
- 用 vLLM x Mooncake 大规模服务 Agentic 工作负载
- GPT-5.5 Instant:更智能、更清晰、更个性化
- GPT-5.5 Instant 系统卡
- MolmoAct 2:面向现实世界机器人工作的开放基础 | Ai2
- MolmoAct2:面向现实世界部署的动作推理模型
- Claude Opus 4.7 介绍
- 介绍 GPT-5.5
- OpenAI 助力 Hyatt 在员工中推进 AI
- moonshotai/Kimi-K2.6
- deepseek-ai/DeepSeek-V4-Pro
- deepseek-ai/DeepSeek-V4-Flash
- Coding Agent 的组成部分
- 对agent网络进行红队测试:理解AI agent大规模交互时会出什么问题