二〇二六年五月七日
收録 88 篇
研究 43 · 产品 16 · 工程 29
- SciCore-Mol
- The Anthropic Institute 的重点领域
- Kimi-K2.6 实测展示游戏生成与 Agent 编程能力
- Claude-Opus-4.7 测试显示视觉提升但后端下降
- harness AI 自动游戏开发框架展示 SCP 游戏 demo
- Qwen3.6-35B-A3B多项benchmark显示Agent能力提升
- DeepSeek-V4 测试新增 SillyTavern 工程能力评测
- 混元3架构解析:整合Apertus、DeepSeek与Qwen MoE
- 混元3 preview Agentic 跑分补全:编程接近 GLM-4.7
- DeepSeek-V4-Pro与Flash大象牙膏测试优于V3但指令遵循存疑
- Google 发布 Gemma 4 专用 draft model,推测解码最高提速 3.1x
- DeepSeek-V4需回传空reasoning_content以避免400
- Nvidia 发布 Nemotron 3 Super 120B-A12B,throughput 突出
- LLM 蒸馏 Ch08 Notebook 在 GitHub 发布
- 短文梳理 coding agent 的四类构建模块
- Gemma 4 架构近似前代,benchmark 明显提升
- LLM Architecture Gallery 新增 diff 工具与排序功能
- LLM Architecture Gallery上线,集中展示LLM架构图
- 文章探讨 smart decoding 与 CoT 如何提升模型智能
- 文章讨论 reward hacking 及 LLM/RLHF 缓解研究
- 比较 RLI、GDPval、APEX-agents 的评估设计取舍
- SimpleStream以最近4帧作为视频流理解强baseline
- Tinker API 开启 Beta waitlist,面向 LoRA fine-tuning
- 总结RL scaling laws与pretraining scaling laws的差异
- LLM-as-a-Verifier称细粒度评分提升verifier准确率
- Netflix 发布剧集 synopsis 的 LLM-as-a-Judge 评估系统报告
- 综述梳理 MOPD 在近期 LLM 后训练中的应用
- NGC论文提出用RL训练LLM管理自身KV cache
- 比较 pretraining 与 RL 中 scaling laws 的用法差异
- 介绍 LLM RL 中的 entropy bonus 正则化作用
- 提出 IDE 需扩展以管理 agentic org code
- autoresearch使nanochat的Time to GPT-2缩短11%
- 提出 agent 应接管从接服务到部署的 DevOps 流程
- 研究者称 LLM 个性化记忆易过度引用旧话题
- litellm PyPI 投毒影响下游依赖并窃取凭证
- 作者以 gist 分享可由 agent 构建的 LLM wiki 想法
- 提出用 LLM 编译研究资料为 Obsidian 知识库
- 作者观察到 LLM 可向任意方向构建有说服力论证
- npm axios供应链攻击暴露未锁定依赖风险
- AI能力认知差距被指源于SOTA agentic models体验分层
- Farzapedia 展示基于本地文件的 AI 个性化方案
- Sequoia对谈梳理LLM新边界、锯齿能力与agent-native经济
- 总结robotics三点教训:硬件可靠性、benchmark混乱与VLA错位
- NVIDIA 机器人实验室发布 GR00T、Dreams、SONIC 等成果
- vibe agents 被指让整个文件系统成为攻击面
- EgoScale用2万小时人类第一视角视频训练灵巧手人形机器人
- DreamDojo 开源基于人类视频的机器人 world model
- DreamZero开源支持zero-shot prompting的机器人模型
- SONIC:42M Transformer实现人形机器人全身控制并开源
- Gemini API 为 Deep Research 加入协作规划控制
- Gemini Embedding 2 GA,支持五种模态统一嵌入
- Gemini Deep Research 更新,支持MCP和多模态输入
- Gemini 3 Flash 编排 subagents 生成 16 个视频变体
- CaP-X开源:机器人agentic toolkit与CaP-Gym
- Gemini 3.1 Pro 0-shot复刻Cursor SDK发布视频
- 开发者指南介绍用 Gemini API 构建 Deep Research 工作流
- 提出两种 MCP servers 使用模式以避免臃肿
- 介绍用 Gemma 4 26B 和 Pi 本地运行 coding agent
- Gemini API File Search 支持 PDF 与图像多模态 RAG
- 文章概览 2026 年 agent 管理 subagent 的四种模式
- Interactions API 更新错误提示,标明字段与修复信息
- Gemma 4 MTP drafters 发布,零质量损失提速最高 3x
- MedSkillAudit:面向医学研究 agent 技能的领域特定审计框架
- APEX:面向 AI 生成音乐的大规模多任务美学感知流行度预测
- 参数高效的多视角熟练度估计:从判别式分类到生成式反馈
- 重新思考推理密集型检索:评估并改进 Agentic 搜索系统中的检索器
- 基于 In-Context Sparse Attention 的快速统一视频编辑
- 唤醒统一多模态理解与生成中的空间智能
- D-OPSD:用于持续调优步蒸馏扩散模型的 On-Policy 自蒸馏
- OpenSearch-VL:面向前沿多模态搜索 agent 的开放方案
- PhysForge:为交互式虚拟世界生成基于物理的 3D 资产
- Stream-T1:用于流式视频生成的 Test-Time Scaling
- Stream-R1:面向流式视频生成的可靠性-困惑度感知奖励蒸馏
- HERMES++:迈向用于 3D 场景理解与生成的统一驾驶世界模型
- RLDX-1 技术报告
- nesquena/hermes-webui
- JackChen-me/open-multi-agent
- HKUDS/Vibe-Trading
- EKKOLearnAI/hermes-web-ui
- ConardLi/garden-skills
- 上下文使用明细
- SpecMD:推测式专家预取的全面研究
- 使用迭代去噪的归一化流
- 从物体的位置到用途:多模态 LLM 空间–功能智能 benchmark
- #496 – FFmpeg:互联网视频背后的关键技术
- 用 vLLM x Mooncake 大规模服务 Agentic 工作负载
- vLLM V0 到 V1:RL 中纠错前先确保正确性
- 生成、过滤、控制、回放:LLM 强化学习 rollout 策略全面综述