二〇二六年五月七日

收録 88 篇

研究 43 · 产品 16 · 工程 29

SciCore-Mol研究 · openbmb-hf · 04-29
The Anthropic Institute 的重点领域研究 · Anthropic Research · 05-07
Kimi-K2.6 实测展示游戏生成与 Agent 编程能力工程 · twitter@karminski3 · 04-21
Claude-Opus-4.7 测试显示视觉提升但后端下降研究 · twitter@karminski3 · 04-19
harness AI 自动游戏开发框架展示 SCP 游戏 demo工程 · twitter@karminski3 · 04-17
Qwen3.6-35B-A3B多项benchmark显示Agent能力提升研究 · twitter@karminski3 · 04-17
DeepSeek-V4 测试新增 SillyTavern 工程能力评测研究 · twitter@karminski3 · 04-27
混元3架构解析：整合Apertus、DeepSeek与Qwen MoE工程 · twitter@karminski3 · 04-23
混元3 preview Agentic 跑分补全：编程接近 GLM-4.7研究 · twitter@karminski3 · 04-23
DeepSeek-V4-Pro与Flash大象牙膏测试优于V3但指令遵循存疑研究 · twitter@karminski3 · 04-24
Google 发布 Gemma 4 专用 draft model，推测解码最高提速 3.1x产品 · twitter@karminski3 · 05-06
DeepSeek-V4需回传空reasoning_content以避免400工程 · twitter@karminski3 · 04-30
Nvidia 发布 Nemotron 3 Super 120B-A12B，throughput 突出研究 · twitter@rasbt · 03-12
LLM 蒸馏 Ch08 Notebook 在 GitHub 发布工程 · twitter@rasbt · 03-11
短文梳理 coding agent 的四类构建模块工程 · twitter@rasbt · 04-04
Gemma 4 架构近似前代，benchmark 明显提升研究 · twitter@rasbt · 04-02
LLM Architecture Gallery 新增 diff 工具与排序功能产品 · twitter@rasbt · 03-26
LLM Architecture Gallery上线，集中展示LLM架构图产品 · twitter@rasbt · 03-15
文章探讨 smart decoding 与 CoT 如何提升模型智能研究 · twitter@lilianweng · 05-17
文章讨论 reward hacking 及 LLM/RLHF 缓解研究研究 · twitter@lilianweng · 12-02
比较 RLI、GDPval、APEX-agents 的评估设计取舍研究 · twitter@cwolferesearch · 04-08
SimpleStream以最近4帧作为视频流理解强baseline研究 · twitter@cwolferesearch · 04-07
Tinker API 开启 Beta waitlist，面向 LoRA fine-tuning产品 · twitter@lilianweng · 10-01
总结RL scaling laws与pretraining scaling laws的差异研究 · twitter@cwolferesearch · 04-18
LLM-as-a-Verifier称细粒度评分提升verifier准确率研究 · twitter@cwolferesearch · 04-15
Netflix 发布剧集 synopsis 的 LLM-as-a-Judge 评估系统报告工程 · twitter@cwolferesearch · 04-13
综述梳理 MOPD 在近期 LLM 后训练中的应用研究 · twitter@cwolferesearch · 05-01
NGC论文提出用RL训练LLM管理自身KV cache研究 · twitter@cwolferesearch · 04-24
比较 pretraining 与 RL 中 scaling laws 的用法差异研究 · twitter@cwolferesearch · 04-22
介绍 LLM RL 中的 entropy bonus 正则化作用研究 · twitter@cwolferesearch · 04-25
提出 IDE 需扩展以管理 agentic org code工程 · twitter@karpathy · 03-11
autoresearch使nanochat的Time to GPT-2缩短11%工程 · twitter@karpathy · 03-09
提出 agent 应接管从接服务到部署的 DevOps 流程工程 · twitter@karpathy · 03-26
研究者称 LLM 个性化记忆易过度引用旧话题工程 · twitter@karpathy · 03-25
litellm PyPI 投毒影响下游依赖并窃取凭证工程 · twitter@karpathy · 03-24
作者以 gist 分享可由 agent 构建的 LLM wiki 想法工程 · twitter@karpathy · 04-04
提出用 LLM 编译研究资料为 Obsidian 知识库工程 · twitter@karpathy · 04-02
作者观察到 LLM 可向任意方向构建有说服力论证工程 · twitter@karpathy · 03-28
npm axios供应链攻击暴露未锁定依赖风险工程 · twitter@karpathy · 03-31
AI能力认知差距被指源于SOTA agentic models体验分层研究 · twitter@karpathy · 04-09
Farzapedia 展示基于本地文件的 AI 个性化方案工程 · twitter@karpathy · 04-04
Sequoia对谈梳理LLM新边界、锯齿能力与agent-native经济研究 · twitter@karpathy · 04-30
总结robotics三点教训：硬件可靠性、benchmark混乱与VLA错位研究 · twitter@drjimfan · 12-28
NVIDIA 机器人实验室发布 GR00T、Dreams、SONIC 等成果产品 · twitter@drjimfan · 12-24
vibe agents 被指让整个文件系统成为攻击面工程 · twitter@drjimfan · 03-24
EgoScale用2万小时人类第一视角视频训练灵巧手人形机器人研究 · twitter@drjimfan · 02-25
DreamDojo 开源基于人类视频的机器人 world model产品 · twitter@drjimfan · 02-20
DreamZero开源支持zero-shot prompting的机器人模型研究 · twitter@drjimfan · 02-04
SONIC：42M Transformer实现人形机器人全身控制并开源产品 · twitter@drjimfan · 02-24
Gemini API 为 Deep Research 加入协作规划控制产品 · twitter@_philschmid · 04-24
Gemini Embedding 2 GA，支持五种模态统一嵌入产品 · twitter@_philschmid · 04-22
Gemini Deep Research 更新，支持MCP和多模态输入产品 · twitter@_philschmid · 04-21
Gemini 3 Flash 编排 subagents 生成 16 个视频变体产品 · twitter@_philschmid · 04-17
CaP-X开源：机器人agentic toolkit与CaP-Gym研究 · twitter@drjimfan · 04-01
Gemini 3.1 Pro 0-shot复刻Cursor SDK发布视频产品 · twitter@_philschmid · 04-30
开发者指南介绍用 Gemini API 构建 Deep Research 工作流工程 · twitter@_philschmid · 04-29
提出两种 MCP servers 使用模式以避免臃肿工程 · twitter@_philschmid · 04-27
介绍用 Gemma 4 26B 和 Pi 本地运行 coding agent工程 · twitter@_philschmid · 04-27
Gemini API File Search 支持 PDF 与图像多模态 RAG产品 · twitter@_philschmid · 05-06
文章概览 2026 年 agent 管理 subagent 的四种模式工程 · twitter@_philschmid · 05-05
Interactions API 更新错误提示，标明字段与修复信息产品 · twitter@_philschmid · 05-04
Gemma 4 MTP drafters 发布，零质量损失提速最高 3x产品 · twitter@_philschmid · 05-05
MedSkillAudit：面向医学研究 agent 技能的领域特定审计框架研究 · HF Papers · 05-07
APEX：面向 AI 生成音乐的大规模多任务美学感知流行度预测研究 · HF Papers · 05-07
参数高效的多视角熟练度估计：从判别式分类到生成式反馈研究 · HF Papers · 05-07
重新思考推理密集型检索：评估并改进 Agentic 搜索系统中的检索器研究 · HF Papers · 05-07
基于 In-Context Sparse Attention 的快速统一视频编辑研究 · HF Papers · 05-07
唤醒统一多模态理解与生成中的空间智能研究 · HF Papers · 05-07
D-OPSD：用于持续调优步蒸馏扩散模型的 On-Policy 自蒸馏研究 · HF Papers · 05-07
OpenSearch-VL：面向前沿多模态搜索 agent 的开放方案研究 · HF Papers · 05-07
PhysForge：为交互式虚拟世界生成基于物理的 3D 资产研究 · HF Papers · 05-07
Stream-T1：用于流式视频生成的 Test-Time Scaling研究 · HF Papers · 05-07
Stream-R1：面向流式视频生成的可靠性-困惑度感知奖励蒸馏研究 · HF Papers · 05-07
HERMES++：迈向用于 3D 场景理解与生成的统一驾驶世界模型研究 · HF Papers · 05-07
RLDX-1 技术报告研究 · HF Papers · 05-07
nesquena/hermes-webui工程 · GitHub · 03-30
JackChen-me/open-multi-agent工程 · GitHub · 03-31
HKUDS/Vibe-Trading工程 · GitHub · 04-01
EKKOLearnAI/hermes-web-ui工程 · GitHub · 04-11
ConardLi/garden-skills工程 · GitHub · 04-21
上下文使用明细产品 · cursor-changelog · 05-06
SpecMD：推测式专家预取的全面研究研究 · apple-ml-research · 05-06
使用迭代去噪的归一化流研究 · apple-ml-research · 05-06
从物体的位置到用途：多模态 LLM 空间–功能智能 benchmark研究 · apple-ml-research · 05-06
#496 – FFmpeg：互联网视频背后的关键技术研究 · 🎧 Lex Fridman · 05-06
用 vLLM x Mooncake 大规模服务 Agentic 工作负载工程 · vllm-blog · 05-06
vLLM V0 到 V1：RL 中纠错前先确保正确性工程 · huggingface-blog · 05-06
生成、过滤、控制、回放：LLM 强化学习 rollout 策略全面综述研究 · HF Papers · 05-06