实録译稿 社区 24h

术语频次

封存归档

HLE

█▁▃▁ · 24 次 · 收录于 10 篇

Humanity's Last Exam · 高难度多领域基准

  1. ImageNet 创造者发布 BEHAVIOR 统一机器人基准测试 研究 · X · 05-18
  2. Opus 4.7:你需要知道的一切 产品 · Artificial Analysis · 05-12
  3. Sub-32B 开放权重 产品 · Artificial Analysis · 05-12
  4. 近期开源权重模型发布 产品 · Artificial Analysis · 05-12
  5. OpenSeeker-v2:用信息量高且高难度的轨迹推动搜索 agent 的极限 HF Papers · 05-06
  6. Qwen3.6-27B-FP8 产品 · Qwen · 05-03
  7. Qwen3.6-27B 产品 · Qwen · 05-03
  8. moonshotai/Kimi-K2.6 产品 · Kimi · 05-03
  9. deepseek-ai/DeepSeek-V4-Pro 产品 · DeepSeek · 05-03
  10. deepseek-ai/DeepSeek-V4-Flash 产品 · DeepSeek · 05-03