HLE
█▁▃▁
·
24 次
·
收录于 10 篇
Humanity's Last Exam · 高难度多领域基准
-
ImageNet 创造者发布 BEHAVIOR 统一机器人基准测试
研究 · X · 05-18
-
Opus 4.7:你需要知道的一切
产品 · Artificial Analysis · 05-12
-
Sub-32B 开放权重
产品 · Artificial Analysis · 05-12
-
近期开源权重模型发布
产品 · Artificial Analysis · 05-12
-
OpenSeeker-v2:用信息量高且高难度的轨迹推动搜索 agent 的极限
HF Papers · 05-06
-
Qwen3.6-27B-FP8
产品 · Qwen · 05-03
-
Qwen3.6-27B
产品 · Qwen · 05-03
-
moonshotai/Kimi-K2.6
产品 · Kimi · 05-03
-
deepseek-ai/DeepSeek-V4-Pro
产品 · DeepSeek · 05-03
-
deepseek-ai/DeepSeek-V4-Flash
产品 · DeepSeek · 05-03