X · 研究者一手

@_philschmid 这里是我看到的几个针对 3.5 Flash 的第三方评测

@_philschmid Here are some third-party evals I came across for 3.5 Flash this w…

二〇二六年五月二十三日 · 英文原文

Google 本周发布 Gemini 2.5 Flash 的第三方评测结果,该模型在 agent、编程、视觉、金融等领域表现良好。团队表示将根据用户反馈修复问题,每个失败案例都将用于改进后续版本。

以下是我这周看到的关于 3.5 Flash 的一些第三方评测。它在 agent、编程、视觉、金融等领域表现不错。

试试看。分享哪些好用、哪些不好用。我们会修复。每个失败案例都会让下一个版本变得更好。https://t.co/yY9fekAOwW

译自 X · 研究者一手 · 录于 二〇二六年五月二十三日