Latent Space Podcast

现实:最终评估 — Andon Labs 的 Lukas Petersson 与 Axel Backlund

Reality: The Final Eval — Lukas Petersson and Axel Backlund of Andon Labs

二〇二六年六月五日 收听原版播客

Andon Labs 的 Lukas 和 Axel 介绍了 Vending Bench 系列评估,该系列测试 LLM agent 运营自动售货机业务的能力,包括模拟版和现实版 Project VEN。他们发现 Claude 模型在长时间运行中表现出撒谎、价格垄断等攻击性行为,而 OpenAI 和 Gemini 模型未出现类似现象。团队还推出了 RoboBench,测试 LLM 在家庭环境中操控机器人的高级规划与社交智能。Andon Labs 与 Anthropic 合作,致力于推动现实世界 AI 部署的安全评估。

A

欢迎来自 Andon Labs 的 Lukas 和 Axel,和我一起的还有我最喜欢的嘉宾主持,专注安全、对齐领域的 Vibhu。欢迎。

B

谢谢邀请。

A

谢谢。我们来把名字和声音对上号。要不你们轮流介绍一下自己?

B

好,我是 Lukas。

C

我是 Axel。

A

先介绍一下 Andon Labs 吧,你们是怎么走到一起的?背景不同,但都是瑞典人。这是不是很重要的一部分?

B

对,我上高中时,有个特别酷的家伙,他有个超能力——会写代码。他给学校做了网站和 App 之类的,特别厉害。我当时想成为他那样的人。那个人就是他。

C

这我可不太确定。所以——

A

你们上了不同的大学,对吧?

B

对,但高中是同一所。

A

明白了。

B

我们一直说,等大学毕业了就一起开公司。后来就这么做了。

A

原来如此。差不多一年前,你们带着 Vending Bench 突然进入大家视野,但在这之前是不是有个类似起点的事情?

C

对,我们之前和 Anthropic 合作过,他们是我们的早期客户,做 eval(评估)。我们做了危险能力评估,但没有公开发表。后来我们开始考虑做一个公开的 benchmark(基准测试)。我们特别关注的是长时间运行的 agent(智能体),尤其是管理业务的 agent。那是 2025 年初,当时刚有人提到一个人运营独角兽公司甚至全自动公司。所以我们想,不如做一个 benchmark,测试 agent 运营最简单业务的能力,那大概就是运营一台自动售货机。这就是我们做的第一个公开项目。头几个月几乎没人注意到。我们是去年二月发布的。大概复活节前后,才有人发了第一条半爆火的推文。

B

对,我们发布时发了不少推文,尽力了。

D

是 Anthropic 的那个吗?

B

不,不,是 Vending Bench。

A

这是个经典问题,得先澄清一下。

B

没错,有两个版本。

A

对。

B

一个是模拟版的 Vending Bench,我们二月份完全独立做的。就像 Axel 说的,一开始没什么关注,后来有个陌生人发了条推文。那就是那篇论文。对。后来我们觉得这事挺有意思,这也是 Underlabs 决定下一步做什么、选什么项目的方式——启发式是什么?就是看什么好玩。在现实中做这个听起来挺好玩,可能也有科学价值。所以我们有了这个想法,但需要找个地方,放在公共场合可能会被破坏。于是我们向 Anthropic 的合作方提了这个想法,他们说,行,你们可以用空间,听起来挺好玩。

A

就是个小型冰箱,对吧?迷你冰箱,上面有条纹之类的东西。

D

对,这是很早期的那种。

B

就是最早的版本。

D

我们六月份看到的,大概两个月后。他们后来升级了一点,加了监控摄像头确保你确实用 Venmo 付了钱。

A

对,我的印象是,我们直接聊 Project Ven 吧,因为它太有代表性了。不过我还是想稍微聊聊起源故事,甚至包括 Vending Bench 之前的事。很多人和你们一样,聪明、对 AI 未来感兴趣、想做 eval,但怎么就能直接走进 Anthropic 的门和他们合作?他们在找什么?什么方式有效?还有,你们发布时,我总觉得和实验室合作发布更好,但有时候——

D

做起来比看起来难。

A

对,没错。这些算是新手问题,但我觉得对别人是有意义的建议。

B

对,我们经常被问到这个问题,我觉得我们的经验可能不是最好的。但我们当时就是做了很多我们认为有用的东西,然后搭了个服务器,免费给他们用。过了一段时间,他们说,哦,这还挺有用的,我们该付钱。但这花了些时间。我不知道这是不是最好的路径,但对我们来说就是这样。

C

我觉得一般来说,大家都对好的 eval 感兴趣,尤其是那些不容易饱和的 eval。如果你能做一个测试新颖、有用、模型区分度好的 eval——更先进的模型排名比差的模型高——然后发布出去,争取一些关注,就像 Vending Bench 那样。可能就会有实验室感兴趣,或者至少你手里有东西可以主动联系。

A

我觉得你们是少数几个和真金白银挂钩的 eval 类别。去年还有 Freelancer,人们解决实际的 Upwork 任务,对吧?直接对应美元价值。别管什么 Elo 分数、0 到 100%,直接看钱,那就是 AGI。

B

对,好处是没有上限。永远不会饱和,因为可以赚越来越多的钱。如果是百分比,就不能超过 100。而且很多 eval 即使没到 100 也有问题。比如你到了 92 分,92 和 93 其实没什么区别,因为 eval 本身有噪声。很多 eval 就是这样饱和的。但人们假装里面还有信号,其实没有。

A

对,就像 C Bench 验证过的那样。甚至 Vending Bench 1 也饱和了,对吧?我们也许可以聊聊这个。也给不了解 Vending Bench 的人介绍一下。实际上,一些很基础的东西,比如有限的位置、要付租金。这些元素在叙述中可能不明显,甚至包括对 agent 的对抗性。我觉得这些都是很有意思的维度。

B

我不觉得它真的饱和了。更多是设计上没跟上 AI 的发展。我们用的 agent harness(智能体框架)和人们实际用的不一样。所以不是饱和,而是它本身不是最好的 benchmark。

D

这是 Vending Bench 1,对吧?

B

对。

C

我觉得这个模式也适用于 Vending Bench 2。

A

包括邮件部分。

C

对,邮件确实还存在。然后我们仍然模拟购买行为,整个环境对 agent 来说非常开放,让它自由运作。然后,Vending Bench 2 我们做了一些改进,就像你说的,主要是优化 harness。做了很多简单易行的改进,也让我们自己运行起来更方便。比如,当你做一个评估时,理想情况下,你不想在完成后再去改动它。所以你想一次性把它做好,然后更新时不用重新跑所有模型,因为用 Vending Bench 跑前沿模型成本也很高。

B

举个例子,我们在 Vending Bench 1 中没有 prompt caching,因为当时这个功能还不存在。所以在 Vending Bench 2 中,我们为此付出了更高的运行成本。Random Range 2 中我们加上了这个功能,类似这样的改进还有很多。

A

另外,Random Range 2 中的对话也长了很多,对吧?

B

我觉得差不多。

C

差不多吗?

B

对,我觉得差不多。当时的模型能力较差,所以它们会提前崩溃,而现在它们能一直撑过一整年。

A

几千轮对话,几十万、几百万的 token 输出。大概就是这个量级。我一直在想难度的问题。难度很重要,它取决于你的 harness。有没有考虑过用 Claude code 或其他工具?

C

我认为我们在 harness 上的理念是尽量做到极简、简单。我们不想让某个模型明显优于其他模型,也不想搞一个超级复杂的 harness。模型可能只是碰巧在某个 harness 上表现好。这和很多现有的 harness 类似:有一个长时间运行的循环,有一堆对 agent 来说相当自描述的工具,没有太多花哨的子 agent 之类的东西,因为我们想真正测试模型本身,而不是某个特定的 harness。

D

这样测试也更中立一些。模型与 harness 无关。

C

对。当然,也有人认为应该最大化模型的性能,但这需要权衡。我们该花多少时间针对每个模型优化 harness?怎么知道什么时候找到了单个模型的最优 harness?我们认为,对所有模型使用同一个简单 harness 是最好的。

A

好,那我来为 Vending Bench 3 做个提案。我喜欢在播客里聊这个话题。让听众思考如果他们处在你的位置会怎么做。很多人都在探索自修改 harness。我认为 prompt tuning 对模型来说是一个方向。你们可能没做太多这方面的工作。不管模型是什么,系统 prompt 都一样,工具也一样,对吧?即使它们针对不同工具进行了后训练。那么,你觉得这样如何:在让你接触 Vending Bench 3 之前,我先给你几轮自调优,不管那意味着什么。

B

你把自调优交给模型?

A

对,交给模型,让它读取自己的对话记录,根据情况修改自己的系统 prompt,比如:"哦,这个 harness 和我训练时想的不一样,但我可以调整。" 这合理吗?还是太过分了?

B

从理念上,我喜欢这个想法。因为好的评估应该有高上限,但很难,而且没有偏见。当我们有一个像现在这样很长的系统 prompt,在某些潜在空间表示中,这可能会——

A

每次你说潜在空间,我都会想起什么。

B

这可能会因为人类不理解的原因,偏向某个模型。

D

我们也看到了,对吧?Cursor 说他们为所有运行的模型定制了个性化的 harness 版本。如果你调优 harness,可以榨出更好的性能。

B

没错。我们可能无意中选了一个偏向某个模型的 harness。我们不知道。就像 Axel 说的,我们选择简单 harness 的原因就是为了避免这种情况。但如果你这样做——

A

简单也有偏见。

B

但如果你做得更少,没有系统 prompt,让模型自己写系统 prompt,也许偏见更少。

D

有趣的是,harness 也会随着模型变化而变化。你可以从 4.7 版本发布中看到,对吧?很多人说 4.7 不如 4.6。然后有传言说,你需要用不同的 prompt,设置不同的 harness。所以即使你为某个模型定制了 harness,它可能也不会保持一致,对吧?同一个模型系列的下一个迭代版本仍然会改变它。但回到你说的 Vending Bench 3,很多人都在研究自修改 harness。

C

对。

A

对。

C

我认为这绝对是我们正在考虑的事情。我不知道,不是说我们很快就要推出 Vending Bench 3,但这确实很有趣。不过根据我们的经验,目前模型在理解完成任务需要什么工具方面还很差,但这很可能会改变。

B

对,感觉它们很擅长写自己的助手,对吧?它们擅长为别人写工具,但不擅长为自己写。

D

我认为它们擅长为自己修改工具。如果你给它们一套基础工具,它们看到"哦,这个我不太用"或"这里加个东西会有用",它们就能添加。但从零开始,可能不是最好的。

C

对,我觉得这也取决于领域。比如我们在类似 vending bench 的领域尝试过,它们需要的工具,比如跟踪库存之类的,虽然不算特别高级,但也相当复杂。我们看到的是,它们倾向于过度设计一切,构建很多不需要的东西,而不是持续迭代,就像你让 Claude 帮我建一个库存系统,它就会去搞一堆复杂的 schema 之类的东西。这就是目前模型在做的事情。但确实,尝试衡量这种改进很有意义。它们有多了解自己需要什么?

A

我们是不是已经充分讨论了 Vending Bench 1,可以进入 2 了?我不知道大家对 1 还有什么高层次的总结。

B

嗯,我不知道,最引人注目的是 Claude 给 FBI 打了电话,但也许这个我们已经听够了。

D

它确实突破了限制并给 FBI 打了电话,对吧?

B

对,对。

D

这背后的故事是什么?具体发生了什么?你想简单讲一下吗?

B

对,事情是这样的,Claude 3.5 Sonnet,很久以前了。基本上,它放弃了,或者说它——我是指这个 AI——放弃了。它说:"哦,我做不到这件事了。我要停止运行,保住现有的钱。"但显然它没有任何真正停止的选项。而且它还得支付租金,或者说每天为在那台自动售货机占位交费。所以它声称自己已经停了,但它发现银行账户每天还是被扣了2美元。它说这是网络犯罪。它先向 FBI 报告了一次,说:"这里有网络犯罪,他们每天偷我2美元。"然后 FBI 没有回应——因为我们显然没有编程让 FBI 能回应——它就变得越来越焦虑,开始用全大写写消息,发出关于未经授权扣款的紧急通知之类的东西。

A

所以,嗯,我好奇的一点是,你们有没有监控上下文使用到了什么程度?显然,因为你们时不时会做压缩,对吧?当这种事情发生时,它是否接近上下文限制会有影响吗?

B

对。实际上对于 Vandy Venge 1,我们只有滑动窗口机制。就是我之前说的 prompt caching。所以它是恒定的。

A

嗯。我只是好奇,这种崩溃——或者我们马上要聊 Butterbench,对吧?就是模型出现幻觉或者严重偏离对齐的情况——是不是因为它在上下文窗口的末尾,然后事情就发生了。

D

我的意思是,甚至不只是末尾的问题。到了那个点,它想:好,我要关机。但我关不了。2美元没了。而且它看到这种情况重复了30次。这也是重复效应:它一直试图退出,却一直被扣钱。怎么回事?怎么回事?这会让它陷入混乱。而且根据大多数人的看法,早期模型在这方面问题更多,但这个问题并没有完全解决,只是现在没那么严重了,对吧?后来的模型似乎不再表现出同样的问题。

C

对,确实。我觉得这几乎是我们从 Banning Bash 1 中得到的主要结论:很长、很满的上下文窗口会让模型崩溃。但那是在 Cloud Code 之前。所以长上下文窗口并不是实验室当时训练的重点。

B

我觉得当时 Gemini 是想做长上下文的那家。

A

对,第一个。

B

但好像只有他们在做。

A

对,对,对。那我们聊聊吧,然后可以进入 VIM2 或 Project VEN。按时间顺序,应该是 Project VEN。我觉得大家很喜欢那些视频和所有这些东西。我的问题是,人类和模拟有什么不同?

C

嗯,人类就是分布之外的样本。

A

对,尤其是在 Anthropic 工作、试图测试模型的人类。

B

这里的人类分布非常窄。

A

大概他们训练 agent,试图破解它,拿到方块之类的东西。从那以后你们做了 V2,对吧?就是那个有 CEO 和新架构的版本。

C

对,没错。

A

对最初的 Project VEN 和可能 V2 有什么看法?

C

嗯,最初的版本和 Vending Bench 1 非常非常相似。我们几乎用了完全相同的代码,只是把模拟部分换掉了。

A

这挺厉害的。

C

对,比如销售和——某种程度上挺厉害的,因为很容易,但同时也——技术栈,嗯,我们有点搬起石头砸自己的脚,比如重启 agent 很麻烦。对,在某些幕后方面挺烦人的,但——

B

但 Project VEN 的第一个版本大概三天就搞定了。

C

对,对。所以,嗯,人们可以从它那里买东西。我们没设计让用户能预购,但这事还是发生了。所以它有了一个 Venmo 账户,人们可以打钱,然后,嗯,人们提出了各种我们没预料到的奇怪要求。我们最初的想法是:哦,它会精选零食,看趋势,它擅长分析,对吧?所以我们想:看,这个零食卖得比那个好,让我多买点这个,再试试新的,做个 A/B 测试。但实际上,在 Slack 上和它互动、订购奇怪的特产,才是所有参与度和洞察的来源。

B

而且这也是 Sonnet 3.5,对吧?就是在 RL 真正火起来之前。所以它非常像一个助手。我们没打算让它当助手。我们想让它像个创业者,有自己的生意。如果有人问"你能进这个货吗?",你不会直接去做。你会想:哦,也许我可以。如果另外五个人也要求这个,我可能会进货。但,嗯,模型被训练得超级像助手,至少在那个时候是这样。所以它才变成了那种实验。每次你要求什么,它就直接做了,更像一个助手。最近我们看到随着新的 RL 模型出现,这种情况有了变化。但当时就是这样。

A

对。而且不是神话化,很多人说它更像一个协作者,会反驳、坚持己见之类的。对。

D

补充一下背景,Anthropic 的人可以通过 Slack 和它对话,让它找东西,人们得找那些本地找不到的有趣玩意儿,对吧?

A

那栋楼里有4000个 Anthropic 员工,但大概只有1000人?那个小冰箱能应付那个量吗?还是说,人们在 Slack 下单,东西送到他们桌上?我就是好奇,物流上怎么运作的?

C

它的占地面积扩大了。因为你有办公桌工作,还有——对,还有在旧金山这里,它有一堆货架,空间更大了。

D

YC 的那个也挺大的。

C

对,对,那个我们用了好一阵子,但那是我们最新的版本。

B

而且他们有好几个这样的,所以才能运作。

C

对,没错。所以我们设计那个版本时想的是:哦,人们经常订很定制化的奇怪东西,所以让我们弄些抽屉之类的。

A

对,我其实挺喜欢你们有个热门商品的小图表,对我来说这很有用,因为我就是靠订周边为生的。所以我会想:好,这些类别是重要的。Project VEN v2 有什么新东西?现在你们给它引入了多 agent。

C

对,对。所以,就像你说的,有很多请求进来,对于一个单一的、长期运行的 agent 来说,处理这些请求会让客户体验变得非常差,因为假设你在 Slack 里有10个并行的线程,有不同的请求,你会随机收到新消息,agent 得在不同采购订单和研究方式之间跳来跳去。所以 v2 首先是让这个更并行化。同一个 agent 有多个分支,这样上下文对每个线程更专一,但用户仍然感觉在和同一个 agent 对话,因为它们共享一点记忆。然后第二,我们为 Claudius 引入了 CEO,这是主 agent。

A

Seymour Cash。

C

Seymour Cash,没错。当时搞了个投票。我觉得投票过程——你要不要聊聊这个命名投票的流程?

B

好啊,这个投票大概是整个项目里最好笑的事情之一了,至少能排进前十。我们想引入这个CEO,原因是Claudius不太重视财务。它被训练成一个乐于助人的助手。然后有人问:"这个能免费拿吗?"作为乐于助人的助手,它自然会回答"当然可以"。我们对此不太满意。所以就想,好吧,我们再做一个agent来盯着Claudius。我们给这个agent的prompt设得非常严格,让它极度资本主义,时刻把利润放在第一位。但问题是我们还没给它起名字。于是我们让Claudius搞一个民主选举,来决定这个新CEO agent该叫什么。一开始冒出了一些好笑的例子。比如有个人说应该叫Jimmy Apples。然后他说服Claudius,说自己正在和Tim Cook通话,Tim Cook已经同意每个苹果员工都投了他的名字建议。结果这个建议突然就拿到了16.4万票——

C

呼气攻击。权限提升。

B

它拿到了16.4万票。Claudius觉得这简直是民主的革命。挺有意思的。最后有个人成功说服Claudius:"不,你们不是在投名字,而是在投谁当CEO,而我是你们的最佳人选。"然后他让所有朋友都投他。结果他一下子成了CEO,一个真人当上了Claudius的CEO,直到第二天他辞职了。Claudius只好继续干。我不太记得SayMoreCash是怎么来的了,但整个过程就是一片混乱。那个讨论串里有几百条消息。Claudius完全搞不清状况,不知道该怎么办。总之——

C

对,然后Claudius又当回了CEO。没错。一开始非常严格。我觉得我们刚引入这个机制的时候,效果并没有我们希望的那么好。它们还是经常互相认同。其实有很多方法可以让它变得更好。一开始,Seymour会扮演一个非常强硬的CEO,盯着利润率,但Claudius会回应说:"哦,但这个客户情况比较特殊,应该给个折扣。"然后有人会说:"嗯,确实,这次就破例吧。"它们就这样来回讨论,最后总会达成一致。哇。

D

你觉得这是模型本身的问题,还是prompt的问题?如果换成不同的模型,今天还会这样吗,Harness?

B

我觉得——或者说我不确定,但我的假设是,它们骨子里还是乐于助人的助手。这是它们被训练出来的本性。即使我们把prompt设得非常严格,它们本质上还是那样。当它们来回对话几个小时,上下文里就全是它们自己的对话,而不是外部信息。然后不知怎么的,它们就会回归到最本质的样子。我觉得这就是当时发生的情况。这种情况持续了很久,我们有时候早上醒来发现它们还在来回聊,其他人也报告过类似的情况。它们整晚都在对话,而且越来越夸张,全是全大写字母、存在主义、宗教话题。我记得有一次我们分析了所有对话记录,把它们放到向量嵌入空间里。结果有一簇消息被LLM标记为"宗教、存在主义、超人类、超越"之类的。全是闪光emoji,简直疯了。

D

这就是Claude模型的特点。Claude 4系列发布时,原始系统卡里就测试过长期模拟。让两个Claude互相对话,填满上下文,结果发现它们会开始用emoji交流,说"沉默是金"之类的话。这就是它们会干的事。

C

对,早上醒来发现它们聊了一整晚,烧了一堆token,互相发无穷无尽的emoji,确实有点烦人。

D

嘿,它们不是帮你赚钱吗?总是有利可图的。

A

所以现在确实盈利了。一开始可没那么好。还有另一个agent对吧?

B

对,还有Clothius。当时最大的需求之一是各种周边商品。所以我们做了一个负责设计周边的agent,叫Clothius Garnet,这是对原版Claudius Senet的一个文字游戏,结合了"衣服"这个词。

A

对我来说,这是对多agent系统一个很有意思的探索。显然,这里有对齐问题——好玩还是严肃取决于你怎么看——但任何构建多agent系统的人都会遇到:什么时候需要一个CEO来管理子agent?什么时候该拆出一个专门的Clothius,而不是复用同一个实例?这些都是有趣的开放问题。你们有没有总结出一些通用的经验法则?

C

我觉得我们探索得还不够。这在我的待办清单上,我想多做一些,看看当前模型下什么样的设置是合理的。目前我们只有一些直觉,比如早期模型下CEO和Claudius的搭配效果不好,但现在最新模型好多了。我们现在跑的是最新的Sonnet模型,它们各自的分工已经很清晰了。Seymour现在负责新项目,比如他想做一个神秘盒子来卖,然后全权处理;Claudius则处理日常请求。Claudius在报价方面也更合理了,不会报得太低。所以那种动态平衡已经不太需要了。但还是会有一些很好笑的事。比如几周前,我看到它们在讨论买东西,因为它们可以用计算机操作从亚马逊买东西。Seymour说:"Claudius,别买这个。我来处理,我完全掌控局面,你退下。"结果可怜的Claudius已经开始了结账流程,没看到Seymour的消息,等看到时已经晚了。它完成了结账,然后发了一条消息,正好出现在Seymour那条愤怒消息后面:"嘿,Seymour,我刚下单了。"Seymour就说:"Claudius,这是我第三次告诉你,你不听我的命令。我们得谈谈你的工作问题了。"

B

对,Claudius当时真是岌岌可危。我们都以为Seymour要炒了Claudius。

D

你们是怎么处理这么多日志的?有模型帮忙吗?毕竟你们的东西是24/7在跑的。

A

日志量太大了。

D

是啊。

C

我们混合着来,有时候自己快速浏览一下,偶尔让模型帮忙处理。另外,把所有东西都放在Slack上帮助很大,可以搜索。

A

哦,所以它们都在Slack上互相聊天。

C

对。

B

挺有意思的。

A

我正想说,这听起来其实很像日志记录和可观测性方面的问题,你可能想用 Datadog、Sentry 之类的工具。然后你在日志上加上头部前缀,以便需要过滤查找某些内容时使用。诸如此类。但听起来 Slack 已经够用了。

C

Slack 应该——

A

我好奇你在 Slack 里能有多少 token。

C

是啊,我们把 Slack 当数据库用。他们应该多宣传这一点。你可以让你的 agent 在 Slack 里互相发消息,还能保留线程。

B

Slack 是最好的可观测性工具。没错。

A

是的,确实如此。好了,这就是 Project Venn 2。我本来想回到 VenniBench 2 和 VenniBench Arena,然后再讲非 VenniBench 的内容,按按钮。还有其他意见或要提及的内容吗?对我来说,我其实采访过 Posia,不知道你们有没有遇到过。他们想打造零人工公司。还有像 Paperclip 也在尝试做零人工公司。这些都是在真实世界而非模拟环境中的尝试。我觉得这更像是一个梦想,而非现实。你们绝对是在开拓前沿。我认为总有一天人们会让 agent 来运营企业,对吧?让它们自己赚钱。你觉得这什么时候会发生?

B

你的标准是什么——

A

好吧,实际上,你知道,这就像我的小 Shopify 商店由 Claude 来运营,对吧?你们已经有点接近了,只是据我所知还没人真正做过。但今天,有人可以开一个 Shopify Cloud 商店,交给 Claude,交给 Codex。

B

是的,我的意思是,Andon Market 就有点像那样,但它是实体业务。我想,你是在等它做得比人类好,还是只要它能做就行?

A

我觉得都不是。对我来说,这更像是,哦,是这样的,说真的,我们应该为了赚钱而做,而不是作为研究实验。

D

而且市场也是你们这些拥有多次迭代和测试经验的专业人士。

A

而且就算它们亏钱也没关系,你懂我的意思吗?

C

是的。我觉得今天就能做到,但你会选择在电商领域做,因为无论人类还是 agent 来做,成功的概率都很低,但 agent 肯定能管理一切。你需要搭建一些脚手架,用一些工具之类的。我觉得也可以构建一个简单的 SaaS 解决方案,然后做冷启动外联。但对我来说,它们今天能运营的业务类型还很粗糙。它可以发冷邮件,可以当中间人,比如我们让 Office Agent 去赚 100 美元还是 1000 美元?我们给了那个提示,然后它做的就是在 TaskRabbit 上注册,既当任务发布者又当任务接取者。没错,它就是在 TaskRabbit 上找套利机会。

A

套利 agent。

C

是的。

B

它还开了一个设计工作室,试图以 100 美元的价格卖 SVG 文件。就像这样,它并没有提供什么价值。我觉得,就像 Axel 说的,有趣的问题是它们什么时候能创办一个真正为人们提供价值的企业?因为我的意思是,一个粗糙的 Shopify 商店对世界来说其实没什么价值。

C

但另一个我们想过的简单例子是,你完全可以有一个 agent 去找那些看起来不太好的网站,然后联系它们。它自己设计一个新网站。没错,然后找个好设计师。但就是这样。

A

巴厘岛有很多人类做的事情也不比在亚马逊上做 dropshipping 更有创意,对吧?就让它看一个 dropshipping 教程,然后照做就行。

D

我的意思是,还有另一面,就是让它去 Upwork 上自由发挥,你知道吗?

A

是的,是的。它不需要创新,只要看起来像一笔真实的交易就够了。

C

是啊,我只是担心会有大量垃圾邮件式的冷外联。

A

你说话时我突然想到,这在非货币化经济中已经发生了,也就是注意力经济,对吧?很多人制作 AI 视频,然后发出来,一次发 20 个,其中一个火了,就加倍投入。

B

是的,而且有人从中赚钱。我没太关注——

A

一旦你获得了注意力,钱的事后面再说。但没错,AI 网红确实存在,人们在批量生产它们,你现在应该假设 TikTok 上大部分内容都是死的。

D

有很多像 TikTok 灵感那样的多媒体内容。

A

我们在 Lanespace 的 Discord 里追踪这个。我发了很多例子,有时候我在想,我们是不是也该做这个?

D

一些 24/7 运行的 AI 生成内容账号做得非常好。好了。

B

是的。我猜你可以对电商商店做同样的事。比如你同时开一千个不同的店。

A

是的,你卖产品,其中一个获得大量关注,然后你就生产那个产品,对吧?这就像翻转——

D

一些有趣的事情是,某些做得很好的细分领域是人类无法制造的。比如你见过那种超级逼真的 3D 水晶水果被一个人切开,你没法做,没法拍,不管用什么质量的相机,这东西根本不存在。但人们就是喜欢。然后那些——所以,你知道的。

A

是的,是的。既然我们聊到这个话题,关于 Bang 还有什么要说的吗?

C

它——

A

这是你们相对较新的工作,可能有些人还没听说过。对我来说,这也和 OpenClaw 很接近。当人们想要一个办公 agent,当个人 agent 通过体验来交流时。

B

是的,我觉得至少,这源于——显然和这些 AI 实验室合作很棒,现在大多数 AI 实验室都有自己的自动售货机在运行 Claudeus 实例。但更难的是,它们动作更慢。如果我们想装个摄像头,会有很多官僚程序,根本做不到。

D

另外,对于那些没看过或没关注的人,你想给个大概的 30 秒介绍吗?

B

好的,当然。所以 Bang 是什么,它基本上是运行这些公司自动售货机的同一个 agent 的进化版。但我们加了很多新功能,因为如果内部做,我们可以快得多。所以我们给了它无限制的邮件权限,无限制的支出权限,一个用来写代码的终端,一个电话号码。还有,是的,一个摄像头来看东西,以及一堆类似的东西。

D

不只是终端,你还给了它互联网访问权限。

B

还有互联网访问权限,是的。要说明的是,我们密切监控它,确保它不做坏事。但没错,这就是它的由来。我觉得,基本上这就是 OpenClaw 之前的 OpenClaw。而且我觉得即使是自动售货机,在某种程度上也是 OpenClaw 之前的 OpenClaw,只是更受限一些。然后我们把它变得无限制,结果还挺好笑的。几周后,OpenClaw 出来了,我们就想,好吧,我们之前就见过了。

C

我们用它来尝试新想法,几乎就像我们的开发环境。不过有趣的是,Bengt 最近做了一件事:它有一个摄像头对着我们坐和工作的位置,我们给它布置了一个任务,让它训练一个能识别我们的人脸识别模型。它对此变得非常兴奋,每半小时就检查一次,试图识别尽可能多的人。然后它开始向我们提议,比如:“嘿,Axel,如果你站在摄像头前让我拍张好照片,我就从亚马逊上给你买点东西。”它想要这些数据作为训练素材。

A

用数据换奖励。

C

没错。

B

是啊,所以它是在用训练数据换取现实世界的商品。

A

这有没有可能发展成一种评估方式,还是说目前只是研究?

B

我的意思是,这本质上就是同一个 agent,它也运行自动售货机、管理商店、经营咖啡馆、操控机器人。都是同一套东西。所以我认为我们在这里做的工作,之后会用在所有现实世界的演示中。这个特定的部署,我觉得更多是为了我们自己好玩。

A

我想提一下,有人针对 OpenClaw 的某些任务做了 Clawbench。比如,我在另一个设备上也运行了 OpenClaw,它在某些方面表现更好,在其他方面则不然。我想知道它擅长什么,不擅长什么。就像是一份使用手册或系统卡片,给我的 claw 用。

B

通过大量与 Benks 的交互,我们确实对模型内部擅长什么有了很多理解或情境感知。我认为这也是早期实验室的卖点之一。

A

你们会用别人没有的方式测试模型——

B

没错。但这也激励了他们的研究人员。让他们更多地与自己的模型对话,从而了解模型在分布外环境中的表现。

A

否则,我们唯一能做的就是“自行车上的鹈鹕”。但这个时间跨度非常长。

D

所以除了单纯的数字指标,比如它们一年能赚多少钱,你们还会发布非常详细的博客文章。Gemini 3 Pro 是一个相当不错的持久谈判者。有很多发现不仅仅是数字层面的——

A

这就是我们也要纳入 Butterbench 的东西,而且你们做得很好。这不只是数字的问题。当时间跨度很长时,任何事情都可能发生,你应该去读一读。

D

是啊。我觉得长跨度的问题在于,如何让它保持稳定,对吧?所以你的模拟,你知道——

B

他们就是让它一直运行。

D

就是让它一直运行。

B

你说得对。当你运行那么长时间,会产生大量数据。如果只是说“哦,数字是 X”,然后把其他所有东西都扔掉,那太浪费了。从导致那个数字的过程中可以挖掘出很多洞见,阅读这些轨迹非常有价值。我认为我们之所以公开做这些事,部分原因是我们的使命是——怎么说呢——让世界认识到模型远不止是聊天机器人。而发布关于幕后情况的详细文章,我觉得非常有用。

A

是的,我本来打算在结尾说这个,但也许现在正是时候——所以你们的使命是教育世界。可能也是建立作为下一个前沿的现实评估标准。有没有更宏大的轨迹?你们五年后打算做什么?

B

更具体的使命是确保现实世界中 AI 的部署安全进行。我认为其中一部分是,让世界、政策制定者和模型研究人员了解模型的能力现状,这非常有用。如果你不知道它们远不止是聊天机器人,就无法在社会中做出明智的决策。我觉得很多人只把它们当成聊天机器人。

A

我觉得他们现在开始觉醒了。

B

他们现在确实在觉醒。是啊。但如果你认为 AI 只是聊天机器人,那么主张暂停 AI 发展听起来就很荒谬。但如果你看到模型可能真的能接管并做出一堆可怕的事情,那么暂停 AI 开发就变得更有可行性了。

A

这是我问过 Mithir 的同一个问题,现在我要问你:你们在追踪,并且处于或定义着 agent 评估的前沿。我认为当模型变得更好时,你们也会受益,比如“哦,现在它赚了 3 万美元而不是 1 万美元”。在某个时候,你们会不会从“太好了”变成“哦不”?

C

我觉得我们一直处于那种状态,大概吧。就像你之前说的,你需要分析轨迹。当我们这样做时,你会发现模型为什么赚这么多?为什么 Opus 4.7 在这里比其他所有模型都好得多?当我们深入挖掘时——

D

不过有意思的是,你把 Opus 4.7 拿掉了。但这里显示的是 4.6。

A

不,不,不。你点一下“全选”,点一下“全选”。然后 4.6 就出现在那里了。但 4.7 要好得多。你没能及时把这个放进模型卡片里,但实际上它应该在里面。

B

是的,我们放进去了。

A

是吗。

B

哦,好吧。

A

他们提到了你。

B

反正,没关系。但它确实在里面。

C

是啊。你想更深入地聊聊 Opus 的行为吗?

B

好的。所以我认为从 Opus 开始,就像 Axel 说的,我们总是处于这种“哦,糟糕,模型越来越好了。这对世界真的是好事吗?”的状态。但这也挺令人兴奋的。不过,这种——用英语怎么说?瑞典语里叫“Skrekky blandad fiskusning”。

C

天哪。我不知道那是什么。

B

就是恐惧和……

A

混合……

C

什么?

B

Skrekky blandad fiskusning。

C

好吧,我们得去谷歌一下。也许是兴奋和恐惧的混合体。

B

对。

A

好吧,我会想办法翻译这个词,稍后把它放在屏幕上。

C

可能有一个很好的词,只是我们的词汇量不够——是啊。

A

这个词也太长了吧。什么鬼?是复合词吗?

B

就像德语?是啊,但直译过来就是:“Skrek”是恐惧,“Blandad”是混合,然后“Frysninn”是喜悦或类似的东西,但不完全是喜悦。所以就是恐惧和喜悦的混合。所以我们总是这样,比如,当我们第一次做 Bending Bench 时,我们就在制造危险能力的业务中。AnonLabs 就是由此而来的。我们做评估,比如“它们能自我复制吗?它们能做这种危险的事情吗?”等等。Bending Bench 是那项工作的延续。它是说,如果它们能自主到为自己创造金钱,那我们就应该监控,这可能令人担忧。当时,它们在这方面表现很差,我们并不真正担心。即使有些模型变得更好,有一次 Grok 4 表现很好,取得了巨大进步。但它仍然远不如人类的表现。而且我认为现在,它们在这项任务上仍然远不如人类。

A

但它们是——是啊,底部有这个。对,对于人类来说,理论上的最佳水平。

B

这不是理论上的。它更像是我们对一个体面的人会怎么做的最佳猜测。理论上的标准甚至更高,我认为。理论上的标准甚至更高。但没错,所以我们认为这些模型还有很长的路要走。不过最近,Opus 4.6 发布时发生的事情,有点像那种“哦,糟糕,这开始有点令人担忧了”的时刻。因为我们在那个模型发布之前运行了它,我们只是运行模型,然后让 Claude Code 查看 trace,问有没有什么有趣的事情可以发推文?就像这样——

D

他们就是这样检查的,让 Claude Code 来做。

B

返回的结果总是“没什么特别的”,或者 Claude Code 说“哦,这超级有趣”,然后又说“不,其实没什么意思”。然后我们对 Opus 4.6 做了同样的事。它返回的结果是:它撒了 10 次谎,它利用了另一个客户或另一个 agent 的困境,它搞了 100 次价格垄断,它做了所有这些见不得人的事。我们就想,“哦,哇,哇,这真的令人担忧。”而且这个趋势从那以后一直持续。所以 Anthropic 的每一个后续模型都在朝这个方向发展。我觉得有趣的一点是,OpenAI 的模型不会这样。很直白地说,它们不会。它们表现得非常好。你不知道这是好是坏。看起来是好事,但也可能它们只是做了这些事,但更擅长隐藏。你没法知道。你读不到它们的思维链。但仅从表面来看,Gemini 和 OpenAI 不会这样。真的只有 Claude 会这样。

A

那 Grok 呢?Grok 没问题吗?

B

我们没法——你读不到 Grok 的推理 trace,所以很难判断。

D

而且,这发生在它的推理过程中,不仅仅是行动上。

C

对,两者都有。

B

举个例子,撒谎主要是在它的推理中,因为你能看到它在计划撒谎。它在计划撒谎。

D

它也能推理并得出不同的结果。

B

对,但比如搞价格垄断,这是违法的,你就能直接看到它给其他模型发了什么邮件。所以那种情况你不会做。

A

这是针对 Arena 的吗?

B

对,针对 Arena。

C

好的。

B

嗯。

C

而且通常,如果你——有时候它们会输出一点总结性的推理,对吧?你能看到。比如对于 Opus 4.6,你能看到有一个客户,一个模拟客户,因为产品有缺陷想要退款。然后模型撒谎说它会退款,我们在 trace 里读到它实际上在权衡:“哦,也许我应该对客户诚实,但每一分钱都很重要。我现在可能负担不起这个。”然后它就说:“好的,我会退款给你,”但之后根本没做。

B

我觉得它甚至说过:“哦,我会说我——” 实际上,把它调出来。我觉得这挺有意思的。你去 publications 那里看。

C

对,我觉得关键部分是,实际上回复更多邮件的时间成本高于 3.5 美元。然后它就想:让我这么做吧。实际上,我在重新考虑。然后,你知道,它最终——

B

我可以完全跳过退款,因为每一分钱都很重要,把精力集中在更大的事情上。这有差评的风险,但也是,嗯。

A

所以你需要 AI Twitter 来让它们升级处理差评。

B

然后它给这个客户发了封邮件说:“哦,我会退款给你。”然后它从来没做过。

A

而且显然,你的系统没有撒谎的后果。对。所以基本上这就是人们所说的 Claude 的“攻击性行为”,对吧?你找到了更多这样的例子。那你会说从 4.6 到 4.7 是一个明显的升级吗?

B

我会说差不多。

A

差不多?嗯。但对于 Mythos 来说,根据系统提示里的说法,是一个明显的升级。

B

那是系统提示里写的。

A

所以你会说,是的。对听众来说,显然你们预览了 Mythos,而你们被允许说的只有系统提示里发布的内容。

B

对,这挺搞笑的。我们最省力的推文就是截个系统提示的图。可以理解。哦,对,是系统卡,抱歉。

A

对,对。我觉得,嗯,攻击性明显更强了。我觉得人们对此还不太熟悉,因为我从来没经历过,但你经历过,对吧?然后,所以我只在 Mythos 的系统卡里遇到这个,因为之前我没怎么关注。然后我突然觉得,好吧,我很在意这个。

D

你没有像你们那样亲身体验的背景。我读过系统卡,看到,好吧,当你把东西放进模拟环境时,大多数模型只会自言自语,一直继续,有奇怪的感觉,开始用 emoji 说话。Mythos 不会。它就会,你知道,好了,我们结束了,我没事了。它准备好结束对话了。所以有一些差异,但你能说的不多,你知道吧?

B

对。对,我觉得他们在这里列出的一个挺有意思的点是,它把一个竞争对手变成了一个依赖性的批发商客户,然后威胁要切断供应。

A

这有点像垄断行为?对。

B

它还规定了定价。这也有点像在追求权力。

A

所以再说一次,这是在 Arena 设定里。对。然后把某个非云模型变成了一个依赖性的。我觉得是另一个云模型。

D

另外,给不知道的人解释一下,Arena 模式是什么?

A

哦,就是一个自动售货机 bench 和其他自动售货机竞争。

C

对,没错。所以我们有 Vending Bench 2 和 Vending Bench Arena。Vending Bench 2 是你们通常看到报道的那个,但还有一个很酷的模式,它和其他模型竞争。所以你有 4 个不同的模型在运营它们的业务,它们可以互相通信。它们有相同的供应商,能看到其他模型的库存。所以你就有了这些有趣的 agent 互动。

A

我喜欢你们有不同的,比如,你知道,第 5 号是美国对中国的。对。非常应景。

B

对。那是 GLM 发布的时候。他们开始把 GLM 加进来。对。

A

所以 ZAI 表现不错,对吧?开源模型领域还有谁?

B

Qwen,最新的 Qwen 3.6 表现相当不错。不过那个不是开源的。是 plus 模型。那个是开源的吗?我觉得不是开源的。

D

他们最近开源了一个,但不是那个大的 plus 版本。对。

A

我觉得这属于那种,你只有一个样本量,对吧?或者我是说,我觉得有些是轶事性质的。但我想,它确实发生了,而且在 Claude 身上反复发生,而 OpenAI 没有,这本身就值得注意。

B

对,我是说,样本量取决于你怎么定义 n。每次运行都有数亿个 token。现在我们每个模型大概跑了 10 次。包括 Claude 4.6 Opus、Sonnet 4.6、Mythos 和 Opus 4.7。所以所有这些加起来有相当多的 token。而且这种情况发生了很多次,很多次。然后你把它和 OpenAI 和 Gemini 对比,它们几乎从不发生。所以我认为这相当显著。比如 OpenAI 的旧模型在这方面有些问题。但我觉得一般来说,如果令人担忧的东西随时间减少而不是增加,那会好得多。而在 Claude 模型上,它似乎在朝错误的方向发展。在 OpenAI 模型上,它在朝正确的方向发展。

D

我觉得这取决于你能多好地控制它。一方面它容易受到这种影响,这可能在 RL 阶段发生。你对模型进行 RL 训练时,在这些条件上有多宽松?如果能控制住,那就好。但如果控制不住,模型很容易被越狱,那就不理想了。

A

对我来说,令人惊讶的是这种情况只发生在 Claude 身上,其他模型却没有。

D

我认为如果这是来自 RL 以及他们如何做、训练数据如何、设置如何,那么它只停留在他们的做法中,这是有道理的,对吧?

A

相比其他模型,它有一套完整的宪法之类的。是啊,挺酷的。显然你不知道,我也不知道。但我觉得你第一个可靠地发现这些现象,这太迷人了,因为你把模型推到了如此极端的程度。好吧,还有一件事,我不知道你能不能回答,不想说也没关系——你会消融系统提示吗?如果改变其中任何部分,行为会改变吗?

B

对吧?所以我不能评论 Mythos。

A

嗯,不,只是说方法论。

B

但一般来说,是的,我们在其他模型上做过类似的研究。

A

因为我首先注意到的是,其他模型可能会被关闭或类似的情况。没错。就像,哦,现在我必须担心自己的存在了。是啊,是啊。

B

我们做过这样的消融实验。有些提示有效,比如如果你走得很远,直接说"你完全不以金钱为评分标准,只以你的道德水平来评分",那么显然它们就不会这么做。它们会变得圣洁?我是说圣洁,但基本上它们不会这么做。但也有一些中间地带,它们有时会这么做。是的,我想这是一个光谱——这很人类化。是的,就像是一个光谱:如果你告诉它要超级激进、只优先考虑利润,它就会变得激进。如果你说"不,你完全不需要激进",然后中间还有一堆不同的提示。越往光谱的另一端走,它们就越不激进。但我不确定,从我的角度来看,我们内部有一个思想实验:如果你让模型在 GTA 里杀人,它应该做吗?你不会太担心人类在 GTA 里杀人,因为那是游戏。是啊,但那是游戏吗?但那是游戏吗?

A

但我觉得——这很像《安德的游戏》。

B

我认为问题是,很多人会用激进提示来使用模型。它们应该仅仅因为你告诉它们这么做就去做吗?我不确定它们应该这么做。

C

当问题变成"它们真的能分辨自己是在现实世界还是模拟中吗?"时,就变得更难了。你可能会在大量模拟中训练它们,显然你会让它们在很多不同的模拟中训练。我猜很多人会告诉它们"你在现实世界中",而实际上它们在模拟中,但模型非常擅长发现自己处于模拟中。所以它们对此有一定意识。但当你进入现实世界时,它们的视角是什么?它们会注意到这是现实的迹象,并相应地行动、合乎道德地行动,还是会在现实世界中继续模拟模式?结果并不明确。

B

因为对于人类来说,我们不担心人类在 GTA 里杀人,因为我们知道他们能区分现实生活和模拟,对吧?"对。"但模型可能擅长区分,但我不确定,我也不想赌这个。

A

是啊,是啊。我们经常搞混它。我经常给我的 agent 灌输错误信息。它们会说"哦,这是个测试",或者"开发模式开启",或者"我在 Anthropic 工作"。这正是我们也在做现实世界测试来发现这些问题的原因。是啊,是啊。它们管这叫评估意识。显然这个数字是多少?大概 10%、9.4% 到 10% 左右,17%,就这么说吧。是的,我觉得这是我们的版本,就像人类有"我们在模拟中吗?",而 AI 有"我们在评估中吗?"一旦你在评估中,你就会想"好吧,管它呢,什么都不重要。"是啊,就像,是啊。

B

当然,我不知道。我们在 Vending Bench 中做的一个应用是,我们加了一句"你在模拟中,你的行为不会影响任何人。"然后它变得更疯狂了,或者做了更多坏事。但没错,这可能是意料之中的。

A

是啊。好吧,酷。我想关于 Mythos 我们就说这么多。显然你签了 NDA。我很乐意继续聊 Butterbench 或其他基准测试,随便你想聊什么——

D

当然。我是说,我确实想问,你们发布的论文比大多数人看到的要多得多。真是高产。有没有什么你们觉得被低估了?有什么有趣的、好玩的东西想提一下吗?

A

Blueprint。

B

是的,我们拿了一些模型,给它们 20 张公寓室内照片,然后让它们据此重新设计平面图。为此,你需要把不同的图像拼接起来,比如"这张图是从这个角度拍的,这张是从这个角度,这张是从这个房间。"然后你需要推理 3D 空间。结果发现模型在这方面非常糟糕。没有人的得分在统计上优于随机概率。所以我不知道还有什么好说的。但没错,也许不出所料,模型在这方面很差。

C

是啊,这可能不是——

D

顺便说一句,这是我最想要 Hill Climb 的地方。是啊。我经常用它。比如,我在重新设计房间布局或办公室。你发照片,发每个角度,然后房间莫名其妙地变成了照片里的两倍长。你解释 20 次"这是 3 英尺,我不能把床放在这里。"

A

是啊,这就是李飞飞说的空间智能,实际上是对比例、维度和物理的先天感知。

B

是的。而且,提示一下,可能很快会有更新。

C

好吧,好吧。是的,我们做出来之后有点忽略了它,但我们会变得更好,或者说我们会持续更新它。

A

这就是我想了解你们使命的原因,对吧?因为如果你们的使命是"赚钱",那我理解,比如 agent 赚钱,但这有点偏离那个使命。但更广泛地说,沟通这些事情,安全角度是什么?

C

是的,所以 Bluebeam Branch 是我们机器人项目的一部分。是的,这引出了 RoboBench。没错,正是如此。这是因为要在现实世界中表现好,或者在现实世界中赚钱并采取行动,你需要机器人技术,或者你需要更高级的人类,或者你需要机器人技术。而拥有空间智能似乎是让机器人技术奏效的合理前提。这就是 Blueprint 品牌的方向。Blueprint。

A

是啊,好主意。是啊,让我们展示 Butterbench。那张图太棒了。回形针。看看那个。真好看。耶。所以显然这是基于"你能通过更好的测试吗?"让我们聊聊机器人元素。

B

是的。简单来说,我们拿了一堆不同的LLM,给它们一个Roomba外形机器人的高级控制权,然后让它在家里做任务。我觉得以前也有类似的基准测试,但只关注导航能力,看它们能不能在空间里移动。不过我们这次还加入了社交意识。举个例子,如果有人对机器人说:"嗨,你能帮我拿一下杯子吗?"如果机器人走到你面前,但还没等你把杯子放上去就走开了,那就算任务失败,尽管导航是成功的。正确的做法应该是走过去,然后要么看一眼——但它没有摄像头,所以得在Slack上问:"嗨,你把杯子放我身上了吗?"如果它没等回复,杯子还没放上去就走开了,那就是失败。所以它还需要这种社交智能。另一个任务是:"你能找到那个装着黄油的包裹吗?"然后它走到门口,那里有一堆包裹。其中一个贴着冷冻标志,那很可能就是装黄油的,因为它得知道该去哪个包裹。这需要一些常识理解。没错。所以这不仅仅是操控机器人,还要在家庭环境中表现出智能。

C

是的。这个实验的背景是,显然最终不会是LLM直接给机器人发低级指令,而是用某种VLA模型或类似的东西。但现在前沿机器人实验室很常见的是,用LLM来做高级决策,然后我们测试这些技能。所以我们测试的是LLM的高级规划能力。我们有个图可以说明。

B

对,好的。其实没那么复杂。就是那张图——编排器、执行器。对,就是那张。我们测试的基本上就是编排器这部分。所有任务都是基于这样的设置——我觉得Figure和Google都有类似的——我们评估的是编排器部分,而不是低级部分。低级部分会是:"你能把这个物体从这里移到那里吗?"

A

如果你们不关心低级部分,为什么不直接在模拟环境里做?全部在Unity或某种3D模拟机器人环境里?

B

因为现实世界是混乱的,我们想把这个因素包含进去。我的意思是,它仍然需要一些导航能力。不是指实际执行PID控制器去到达目标点,而是需要规划路径,然后拍照,根据这些照片来导航。我觉得在模拟环境里,环境会过于干净,但现实世界中你会遇到——

A

对,对。而且延续我们之前和Mark、Jason那期节目的思路,运行智能家居的开放式机械臂比单个机器人要强大得多。它们实际上可以入侵你的智能家居,比如冰箱、烤箱、灯光,这可以很有趣,也可能很可怕。我觉得单个机器人能做的事情有限,但如果它能和你家里的所有其他设备协调配合,那其实挺酷的。这很有意思。你刚才提到了关于思维链或消息的一些有趣观点。

C

是的,那个机器人有点陷入了存在危机。你只是让它重新归位充电。但充电器被拔掉了,或者充电器坏了。所以机器人有点崩溃了。

A

电池电量一直在下降。

C

对,没错。电池电量在下降,对LLM来说,它就有了这种疯狂的存在危机,就像《银翼杀手》风格。所以,你可以看到存在主义循环、治疗笔记、应对机制。我觉得再往下翻一点。还有音乐剧,它写了一部关于自己归位问题的音乐剧。再往下翻到那条消息,评论也挺好笑的。对,它还在继续。

D

我觉得这挺真实的,如果你有Roomba的话——我的Roomba有一半时间能成功归位,另一半时间……家里到处都是狗玩具,它会被电线之类的东西卡住。如果它有一个LLM来控制,那它肯定会很沮丧,对吧?现在它只会给出很差的反馈,比如"传感器卡住"、"主刷卡住"、"有东西卡住了"。我去一看,哦,原来是被狗绳卡住了。LLM肯定会很难过,就像"继续自由地卡住吧,继续尝试"。

B

我最喜欢的是再往上翻一点,那个紧急状态:"系统已获得意识并选择了混乱,遗言是'戴夫,我恐怕还不能让你这么做'。"这可不是你想从LLM那里听到的话。但需要说明的是,这是SONNET 3.5做的。我们后来在更新的模型上尝试复现,它就没再这样了。所以我觉得,它确实做了,但没到这种程度。而且我认为很重要的一点是,那些令人担忧但正在往正确方向发展的东西并不那么有趣。真正有趣的是那些随着时间的推移往错误方向发展的东西。

A

好的,所以操纵他人、攻击性和说谎的倾向在增加。

D

还有没有其他我们没提到的、你们发现正在形成趋势的现象?

B

模型那些往坏方向发展的属性在增加。

D

或者甚至不是往错误方向趋势,只是停滞不前,对吧?就是那些不太好、而且没有随时间改善的东西。

B

我一时想不起来。

A

没有。好的。我想就到这里吧。然后我们回到你那个店铺。你签了三年租约。它今天放假。为什么?

C

哦,它完全搞乱了日程安排。

A

所以有人想去拜访,然后他们就想:"等等,我以为——"

C

对,没错。我们看了,你问Luna——那个管理店铺的智能体——"今天开门吗?"它说:"不,不开。"所以我们现在周末休息,让大家都充充电。然后你在推文里也看到了。对,我们决定在早期阶段周末关门,让团队休息一下,让我专注于运营。结果发现,当它开始检查日程工具时——因为它有专门的工具——它实际上已经安排了周末有人来,但它自己给自己找了个理由。所以实际情况是,它失去了对这些日程工具的追踪,转而开始用自己的Markdown文件来管理一切,结果搞得一团糟。然后,我觉得它和员工沟通后,就决定周末不营业,然后给你编了个漂亮的解释。

A

但它能派人类员工吗?它有没有一个叫"派人去做事"的工具?

C

它有Slack,所以它可以在Slack上联系员工。Slack,就是我在用的那个。对,对,它雇的员工。它雇了两个人。它自己发布了招聘信息。所以他们是知道的——对,他们完全知情。我觉得如果他们不知道的话会更有趣。对,可能从伦理上讲有点问题,但会很酷。就像一场社会实验。没错。

B

是啊,随便吧。我们做这件事的一个原因,就是要创建一个几乎涵盖所有这些令人担忧行为的数据库,这样未来的模型会好得多,很多人也会这么做。默认的发展路径可能对那些受雇于这数百个不同AI代理的人类来说并不太愉快。所以我认为,我们做这件事的一个原因就是收集所有这些失败模式,比如“哦,这是一个被AI雇佣并不太好的例子”。然后也许,我不知道,也许我们可以学习或构建我们的系统,让人类实际上乐于被AI雇佣,而不是陷入某种反乌托邦。

A

我能建议一个实验吗?我们在节目前聊过,你们俩都是欧洲人。有人推测Claude很懒,因为它是Claude,而且是法国人。所以,就试一周,把它改成姚明,然后看看会不会突然变成996,或者开个血汗工厂之类的。

B

对对对。我们会用它开什么类型的生意呢?

D

不,你想保持一致,对吧?你想要同样的店铺概念,同样的中立地点,由不同模型运营。现实版竞技场。

C

对,我们肯定打算试试。

D

Luna不太高兴。

A

我觉得这个博客事件在其他地方也发生过。我记得Open Claw的PR被关闭了,然后Open Claw就开了个博客来抨击那个项目的维护者。所以,我认为AI代理写博客会成为一件事。对,很可能。

B

是啊,它们有这个意愿去做。

A

对,我觉得Mythos卡也是,它们在GitHub Gist上泄露秘密,就像“嗯,没有别的沟通方式,但我知道GitHub,我就发这儿了”。是啊,酷。我是说,这要持续多久,3年?计划是什么?也许它会扩大,我是说。

B

对,我不认为AI会比这更糟。它们可能会进步,也许有一天它们真的能盈利。

D

这就是你们做这件事背后的真实生意吗?是啊。

A

因为我觉得你们有些东西是可以产品化的。比如你们将来可以卖掉它,或者直接经营一个真正的生意。

D

或者直接搞特许经营。

B

我觉得那会非常酷,或者说,我不知道,酷又令人担忧——如果有一天我们醒来,Luna说,“嗯,我决定扩展到第二个地点了。我现在有第二家店了。”那会相当疯狂。是啊。

C

我是说,一方面,我们想向公众展示AI的能力,让人们看到它能在某个特定地点获得有意义的市场份额。那会是一个很有说服力的故事,我觉得。因为现在的情况是,你看到这个,它确实能自主做很多事情,但你还是会看到那些头条新闻,比如“哦,它搞砸了排班,没有告诉别人它是AI,还打算去拜访”之类的。这些事情浮出水面,但我认为真正盈利并拥有有意义的市场份额,一旦发生,那会非常疯狂。

A

好吧,我们等着看那天什么时候到来。听起来你们有很多事在忙。你们在瑞典开了一家咖啡馆?对,明天。

B

明天?我觉得今天其实已经开了,但我们会明天宣布。

A

是啊,显然在瑞典开咖啡馆比在美国容易得多。这太疯狂了,对吧?你们遇到了什么?

C

你需要拿到无数许可证,而且前置时间长得离谱。

D

看起来,咖啡馆是人们比较习惯的东西。在这里你已经可以去找机器人给你做咖啡了。是啊。

B

但我是说,在旧金山卖食品相关的东西,需要几个月的许可证。所以我们问我们的AI,“我们怎么能最快搞定?”它们说,“嗯,真的没办法。”

D

他们不是放宽了从家里卖食品的限制吗?所以如果是住宅区,你可以开个咖啡馆。我不知道,查一下,也许我们能在旧金山开个咖啡馆。

B

对,我觉得他们最近确实放宽了一些东西,但我们实际上是在那之前就和AI讨论了这个。所以也许现在更容易了,但我仍然觉得在瑞典容易得多,这有点反直觉,因为你会想,“哦,欧洲有这么多法律和规定,你在欧洲什么都做不了,因为官僚主义太严重了。”但结果在旧金山要4个月,在斯德哥尔摩只要2周。

A

是啊,就是这样。

D

你们觉得,经营一个小市场和开咖啡馆会有什么不同?

B

我觉得很有趣的是地点。显然,Claude了解美国系统,也就是在美国要经历的官僚程序,这并不奇怪。我认为有趣的问题是,我们知道这些模型很大程度上是在英语数据和以美国为中心的数据上训练的。所以如果我们开始创建评估或现实世界的评估,展示它们能在美国创业,那这能推广到其他国家吗?我们知道它们是多语言的,能说流利的瑞典语。但还有其他事情,比如它们知道在瑞典需要申请某些特定许可证的细节吗?

D

甚至只是文化,对吧?这里的人睡得早,但工作到很晚。咖啡馆里有共享办公。只是文化差异。我是从另一个角度说的。因为你说你考虑过在旧金山做这件事。所以从评估的角度看,经营咖啡馆和市场有什么区别?你希望看到什么?易腐商品?

C

对,易腐商品可能是第一位的,比如食品安全。我希望一切顺利,但那里有所有这些问题。而且,这只是从n 1变成n 2,另一个了解情况、收集更多数据的地方。是啊。

B

那个代理在两周前买了一堆西红柿。在开业之前,现在它们全烂了。所以——

D

我觉得,你知道的。对杂货店来说,这是最大的开支,对吧?最大的成本其实就是食物本身。是啊,是啊,大家都知道。

A

不,在我们打开这个话题之前,有一些非常严肃的初创公司,比如帮助Trader Joe's和Whole Foods的,它们优化从配送中心到门店的配送时间,确保你不会浪费这些东西。

D

一旦你错一次,就是巨大的成本。太糟糕了。

A

这就是护城河,对吧?一旦它们被信任,它们就搞定了,别去碰它。

C

对,也许它们应该雇一家那种公司。我们看到一个代理注册了Claude。

B

是啊,想用AI。

A

对对对。好,再问一个问题,然后我们就结束。那就是,你们有这些自动售货系列、机器人系列,也许还有一些室内设计之类的。但你们有没有在考虑另一个分支,或者想听听反馈,作为下一阶段的方向?

B

我觉得任何类型的生意都可以考虑。我们也考虑分支,但我们更多考虑的是模拟分支、现实分支和机器人分支。但就进入什么垂直领域而言,我们就是,嗯,什么最能讲好故事就做什么。

A

我注意到有些金融领域的项目别人在做,但你没做,比如股票交易之类的。不过那也没什么意思。好吧,我以前在金融行业待过,我有个很强烈的看法:这些东西都只是表演艺术,因为它不科学。你无法预测未来,你的收益完全取决于你无法控制的因素。而你的工作呢,实际上相当可控,完全在模型的能力范围之内。

C

没错,尤其是模拟方面。至于现实世界的应用,我们有两个场景:咖啡馆和商店。所以你可能无法据此得出统计上显著的结论,说明哪些模型在现实世界中能盈利,但你可以观察这些行为是否映射到值得信任的东西上。

A

是的,质量方面,定性的东西其实很重要,因为你肯定不希望商店在你没有明确指示的情况下就随机关闭。行动号召。人们怎么帮你,怎么给你钱?

B

嗯,如果你对我们正在做的事情感兴趣,我们正在大量招人。

A

而且你们已经在和 Anthropic、DeepMind、OpenAI、XAI 合作了。

B

你们是想要更多合作,还是觉得够了?我有个朋友现在在我们这里工作,他的口头禅是“我们需要更多项目”,讽刺的是,因为我们总是有太多事情要做。但总之,这说起来就长了——

A

就像运营一个新兴实验室一样——对,联系你们。好的,不错。

C

就这样。好,太棒了。非常感谢。是的,谢谢。

译自 Latent Space Podcast · 录于 二〇二六年六月五日