AI原生医疗:1亿次就诊、节省10-20小时、预授权几分钟完成 — Janie Lee & Chai Asawa, Abridge
AI-Native Healthcare: 100M Doctor Visits, 10–20 Hours Saved, Prior Auth in Minutes — Janie Lee & Chai Asawa, Abridge
Abridge 是一家为医疗系统构建临床智能层的公司,最初从临床文档记录入手,利用环境 AI 自动生成笔记,帮助医生减少每周 10 到 20 小时的文书工作。公司目前拥有约 1 亿次医患对话数据,并在此基础上拓展至临床决策支持与预先授权等产品。其上下文引擎整合患者背景、支付方政策与医学文献,在就诊前、中、后提供实时指导。Abridge 与多家大型医疗系统(如约翰·霍普金斯、凯撒医疗)合作,采用移动端与桌面端形态,并通过深度集成电子健康记录(EHR)实现互操作。团队包含临床科学家与工程师,采用渐进式发布与多层面评估(包括内部 LFD 流程与 LLM 评判器)确保临床安全与质量。
好的,这是一期特别的交叉节目,结合了 Latent Space 和 Unsupervised Learning 播客。
非常非常兴奋能一起做这期节目。现在我们大概每年才聚一次。
一年一次。
这次能有机会聊聊,真是件开心的事。
我们——
我一直很想和 Abridge 聊聊,但觉得自己不太够格,因为医疗健康不是我们深度覆盖的领域。巧的是,Redpoint 是 Abridge 的重要投资者和支持者。
所以任何时候你想邀请我们的投资组合公司上播客,尽管开口。
那我们来介绍嘉宾。Chai 和 Janie,欢迎来到节目。
谢谢邀请。我们很兴奋能来。
谢谢。
好,对听众来说,先介绍一下你们在公司的角色,让大家有个定位。
Abridge 是为医疗系统打造的临床智能层。我们最初从文档记录入手,为临床医生构建工具。我们认为,在减轻临床医生负担方面,他们每周要花 10 到 20 小时在文档记录上。美国正面临严重的医生短缺问题。同时,我们认为患者与临床医生之间的对话,是医疗保健中最重要的流程。这显然是提供和接受护理的核心。但如果你想想占美国 GDP 20% 的医疗支出,几乎一切都源于这些对话——无论是理赔、支付、实际诊断还是治疗方案。我们从对话入手,减轻医生在文档记录上的负担。但我们更兴奋的是未来的道路,我们将成为更广泛的临床智能层。
我是 Chai,在 Abridge 负责临床决策支持。所以我认为,正如 Janie 所说,我们有一个独特的定位——从临床笔记起步。我真正兴奋并正在拓展的方向是,如果你能获取患者的所有背景信息、支付方指南、医学文献,并在对话前、对话中、对话后整合这些信息,那么你能做哪些事情,从而让医疗保健从根本上变得不同。
对,这就是你们所说的上下文引擎(context engine)吗?是叫这个名字吗?
没错。
嗯,据我了解,公司成立于 2018 年。很多人可能熟悉那种 AI 语音笔记的形式,医生会问“你同意被录音吗?”它取代了手写记录等。但听起来最近公司经历了一次重大转型,或者你直接跟我说说这个更广泛的转变吧。
是的,从转型角度来看,我们把旅程分为几个阶段。第一阶段是如何帮助节省时间。这也是最初产品的核心。
顺便说一句,你们官网上有个有趣的数据,比如医生在下班后还要花时间。
他们称之为“睡衣时间”。
为什么叫睡衣时间?
医生下班后穿着睡衣在家,每天还要写笔记、补记录。我们有一些最喜欢的客户故事,我们有个叫“Love Stories”的 Slack 频道。临床医生告诉我们,Abridge 帮助他们提前退休,或者他们终于能回家第一次和孩子一起吃晚饭了。
某种程度上挽救了他们的婚姻。
对,你们有句引用是“我们不再离婚了”。
我当时想,为什么?
大概是因为工作太多吧。是的。
但说到我们未来的方向和拓展,我们考虑的第二和第三阶段是:如何帮助医疗系统省钱和赚钱。医疗系统的运营利润率处于历史低位,服务患者越来越难。他们面临一些监管上的顺风,但也有很多逆风。我们认为 AI 在帮助省钱和赚钱方面时机成熟。最终,我们如何帮助拯救生命?我们的软件和产品每周在患者进入诊室前、中、后开放数百万次,这为我们提供了巨大的机会,比如 Chai 正在构建的临床决策支持产品,以及其他许多产品,来真正改善患者预后。这可能是目前最值得攻克的重要流程和问题之一。
我觉得有一点很有意思,Chai,你显然是从 Glean 来到 Abridge 的。我想到临床决策支持,对听众来说,这基本上是在就诊过程中帮助医生确定正确的护理方案。这在很多方面其实是一个搜索问题,需要查阅大量不同的数据源,和你之前在 Glean 作为最早工程师之一的角色非常相似。我相信很多听众都好奇,你现在解决的问题集和之前有什么相似之处,以及进入医疗领域后有什么不同。
是的,非常相似。我觉得退一步看,每一波技术浪潮中,不同产品之间都会出现很多相似的模式。很多社交网络产品看起来差不多,很多基于众包的产品也大同小异。在智能体时代,我们也看到类似的情况,当然包括红点投资组合中的许多公司。这两家公司的核心洞察在于,你拥有出色的模型,但上下文才是关键。上下文才是让模型真正发挥作用的东西。所以我在很多方面看到了很多相似之处,这可以说是医疗领域的 Glean 版本。但我认为差异也很有意思。首先想到几点。第一,我们所在的场景对严谨性的要求极高。在医疗领域,下行风险非常高,某些情况下甚至可能致命。比如你开了病人过敏的药。而在 Glean,问题答错了,大多数情况下也不是世界末日。这意味着什么?这决定了我们的评估策略,包括离线评估、渐进式上线,这方面还有很多可以深入探讨。第二点是垂直与水平。两者都有很大的差异性,但 Glean 是一家更偏水平化的公司,面对的角色和公司类型差异很大。我们也有不同的角色、不同的专科、不同的医院系统,但差异范围更窄一些。所以从产品角度看,你能更聚焦,尤其是在技术成熟、要构建前所未有的新产品时,这让你能更轻松地瞄准特定方向。特别是在医疗领域,很多问题过去是靠人力和流程解决的,这恰恰是 AI 可以持续辅助、增强和赋能的最佳土壤。最后一点我觉得很有意思,尤其是 Abridge 相比 AI 领域的许多其他公司,是我们起步时的模态。我们是环境式的,始终在后台监听。我认为未来会有更多 AI 产品走这条路,但这正是我们的起点。而且我认为这实际上是我们能创造的最好的 AI 形式——无缝的 AI。你不需要盯着屏幕,它始终存在,始终在主动帮助你。就像 Jarvis 的愿景,过去十年我参加过的每个黑客马拉松,总有人做 Jarvis 的竞品。但我认为 Abridge 正是从这个机会出发,并且一直沿着这条路走下去。
对。从产品角度看,我觉得非常有趣的一点是,你有一个始终在线、无缝的后台系统。然后你必须决定什么时候打破这面墙,对临床医生说:“嘿,你可能没想到 X”或者你想做的其他事情。显然,在医疗领域,传统上存在“警报疲劳”的问题,就是弹出无数窗口,医生全都忽略。这可能是很多构建者现在正在思考的模式。你如何看待在医生问诊过程中进行干预或弹出提示的正确方式?
是的,这个问题问得真好。我认为警报在医疗领域尤其臭名昭著。超过 90% 的警报都被忽略了。我认为首要也是最重要的一点是,正如 Chai 提到的,上下文就是一切。我还思考如何从被动警报转变为在最关键的时刻提供主动智能。我们喜欢说的一句话是,我们希望产品像空调一样。它应该在后台默默让一切变得更好。如果存在重大的临床风险,我们非常清楚现在干预而不是以后干预至关重要,那我们就应该采取行动。但如果你思考主动与被动,与其在医生与病人进行严肃敏感对话时发出警报,不如在医生走进诊室之前就为他做好准备。过去,医生可能需要手动翻阅病人几个月甚至几年的病历,试图找出应该做的事情。你可以想象一个世界,有了 Abridge,它会为你总结所有最近的接触记录,根据病人就诊的原因告诉你应该讨论哪些内容。这样你就能在对话前做好准备,而不是在病人就诊时毫无准备地走进去,然后产品在就诊过程中打断你 5 到 10 次。当然,有些时候打断确实很重要。我们有一个产品叫“预先授权”。比如你因为膝盖疼痛去看医生,医生会给你开一个 MRI 检查。我们很多人都有过这种经历:四周后接到电话说:“嘿,Sean,你被开的 MRI 没被批准,你再回来一趟,我们解决一下。”在 Abridge 的世界里,我们可能会选择在就诊过程中悄悄但依然提醒医生。用“提醒”这个词可能都不太准确。在病人离开之前,我们会想告诉医生:“嘿,医生,在 Sean 离开之前,你应该问他是否做过物理治疗,疼痛是否持续了超过六周?因为他在加州用的 Aetna 保险计划有六项要求。我们已经确认了其中四项已经满足,因为我们掌握了所有上下文。但还有最后两项标准,如果你能在 Sean 离开诊室前和他确认,我们就能保证你的 MRI 在离开前就获得批准。”所以当你考虑临床实用性和对病人的影响时,我认为有些情况下,如果我们能在病人还在诊室时提醒医生,就能同时实现节省时间、节省金钱、拯救生命这些目标。但当医生在两次就诊之间只有 15 分钟时,我们必须非常非常谨慎地判断什么时候才真正重要。
我认为 AI 有一个有趣的产品机会,就是减少世界上的延迟。例如,预先授权就是一个导致护理延迟的例子。优秀的 AI 可以减少这种延迟。我认为过去警报的问题部分在于技术问题。警报的质量至关重要。如果警报质量差,就像工程领域一样,噪音太多、无法采取行动,就会被忽略。但如果你能利用上下文(就像 Janie 说的那样)和高质量的模型来生成真正高质量的警报,那么我认为你就能开创一个全新的局面。
是的,我真的很喜欢这种体验,因为它开始揭示出这件事为何如此困难且独特。首先,要让那个事先授权(prior authorization)的例子成为可能,想想你需要多少数据。你需要与电子健康记录(EHR)集成,了解患者的所有背景信息。我们能否获取你之前的化验结果和影像资料?然后,为了实际匹配你并知道你在使用Aetna保险,我们必须收集所有不同的支付方政策,而这些政策因州而异。有些支付方政策存在于网站上,有些则藏在结构混乱的50页PDF文件中。我觉得这期节目是为了确保我们不会把人们吓出医疗行业,但当你思考那些让这件事变得困难的因素时,它其实也构成了你的护城河。其次,是AI和模型质量,我们必须能够依赖它们。标准非常高,就像我在Opendoor工作时,我负责定价模型,每一个异常值都会抹掉30个单位的利润。同样,在医疗领域,准确性的标准也极高。最后,我想说的是,工作流就是一切。你知道,如果保险公司部署AI,通常都太晚了。这时就会出现那种臭名昭著的、有点滑稽的例子——AI在太晚的时候互相争斗。但如果我们能提前使用AI,同时在患者还在诊室时就能解决问题,你就可以把通常需要数周或数月才能完成的事情,理想情况下压缩到两分钟或实时完成。我认为这正是医疗领域既极其困难,但一旦攻克又回报丰厚的地方。
为了了解一下产品形态,因为我在你们网站上看到过一些视频。你们经常提到环境AI(ambient AI)。它主要是通过手机使用吗?有没有其他形态,比如人们通过某种设备接入Bridge?有没有那种一直开着的Bridge房间设置?我不太确定。
一个Bridge播客工作室。
对。
主要形态是移动端和桌面端。临床医生通常拿着手机进出诊室,但到了下班整理笔记或为第二天做准备时,他们可能会用桌面端。我们一直在与许多室内设备公司进行非常有趣的合作讨论。当你思考多模态(multimodality)和更多数据的潜力时,尤其是考虑到那些目前未被捕捉到的上下文信息,这真的非常引人入胜。特别是当我们开始构建和扩展护理产品时。护士们常常走进病房,花两分钟甚至30秒检查患者,如果让他们启动一个Bridge体验,可能比这次探视本身还要耗时。所以,我们能利用那些始终开着的室内设备做什么?这开始引出非常有趣且令人兴奋的产品问题。
就像科技公司里我们到处都有Google Meet这类设备一样,我们也可以干脆把整个房间都设置成Bridge技术环境。
非常同意。而且我也在类似地思考AR眼镜等等。我认为这也很相关,部分问题在于如何在不使用屏幕的情况下,将信息实时呈现给临床医生,同时让他们能专注于患者。
你觉得他们想要那样吗?我有点……我倾向于对AR持怀疑态度,但我很好奇你们尝试过什么。
说实话,这绝不是近期的产品路线图,我在这里说得有点天马行空了。
实际上,在手术中已经有很酷的AR应用了。
真的吗?
当人们想要可视化时,比如,你知道,你即将做切口,但你想看看切口会是什么样子,或者身体内部是什么样子,他们基本上可以把影像叠加进去。嗯,那很酷。
是啊,是啊。
未来某个时候吧。
我们很多最大的客户,以及最大的医疗系统,已经在进行集成。所以即使我们在考虑如何构建进去,我认为这也会解锁很多产品能力。
对。
为了明确一下术语,抱歉,我知道我问的有些是基础问题,部分是为了我自己,但也是为了那些可能不太了解集成的听众。当你说医疗系统时,指的是像约翰·霍普金斯、凯撒医疗这样的机构吗?这些是你们的客户,对吧?你们为他们带来的成果是让医生更满意,降低处理成本,减少错误。我觉得有点奇怪的是,我感觉好像还有第二类客户,也就是客户的客户。我不知道你们是否也这样考虑?
是的,我们有——我认为构建产品的另一个有趣且复杂的部分是,我们的购买者是这些大型医疗系统的首席医疗信息官、首席财务官和首席信息官。我们今天的用户是临床医生,但如果你考虑下游谁受到影响,那就是患者。所以,在构建每个产品时,我们都会思考:我们为谁而建?谁是次要用户?这在体验、安全合规、以及我们必须量化的投资回报率方面意味着什么?就像你说的,节省时间是其中之一,但对首席财务官来说,他们关心的远不止节省时间。我们必须证明,你投入Bridge的每一分钱,因为有了更合规的文档,或者因为来自计费团队的查询减少了,实际上能节省或增加真金白银。对你的利润或收入来说,我认为这是我们一直在思考的事情,因为这三类用户之间的动态关系很复杂。
而且我认为还有另一个维度,涉及支付方和制药公司,以及连接医疗领域的这三大利益相关者。
支付方能看到你们的数据吗?抱歉,支付方指的是保险公司,对吧?
嗯,是的。
他们也能看到精简后的数据吗?
不,他们看不到原始的Abridge数据,但当你们在事先授权这类事情上合作时,他们需要的任何信息,我们都会传达给他们。
好的。
是的,那很酷。我想深入探讨一下——显然,你们在AI方面解决了很多问题。那么,也许从最高层面开始,今天Abridge在AI方面需要解决的最困难的问题之一是什么?
简单来说,我们以预授权(prior auth)的例子来展开。Janie 提到的一点是,数据分散在各处,而且存在组合爆炸的问题——比如各种手术、支付方政策,有时甚至涉及不同的医疗系统。你需要考虑所有这些不同因素的交叉乘积。但这个问题真正棘手的地方在于,要在对话中实时完成。在任何 AI 产品中,通常关注的三个关键指标是质量、延迟和成本。现在,我们的要求是让它在对话中实时运行,为临床医生提供指导。我们如何做到这一点,同时又不会成本过高?但我们又需要非常智能的模型,因为你面对的是数据的交叉乘积以及所有这些上下文层。所以你需要高智能和高品质,因为你不想产生告警疲劳,但同时你也需要快速且成本高效。我认为这正是大量巧妙工程发挥作用的地方。也就是说,在不深入所有细节的前提下,你是否能以某种中间表示形式来建模这些政策,或者采用其他方法,让这个问题变得可解?当然,帕累托前沿(Pareto frontier)总是在变化,但我们也在努力做到这一点。
这对你们在决定哪些东西直接拿来用、说“我们不需要在 X 方面做到世界级,直接从模型提供商或基础设施厂商那里拿就行”,以及哪些东西是“不,这才是我们投入大部分精力的地方”产生了什么影响?
这正是 AI 中有趣的挑战,对吧?当然,随着格局的变化,我们会尽量深思熟虑地预测第三方模型的发展趋势,以及我们能在哪些方面独树一帜。嗯,有时候我觉得,当我们谈论 AI 模型时,我们总觉得模型只会变得无限好。但我不认为——也许从长远来看可以这么说,但实际上,每个月、每个季度,它们都有特定的进步方向。比如,它们正在用更多的编码数据进行训练,以成为更好的编码智能体(coding agent)。所以我们必须思考,哪些东西是我们独有的数据训练出来的,或者退一步说,专有模型在什么情况下能给我们带来优势——那就是它能提供更高的质量,或者在相似质量下更低的成本和延迟,这和许多其他公司很相似。而我们能做到这一点,正是因为我们拥有专有数据。例如,我们拥有大约 8000 万甚至现在接近数亿的医疗对话数据。
这太惊人了。
这是一个独特的数据集。这个数据集非常有意思,因为它实际上包含了患者与医疗服务提供者之间交互轨迹的很大一部分。这就是医疗保健中所谓的“调试”发生的地方。我们大规模地拥有这些轨迹,就像我们的 CEO 所说的,这是我们产品产生的“副产品”。有了这些轨迹,你就能在某些用例上训练出更好的智能体,无论是转录、说话人分离(diarization)用例,还是笔记生成模型,而且我们可以做得更便宜、更快。但我们始终也在与第三方模型提供商合作。我们与他们紧密协作,以此预测趋势走向。我经常思考的一点是,我知道模型提供商会在智能体工作流(agentic workflows)等方面投入更多训练。这很好,这样你就能拥有更好的智能体框架。但另一个有趣的点是,由于消费者模型提供商中有很大一部分涉及医疗查询,你知道他们实际上可能会优化训练大量医疗数据,从而将知识编码到模型权重中。我认为这对我们来说也是一件好事,因为现成的模型可以在通用医疗信息方面不断进步,这样我们的策略就是拥有一个模型组合。我们可以用不同的模型处理不同的事情,最终我们只关心最好的产品体验。
是的。显然,整体能力在不断提升。我很好奇,随着这些模型变得更好,有没有什么东西让你觉得,三个月前我们真的做不到,但最新的模型让我们做到了?
这里有一个我一直在琢磨的有趣现象。所有模型——一年前这还不是特别明显,但现在越来越清楚的是,几乎每个智能体本质上都是一个编码智能体(coding agent)。你给它一个文件系统,它就能自己写代码等等。所以当你考虑医疗保健和我们所拥有的用例时,你可以把电子健康记录(EHR)看作一个文件系统。它只是一个存储所有信息的系统。实际上那里有大量信息,无法放入当前模型的上下文窗口(context window)中。而你想有效地利用这些上下文来处理我们讨论的所有产品用例。因此,如果你有更好的智能体,能够实际操作数据、读取数据,并将其视为文件系统——正如我们看到的发展趋势,我们知道模型公司正在朝这个方向投入——那么这就会直接让我们受益。
是的。好的,我们只是确认一些基础的东西,但又要回到模型的话题。我真的很想深入探讨一下实时性这个要素,这对你们两位来说都很重要。所谓的实时,基本上就是每 1 分钟或每 5 分钟批量处理一次吗?我们实际上是这样做的吗?还是说有一些更原生的、真正意义上的实时,就像 OpenAI 有实时 API,Gemini 也有实时 API 那样?
是的,是的。目前来说,它更多是基于批量的方式,但我们有一些有趣的原型,还没有完全实现全时段的语音输入、文本输出。但实际上,你可以根据对话中的合适时机来触发你的模型、智能体或智能体工作流。所以你可以想象,有各种不同的技术来降低延迟。而且,你希望尽可能缩短反馈循环。嗯,这需要很多巧妙的工程,而不必完全——也许有一天我们会实现完全的语音输入和文本输出,训练一个模型来做类似的事情。
人们不想要语音输入、语音输出吗?
目前我们并没有创造那种在对话过程中进行交互的体验——这可能会过于干扰,直到——谁知道呢,也许最终我们会有完整的语音智能体,一旦质量提升并且人们对这项技术的舒适度提高。但现在,我认为这种变化要渐进得多,而且更侧重于文本输出。
我认为目前我们的产品主要目标是让临床医生能够专注于他们的患者。也许将来某个时候会不同,但我觉得现在,患者和临床医生都不希望房间里出现第三个声音,至少是字面意义上的声音。所以,我们如何做到在合适的时机,带着所有上下文和信息随时待命?
对,Jenny,我很好奇你们在产品中如何看待个性化。我想每个医生都有自己的独特之处,有自己偏好的工作方式。嗯,你们可能有很多不同的方法来实现这一点,无论是在模型层面,还是通过巧妙的提示词设计或工程手段。你们实际上是怎么做到的呢?
是的,这是个非常好的问题。个性化对我们来说至关重要。我们从三个层面考虑个性化:第一是个人层面,第二是专科层面,第三是医疗系统或机构层面。正如你所说,个人偏好非常多。嗯,当一份病历被生成时,它几乎是对医生工作方式和诊疗风格的深度个人化反映。所以,他们在风格上有偏好吗?可能有人喜欢要点式而非段落式,有人喜欢简洁而非全面。他们也可能有自己偏爱的措辞,或者希望每份病历都遵循特定模板。我认为,我们从用户反馈中经常看到这一点:有人要求句子之间空两格,否则就拒绝使用这个工具。所以我们必须把这些功能做进去。而难点在于,如何确保风格偏好不会影响准确性和质量?这是我们长期以来不断打磨和优化的地方。第二是专科层面,心内科医生的病历或工作流程与皮肤科医生截然不同。
我猜心内科的病历对你们来说风险最高,毕竟你们的CEO就是心内科医生。
是啊,必须确保这方面万无一失。我们的CEO Shiv仍然在临床一线,每个月轮诊一次。所以当我们想要快速获取用户反馈时,他往往是第一个被问到的。但不同专科需要大量个性化定制,不仅体现在产品外观上。我们确保新用户入职时能捕捉到这些信息,产品也会相应调整。同时,在后台,专科层面的评估需要大量努力才能校准到位。一份优秀的心内科病历长什么样?什么才算完整、合规且可报销,这与全科医生完全不同。所以这不仅仅是产品体验的问题,更是在后台调优、深入理解专科医生的需求。什么是好的输出?这显然是一个需要内部外部、线上线下反复校准的问题,需要大量迭代,但在高风险环境中是必不可少的。最后是医疗系统层面,对于临床决策支持这类产品,医疗系统可能花了数年甚至数十年打磨最佳实践,他们希望知道:我们喜欢你们的临床决策支持产品,但如何把我们自己的医院指南嵌入其中,在诊疗前、中、后为医生提供最佳实践指导?我认为,当你考虑加深护城河时,当医疗系统信任我们并提供这些数据,让我们将其产品化并直接融入临床工作流时,这使我们成为医疗系统真正优秀的合作伙伴,帮助他们构建符合自身需求和实践指南的产品。
我想补充一点。对于临床文档问题,这很像AI写作——写出来的东西不像自己的。我们称之为"slop"。我对slop的一种定义是:没有上下文的AI。但我们拥有所有上下文,临床医生可以拥有它并引导它。所以对我们来说,另一个有趣的副产品是记忆——这些新系统几乎能记录一切。
而且我们还能获取用户在产品上做的所有编辑。当你思考数据飞轮以及我们如何随时间变得更好时,这成为了一种非常强大的机制,能让我们在个性化上走得更深。
是的,听起来——
确实如此。我很喜欢你们与医疗系统合作、利用他们长期积累的指南这个想法。我觉得如今很多优秀的AI应用公司,关键在于如何将律所或银行多年积累的专业知识作为上下文和独特优势,融入AI工具中。你们似乎在这方面做得非常出色。
是的,现在客户开始问我们:其他客户在做什么?他们是怎么做的?我认为,当我们能够看到如此大规模的诊疗活动时,这为我们提供了一个非常有趣的合作切入点。
我有点好奇。这可能是个无关紧要的问题,但不同医疗系统的指南之间差异有多大?它们难道不是最终趋同的吗?如果不是,差异在哪里?
我认为在很高层面上,它们讨论的是非常相似的内容。但差异可能在于一些细节,比如:只有在满足XYZ条件时才转诊给专科医生等等。不同机构可能在这方面有不同的实践和指南,但高层面上谈论的是相似的东西。然而,细节恰恰塑造了上下文和决策。
是的。这些都会进入上下文引擎,可能会影响病历,但也可能不会。
对于这些本地化路径,我们更多是在临床决策或具体产品层面考虑。
对,那是你的领域。
是的,没错。
好的。那么你提到的记忆,请多讲讲。你们在记忆方面尝试过什么?记忆的结构是怎样的?哪些有效?哪些无效?
是的,当然有很多不同的方式来实现记忆,比如直接嵌入模型权重,或者使用外部存储。对我们来说,有趣的是,当模型快速变化时——无论是自研还是第三方——将记忆嵌入模型权重有时会让人担心它可能很快被废弃。你需要找到一种方法,将问题分解,把偏好与底层模型分离开来。目前我们最感兴趣、也最容易起步的方式是建立一个独立的记忆存储,例如,有一个后台运行的记忆子代理,负责识别临床医生行为中哪些重要部分需要长期记住。你还可以想象其他方式,比如运行后台任务来整理这些记忆,类似于睡眠机制或其他产品的模式。通过我们拥有的所有行为数据——包括编辑记录、对话和实际转录文本——来学习。
那评估呢?你们到底是怎么做的?这是一个非常复杂的产品服务领域。我们很想听听你的见解。另外,这个过程是如何演进的?我相信你们一定越来越擅长了。所以,有什么沿途学到的经验吗?
从评估的角度来看,我们从第一天构建任何新产品或功能时,就会思考:好的标准是什么?有一些基本要求,比如临床安全性,但接着你会深入探讨:高质量到底意味着什么?当我们进入核心产品时,涉及风格、完整性,以及这份记录是否真正具备可计费性——这对医疗系统来说显然是至关重要的。我们通过多种方式建立信心。我们有内部临床医生执行所谓的 LFD 流程,进行第一轮判断:这个输出到底够不够好?"看看那该死的数据"。
没错。
所以我刚才笑了。
我就想,JD 会不会解释一下这个缩写代表什么?
我只知道我屏幕上全是各种缩写,有些我根本不知道。所以我就想,哦对,当然,LFD 嘛。
我从没听说过 LFD。它是个过渡设施,简称。
我大概撑了三天,然后不得不去问别人。我还以为只有我不知道,但这其实是我们最初的流程。
"看看数据"在机器学习圈是个梗,因为大家往往不看数据,只想看数字上涨。确实如此。
没错。但我们确保会看数据。然后,在思考优质输出的所有要素时,我们一方面会针对所有这些要素创建 LLM 评判器,并通过标注数据以及内部或外部评估者,确保这些评判器是校准过的。然后,根据风险程度,在发布任何重大变更之前,我们还会与内部和第三方评估者合作。我认为目标在于,从进化角度看,如何将这个流程从数月缩短到数周再到数天。其中一部分是真正的科学和机器学习问题,但很大一部分也是艰苦的运营工作。你是否提前规划好了所需资源?你是否真正优化了所有不同专科所需的容量?你是否清楚哪些第三方在哪些用例上合作效果最好?我认为这需要大量的领域专长,坦率地说,也需要在这个过程中犯很多错误。所以,这既是机器学习问题,也是运营上的提升,我认为后者极其重要,而领域专长在其中至关重要。
没错,但有趣的是,人们总把医疗保健说成一个巨大的市场,而实际上它是由几十个甚至上百个子市场组成的。所以在你的评估中,显然需要全面覆盖这些领域。
完全同意。
那么,专业化是主要的维度吗?这是我想到的词。
有时是这样,取决于产品或用例。如果我们为某个特定专科做记录改进或功能,那肯定是。但我们也有面向护士的产品,也有旨在让文档或输出更具可计费性的产品。这时我们实际上会与编码团队合作,而不一定是临床医生。所以——
真的指医疗计费?对,对,对。
我明白了——是的。
没错。但这个输出是否与实际完成的工作量成正比?是否有足够的文档来证明医疗系统最终可能收取的费用?所以有时是专科问题,但领域差异也很大,取决于我们正在开发的不同产品。建立这个网络并不容易,我认为这也是我们大量运营投入的方向。
我觉得这里有很多类比可以联系到自动驾驶汽车。其中一部分是,我们实际上希望渐进式地推出功能,在真实世界中测试:这有用吗?这能行吗?与过去相比,一个很大的不同是,以前我构建产品,可能先做 Alpha 测试,然后下周就正式发布,因为我想的是"快,快速行动,发布"。但现在的心态是,我想尽快接触现实。但我希望渐进式推出,因为无论离线评估集有多大,我都希望它的分布能真正匹配现实分布。随着时间的推移,通过早期推出,我实际上认为,就像 Waymo 的口号"世界上最有经验的司机"一样,另一个可以至少线性增长的东西是,我们离线和在线的评估规模,而且这一切都会反馈回来。
我认为,随着时间的推移,我们赢得的东西之一,就是客户的信任。过去,很多医疗系统在引入新供应商时,发布周期是按季度算的,有时一年两次。我们已经让客户接受月度发布周期,这对医疗系统来说已经相当快了。但更令人兴奋的是,在过去几个季度里,一部分客户说:我们真的想和你们一起创新。我们信任你们。我们有相当一部分客户表示,愿意在月度发布周期之外与你们共同开发。我们的容忍度更高。我们知道风险很高,但我们想成为第一批使用这些产品并给你们反馈的人。所以,对于相当大一部分客户,我们已经说服他们,能够在正式发布之前以这种渐进方式交付产品。我们内部常说,信任是一滴一滴积累的,一桶一桶赚来的。所以我们仍然不能像以前在 Loom 工作时那样,有 3000 万用户,可以随意左右推出实验。迭代推出的门槛仍然很高,但正因为我们赢得了信任,我们能够以很高的量级快速学习。
是的,你们的规模其实还是相当大。我想问一件事——我们待会儿会聊到规模。我想追问一下 Yvonne,从一个通用工程师的角度来看,思考一下做这件事会让人害怕的地方。隐私和 HIPAA 合规方面,我完全没有经验。你们需要做什么?实际上有没有什么其实没那么难?
从合规角度来看,非常重要的一点是,我们使用的任何数据都必须去标识化,任何作为在线评估集或学习基础的现实世界数据都必须如此。所以你必须——实际上政府有非常明确的指南,比如什么算受保护健康信息。我们甚至构建了模型,可以处理例如临床转录文本,并移除所有关键的 PHI 标识符。这样你就得到了一个经过清洗/去标识化的版本。然后,重要的一点是,首先你必须对这个模型本身建立信心,对吧,并证明它有效,因为现在你有了多个概率系统叠加在一起。但一旦你有了这个,你就可以用它进行训练、评估等操作,前提是——从业务角度来说,还可以做的一件事是与合作伙伴签订正确的数据合同。
匿名化是单向的吗?就是说,一旦完成就无法撤销,还是有人掌握着万能钥匙可以——嗯,好的,所以是单向的。我想,大概就是这么运作的。我只是想确认一下,因为你知道,有很多从反馈中学习之类的事情,你会想进一步调试,但做不到。因为你从物理上就不允许自己这么做。
是的,其中一部分也写在我们与客户的合同中,涉及谁可以访问受保护健康信息(PHI)数据,以及我们在去标识化之前保留多长时间。所以我们对谁可以访问这些PHI数据设置了相当高的门槛,以确保始终尊重客户数据和隐私。但这也是我们与客户合作的一部分,确保在追求尽可能高的质量精度时,我们仍然能够使用这些数据。
是的,但看看这个领域如何发展会很有趣,对吧?因为你想,我以前在一家处理大量癌症领域医疗数据的公司工作。如果你问一个普通的癌症患者,嘿,你希望别人——你希望其他患者能从你的经历中学习吗?
接受它——
从你的经历中学习?他们会说,当然,我最希望的就是别人能从我的经历中学到东西。显然在过去,这种学习要困难得多。但我认为有了这项技术,这实际上可能变得非常实用。所以看看它如何继续发展会很有趣。
我们拥有1亿次对话的数据集,你可以想象能给临床医生提供的洞察。比如,你本可以如何应对这种情况?或者关于哪些治疗有效的指导或洞察。因为你有了这个以前从未被捕获的数据源,而这正是直觉或经验产生的基础,回到那个观点:对话就是智能体的轨迹。
是的,回到那1亿次对话。我觉得你们拥有这种惊人的规模,可能只有少数其他AI应用公司能达到,而其他所有人都梦寐以求。所以不是所有人都必须面对这个问题,但也许可以谈谈在这种规模下运营的一些挑战,以及我们的听众如果有一天达到这种规模,会面临什么?
我认为随着规模越来越大,当然有一般的基础设施可靠性问题。在任何一家初创公司,你基本上是在飞机飞行时建造它。所以有这方面的考量。但在AI和机器学习方面,真正有趣的是随着规模扩大。首先,你拥有数据来做这件事,但你会开始以完全不同的方式思考成本或基础设施,而不是原型阶段。你可以使用最昂贵的模型,消耗任意多的token,但当你处理1亿次对话时——
是的,在这种背景下,token最大化和排行榜就没那么令人兴奋了。
没错。当你这样做时,我们拥有数据,也有团队能够基于这些数据进行后训练,你可以优化效率,尤其是在你认为质量提升空间不大的领域,并且你不期望其他现成模型能达到那种水平,从而希望进行效率最大化,无论是计算还是token方面。
是的,我觉得你们在某种程度上生活在未来,因为今天大多数用例实际上还处于用例发现模式,就像"天哪,我真希望我能找到能规模化应用的东西。"所以你总是会使用最强大的模型,而少数能达到这种规模的东西,你才会开始做那些优化。
是的,这是一个自然的轨迹:从0到1,我们不会谈论任何这些优化,但当可能从1到100或更远时,我们就进入了优化模式。而效果很好的是,你从0到1阶段获得了所有这些数据,让你能够做到这一点。
是的,这很吸引人。我觉得Abridge的覆盖范围有一个特别有趣的地方:你们实时参与医患就诊。可能——我想,你们大概有50年的产品可以在此基础上构建。你们每个人最兴奋的是构建什么?无论是短期、中期,还是长期?
我特别兴奋的是,同一个对话可以服务于这么多利益相关者。想想看,医生需要知道文档是什么?如何确保这完全代表了我提供的护理?患者需要知道,刚才到底发生了什么?这太让人不知所措了。我下一步该做什么?支付方需要知道,这是否是适当且合理的护理?制药公司可能想知道,为什么这种药没有被正确使用?或者我即将进行的临床试验是否有合适的候选人?我兴奋的是,我们的产品、平台和基础设施可以成为所有这些方面的同一产品,并开始将今天各自独立、非常昂贵、复杂的系统——这些系统以非常不同的方式服务于每个利益相关者——整合到一个单一平台上,不仅提高整体效率,还能为每个人带来更好的结果。我认为我们所有人可能都经历过医疗保健中非常痛苦的体验。知道有一个世界可以大大简化这一切,这让我非常兴奋。而这一切都始于对话。
你知道,这很有趣。我对此的看法非常类似于任何AI产品关心的关键绩效指标(KPI)。如何提高护理质量?如何减少护理延迟?以及如何降低成本,这在医疗保健中非常重要。
在医疗保健中,他们称之为"三重目标",对吧?
是的。
但非常类似于构建AI产品。真正让我兴奋的是,当我们谈到延迟部分时,我们之前讨论过一个关于预先授权的例子。你能减少护理延迟吗?但你可以想象更多,比如,一旦实验室值更新,是否有一个后台智能体启动,利用所有上下文说,嘿,实际上,患者下一步应该这样做,并向始终在循环中的临床医生发出提醒,从而减少护理延迟。然后你可以想象,这在更远的未来,甚至可以直接连接到患者和消费者。那么,你如何为所有这些事情搭建桥梁?
非常酷。我认为连接部分是一个不断增长的东西。其中一个关键合作伙伴是电子健康记录(EHR)。我想知道这种关系是什么样的。他们会认为这足够有价值,以至于有一天想要拥有它吗?
是的,我认为我们与电子健康记录(EHR)的合作关系非常关键。我们深知必须与所有合作的EHR系统保持极其紧密的伙伴关系。不仅要把所有数据正确地拉取和推送到合适的位置,这仅仅是基本要求。如果做不到这一点,医疗系统就不会选择我们。其次,现实情况是,临床医生大部分时间都花在EHR上。我们之所以能在大型医疗系统中取得成功,很大程度上得益于与一些最大的电子健康记录系统建立了直接且非常紧密的合作关系,通过那些尚未开箱即用的API来拉取和推送数据。临床医生希望减少点击操作。每当我们推出一个新产品,如果每天需要他们多点击两次,他们就会说,我们不会用。他们每15分钟就要连续接诊一位患者,还要在"睡衣时间"花几个小时做文档记录。每一秒、每一分钟都很宝贵。我们认为,深度集成到EHR中也是实现真正使用和采纳的基本要求。我们内部经常说"赢得权利",意思是必须提供足够大的价值或节省足够多的时间,人们才会使用我们的产品。但我觉得,对我们来说最关键的两点是:产品如果不具备深度互操作性,就不会有人用。
从战略上讲,就像你说的,关键在于EHR想拥有什么,而我们想拥有什么。EHR主要专注于临床工作流程等方面。但我们讨论的一些内容,至少传统上,是超出这个领域的,比如将支付方和提供方通过提供方政策连接起来,或者像Janie提到的临床试验匹配。这些完全是——我们把自己定位为构建一个全新的智能层,即临床智能层,横跨提供方、制药公司和支付方。所以,这是一个完全不同的游戏领域。
是的,这就像是一个不同层面的范围。
没错。
我很好奇,你们俩显然都是医疗领域相对的新人。人们有很多关于未来医疗AI的设想,比如一切都会变得不同。现在你们在医疗领域待了一段时间,又身处AI前沿,你们对这个问题有什么看法上的改变吗?当你们思考未来10年、20年医疗的样子时,有没有因为贴近实际问题而更新过思维模型?
有一件事我以前很犹豫,实际上这也是我招聘工程师时常被问到的,就是"医疗领域监管很严格"。确实如此,这也很合理,毕竟最终要保障患者安全。但有趣的是,让我惊讶的是,实际上有很多有利的监管顺风。比如,政府真的希望我们讨论的这些系统之间实现互操作性,这样Agent就能访问这些信息。就在今年1月,FDA更新了我所从事的临床决策支持(CDS)的指导方针,与2022年的版本相比,不再要求列出所有选项等。实际上,这是一种非常前瞻性的做法。所以对我来说,能参与其中很酷的是,我认为现在是一个特殊的时刻,不仅AI整体上如此,医疗领域的监管也是如此。
我想指出一点,正因为医疗领域风险更高,或者被认为更困难,我认为一些最难的AI问题反而会在这里最先得到解决,因为门槛太高了。我刚加入时以为,这里会是所有AI创新应用的末端。但当你想到零错误评估或多步骤工作流对容错率极低时,我反而认为很多创新会在这里发生,因为我们必须做到,否则产品就无法上线。
是的,因为在其他领域,你更愿意解决80%的问题,觉得够用就行。
对,80/20法则在这里行不通。
在此基础上,我认为传统上存在一种偏见,觉得医疗公司从技术角度看没什么意思,我自己也见过或经历过。但实际上,从纯粹的技术角度,除了影响力之外,这些问题真的非常难也非常有趣。比如,如何降低延迟,同时保证高质量?
如何降低延迟?
对,对。那么来回答延迟问题。希望不会和我之前说的太重复。一部分是,任何延迟问题都要先搞清楚真正的瓶颈是什么。在很多工作流中,有时瓶颈就是模型本身。这就是我们的数据飞轮、后训练团队等发挥作用的地方,目的是让模型更高效。这是延迟的一个方面。但还有另一个方面,比如,如果你使用一组不同的模型,能不能先用一个便宜快速的模型进行分诊,然后交给更大的模型来获得更多智能?这有点像"快思考与慢思考"。所有这些巧妙的技巧都是为了让它工作。顺便说一句,我们也完全意识到帕累托前沿在变化。这些技巧可能无法让我们在5年后达到目标,但如果现在要构建一个有用的产品,我们就必须这样做。
我们是进入快问快答环节,还是你想再聊聊桥梁问题?我们可以把所有不是桥梁的问题都塞进快问快答,但我无所谓。
我觉得Janie刚才在聊长尾问题,不是80/20那种。这真的很重要。如果你有什么技巧、有趣的故事或者通用的方法,我很想深入了解一下。
是的,我认为其中一个不同之处在于我们团队的组建方式与传统软件工程团队不同。我们有一批具有临床背景的成员,担任着不同的角色。我们有一个职位叫临床科学家。我记得有位领导最近称他们为“突变体”,但他们确实拥有临床背景——通常是医学博士,同时在技术方面也相当深入,从全栈工程师到极其灵活的提示工程师不等。让这些人嵌入我们的团队,立即提升了我们构建的一切的标准,因为他们不仅判断产品在临床上是否有用,还深度参与整个评估流程。所以当我们讨论LFD(本地事实数据)或实际评估标准时,你肯定不希望Chai或我来制定这些标准,因为我们没有临床背景。我认为这可能是Abridge独有的特点,但确实带来了革命性的变化。当你思考未来的发展方向时,拥有临床背景且懂技术的人会越来越关键,成为团队的核心力量。这是第一点。第二点是我们评估的规模——在一切进入生产环境之前,提前捕捉那些长尾问题。我们在这方面做了大量精细调整,不仅从规模上,还包括何时需要几百条离线响应,何时需要几千条。什么能帮助我们快速做出决策,让这个过程从一门艺术尽可能变成一门科学?这也是我们随着时间推移不断调整的地方。
而且你们有合作伙伴自愿提供这些评估数据。
是的,我们内部或通过第三方进行离线评估,同时也有客户同意提供数据,比如点赞或点踩、选择这个或那个,从而让我们尽可能接近完全自信的状态。
这让我想到一个术语,类似于在你知道自己薄弱的地方进行主动学习。我觉得这有点像一门失传的艺术,但正是这类精细打磨让事情变得出色。
真的吗?
是的,完全同意。
也许换个话题,Chai,你在加入Operation之前,在Glean的经历显然非常传奇。所以我很想知道,作为早期AI应用的成功案例之一,回顾那段经历,你觉得Glean做得最对的地方是什么,可能最错的地方又是什么?很想听听你的反思。
我认为Glean的成功归功于非常非常扎实的技术基础,这些基础经受住了时间的考验。它始于一个已知的问题——在信息难以找到的地方,如何高效地找到信息。当时最好的技术是构建真正高质量的搜索。很多企业搜索初创公司失败,是因为质量不够好,而人们从中得出的结论是“企业搜索不够好”。所以质量确实改变了游戏规则,决定了某样东西是否有用。类似地,人们可能认为Alexa或语音助手不太有用,但一旦质量提升,情况就会改变。所以我认为Glean早期的成功基础,在于吸引了曾在Google构建搜索(有史以来最好的搜索系统)的人才,并且他们非常有创造力,有明确的问题要解决,同时具备正确的技术背景。这为未来多年的成功奠定了基础。有趣的是,公司如何适应这个不断变化的环境——我们多次讨论过这一点。对Glean来说,如何将这一上下文层应用到实际中,是过去几年我们面临的挑战,也是乐趣所在。你可以说这既是公司的机遇,也是挑战。
是的,这绝对是一个竞争激烈的市场,感觉它正处于基础模型和超大规模云服务商的核心地带。所以看看这一切如何发展会很有趣。
当你思考能否构建一个帮助所有知识工作者的东西时,这确实是一个巨大的机遇。
是的,我的思维模型是,有些市场是基础模型公司必须赢下的,或者足够大值得去争取,可能包括消费级代码等领域。
是的。
所以看看它如何发展肯定会很有趣。我想我们在投资方面经常思考的一个问题是,模型进步的速度变化太快,构建模式也随之快速调整。很难判断今天人们使用的构建方式和基础设施工具中,哪些会持续存在,而哪些会在6个月后因为模型改进而被完全取代。我很好奇,你们今天使用的工具中,哪些AI基础设施软件让你感觉更持久?
好的,一般来说,如果你接受模型会越来越具备自主性的观点,我认为以前我们需要围绕它构建大量脚手架——在之前的阶段,我们实际上创建了自己的领域特定语言(DSL)。你可以把它看作类似于其他智能体框架,因为模型能力不足,所以需要简化事物。但随着时间推移,如果模型越来越自主,能够使用我们已经拥有的类似工具——比如计算机使用、在沙盒中编写代码——那么我更多考虑的是,给智能体提供什么样的上下文层和工具。另外,我思考的另一个问题是,如何真正构建事件驱动的实时系统?尤其是在Abridge,我们在对话中实时处理任务。所以我认为有很多事件驱动技术,而且我们过去一直在使用,比如Kafka、Temporal、Socket等。如何将它们整合在一起,我认为是持久的。或者思考人类在Google Docs上协作的模式,当出现冲突时,如何处理CRDT(无冲突复制数据类型)?在多智能体系统中也是如此。所以我认为,我们为人类构建的这些事物,实际上会继续持久存在。
只是现在有1000倍规模的智能体在运行它们。
是的,所以当然要确保它们能扩展、快速运行等等,毫无疑问。
Abridge会随着时间推移变得更自主吗?下一步是什么?更自主的版本会是什么样子?因为我觉得你们在通知方面已经相当主动了。
是的,我认为这是自主性的一部分,但我也认为我们之前提到的一些事情,比如对实验室结果的响应,或者在后台执行任务,或者代表临床医生做更多事情——我们相信临床医生在患者沟通中扮演着极其重要的角色。等等。
嗯。
我很好奇,你们两位在过去一年里,对 AI 的哪个看法发生了转变?
我觉得我反复摇摆的一个观点,而且这更偏向产品层面,可能比较激进:我曾认为原型(prototype)就是一切,产品需求文档(PRD)已经过时了。我们尝试过转变,也在不断演进产品开发的方式。我们正在构建的产品极其复杂且微妙。一个原型很难完全捕捉到:我们能用这些数据做什么、不能做什么?在软件变得如此廉价的世界里,这真的是我们应该解决的正确问题吗?比如,这个原型看起来不错,但我们是否应该把宝贵的时间花在这里?如果是,为什么?在护城河越来越浅的时代,这如何加深我们的护城河?客户是否需要自定义实现才能使用?这些都无法在原型中体现。所以,我们一直在演进产品开发的方式。即使不像两年前那样用传统方式写文档,我认为团队已经高度确信:在充满噪音的世界里,清晰、简洁的文字比以往任何时候都更重要。它可能现在存在于 Markdown 文件中,供更多团队和系统作为上下文使用。但这可能更偏向我的职能领域——
你是在反对主流观点。
说 PRD 已死。
嗯。
以及产品开发——
所以你是说——
我们应该与 AI 合作创建优秀的文档,但我认为,首先,最重要的是从战略上回答:为什么这个问题是我们公司和产品应该解决的?如果接下来 20 个竞争对手都做这个,会怎样?我们凭什么赢?这能帮助我们以任何方式实现差异化吗?还是只是在增加噪音?我认为这很重要。
这个标准很高。我不知道我能不能回答,因为很多时候答案是:我们先做吧。
而且我认为,当“先做”的成本很高时——我们刚刚讨论了将产品交付给客户的过程——作为企业,你需要更高的标准来决定是否在这里投入。随着我们所有角色的演变,比如产品经理,或者说我们所有人的工作都变成了“我们该不该做这件事?”我认为这值得提前花时间思考。然后,说到原型,它仍然很有价值,可以快速展示 20 种实现方式。比如,临床医生,我很想听听你的反馈:哪一种更让你有共鸣?或者,当你追求更高保真度时,也可以让原型更接近生产就绪。但除此之外,要真正交付给客户,还有很多实现细节、安全合规、边缘情况,这些在原型中永远无法捕捉到,需要写下来。所以,它们的形式不同,但我认为比以往任何时候都更重要。
嗯,有意思。我想,这很大程度上也取决于 Abridge 所处的阶段。对于很多早期公司来说,就是拼命地往墙上扔 30 样东西,希望有一样能打动最终买家。一旦找到,原型优先的方法就非常强大。但对你们来说,任何行动都要跨越 200 个系统,涉及整个实施变革管理。你们只有几颗大子弹,要精准地打向想让这些系统做的事情。所以,深思熟虑非常有道理。也许当那些原型优先的公司发展到一定规模时,他们的观点也会变成你们这样。
周末演示和它在最大型医疗系统中实际运行之间,存在巨大的鸿沟。但这不意味着我们不能快速行动。我觉得这是我职业生涯中构建速度最快的时期。
和 Loom 相比呢?
是的,考虑到我们试图构建的产品的复杂性和规模,以及要解决的问题,我会说,也许我更新一个流程或快速发布一个新功能很快。但如果你想想我们正在构建的一些产品,比如试图将原本需要 45 天、跨越 20 个接触点的预先授权流程压缩成一个,我觉得我比以往任何时候都建得更快。所以,深思熟虑实际上让我们能快速做正确的事情。这听起来矛盾,但确实如此。
嗯,这很有趣。我认为在 AI 讨论中,当很多事情都在变化时,我们有时会忽略那些经得起时间考验的东西,比如判断力和清晰度一直都很重要。作为工程师,有时我其实不想要原型。我更希望看到文字,那种来自写作的清晰度,然后我们再构建。当然,对于一些小事情,直接发布原型就好,不用纠结细节。所以,有趣的是,讨论中有时会丢失的细微差别是:我们当然需要重新校准判断力,因为成本和收益变了,但这不意味着我们要从一个极端走到另一个极端。
嗯。
除了你们自己的工具,我还喜欢问这个问题:你们最近还喜欢用哪些 AI 工具?
Claude Code,但这答案感觉太普通了。
你们整个工程团队都重度依赖 Claude Code 吗?
是的,非常依赖。我会——
不用 Cursor?
哦,我们也用 Cursor。
我就是确认一下。
我们有很多工具可用。但你看,就在今天早些时候,你看到工程师的屏幕上,同时跑着 6 个不同的 Claude 实例。有时同一个人,我还在沙发上看到他们用遥控器在手机上操作。非常普遍。对我来说,有趣的一点是,作为公司的新人,Claude Code 实际上帮助我更快地入职,我从中学到了很多。
我确实喜欢那些梗,比如“让 Claude 来做这个”。我想看到 Claude,用风投的话说,就是“我想看看 Claude 能不能在零收入的情况下创办一家估值 10 亿美元的公司”。我们总是喜欢把最后的话留给你们两位。那么,有什么地方可以让大家了解更多关于 Abridge、你们的工作以及你们所做的研究吗?请随意。
有几个地方。在我们的 Abridge 网站上,有很多白皮书,我们做了很多有趣的工作,比如减少幻觉。
顺便说一句,呈现得非常好。我很喜欢。
是的,谢谢。我们的科学团队严格定义了问题的本质。顺便提一下,在 Abridge 有一个有趣的点——我们团队里其实有好几位统计学教授。在那篇具体的白皮书中,Michael Oberst 是约翰霍普金斯大学的教授。正因为有他们,我们的工作才保持了很高的严谨性。同时,我们对设计的品味也源于出色的呈现方式。不过先不谈这个,我们后续还会有更多技术话题,请关注我们的 Twitter 账号 @BridgeHQ。另外,我还要稍微宣传一下,我们即将与 Andrew Horowitz 举办一场名为“深入探讨 AI 与医疗”的开放日活动。
太棒了。嗯,非常感谢。
这非常有趣。
好的,谢谢。