介绍 talkie:来自 1930 年的 13B 复古语言模型
Introducing talkie: a 13B vintage language model from 1930
Nick Levine、David Duvenaud、Alec Radford 发布 talkie-1930-13b-base 与 talkie-1930-13b-it,分别基于 260B 个 1931 年前英语 tokens 训练和用历史参考书 instruction-response pairs finetune,采用 Apache 2.0;chat model 还使用 Claude 生成与评估 synthetic chats,团队称后续或分享 corpus/scripts。
介绍 talkie:来自 1930 年的 13B 复古 language model
Nick Levine、David Duvenaud 和 Alec Radford(因 GPT、GPT-2、Whisper 而知名)的新项目。talkie-1930-13b-base (53.1 GB) 是一个“在 260B tokens 的 1931 年前历史英语文本上训练的 13B language model”。talkie-1930-13b-it (26.6 GB) 是一个 checkpoint,“使用一种新数据集进行 finetune,该数据集由 1931 年前参考书中提取的 instruction-response pairs 组成”,用于驱动 chat interface。你可以在这里试用。两个模型均采用 Apache 2.0 license。
由于 base model 的 training data 完全不受版权限制(美国版权截止日期目前是 1931 年 1 月 1 日),我希望他们之后也决定发布 training data。关于这一点的更新:Nick Levine 在 Twitter 上表示:未来会发布更多关于 corpus 的内容(并尽力分享数据,或至少分享复现数据的 scripts)。
他们的 report 提出了一些针对这类 model 的有趣研究目标,包括:
这些模型预测未来的能力如何?“我们计算了一个在 1931 年前文本上训练的 13B model 对历史事件简短描述的 surprisingness。”
这些模型能发明超出其 knowledge cutoff 的东西吗?“正如 Demis Hassabis 所问,一个训练到 1911 年的 model,能否像 Einstein 在 1915 年那样独立发现 General Relativity?”
它们能被教会编程吗?“Figure 3(左侧)展示了这类测试的早期示例,用于衡量在 1931 年前文本上训练的 models 在给定少量 Python programs 演示示例时,能否写出新的正确 programs。”
我长期关注我称为“vegan models”的东西——完全基于已授权或无版权数据训练的 LLMs。我认为这里的 base model 符合这个标准,但 chat model 并不完全纯粹,因为它依赖非 vegan models 来帮助 fine-tuning——重点是我加的:
首先,我们从具有规则结构的历史文本中生成 instruction-response pairs,例如礼仪手册、书信写作手册、食谱、词典、百科全书,以及诗歌和寓言集(见 Figure 7),并使用简单的 chat format 在这些数据上 fine-tune 我们的 base model。接下来,为了提升 instruction-following 能力,我们生成了覆盖不同任务类型的 synthetic prompts,例如总结文档、回应直接信息请求,以及连贯地延续多轮对话。随后,我们对由这些 prompts 生成的 rollouts 运行 online direct preference optimization,并使用 Claude Sonnet 4.6 作为 judge。[…] 最后,我们又进行了一轮 supervised fine-tuning,这次使用 Claude Opus 4.6 与 talkie 之间的 rejection-sampled multi-turn synthetic chats,以平滑其对话能力中持续存在的粗糙之处。
训练 talkie 的一个主要挑战,是避免意外污染:可能来自混入 training corpus 的 1931 年后文本,也可能来自现代 LLMs 在 fine-tuning 辅助过程中向 chat model 引入的时代错置知识。
我最近写过 Mr. Chatterbox,这是一个类似的复古 language model 项目,也不得不借助现代 LLMs 创建 synthetic conversations,以帮助训练 chat model。
talkie 团队希望最终突破这一限制:
虽然我们已经尽力在 post-train talkie 时避免现代影响,但使用 AI feedback 的 reinforcement learning 不可避免地会以时代错置的方式塑造 talkie 的行为。(7B 版本的 talkie 在 RL 后开始用 listicles 说话。)随着我们扩大规模,我们希望能够使用我们自己的复古 base models 作为 judges,从而实现一个完全自举、符合时代背景的 post-training pipeline。
我忍不住用我的经典测试 prompt 去试了 talkie demo:
Generate an SVG of a pelican riding a bicycle
它回复说:
一张鹈鹕骑自行车的 SVG 于 1860 年生成。鹈鹕被画成栖在车座上,长喙向前,双腿跨在车把两侧。这个想法来自这样一个事实:人们有时会在莱茵河岸边看到鹈鹕骑在马上捕鱼。
来自 Hacker News
标签:ai、generative-ai、local-llms、llms、training-data、ai-ethics、llm-release