simon-willison

介绍 talkie：来自 1930 年的 13B 复古语言模型

Introducing talkie: a 13B vintage language model from 1930

二〇二六年五月三日 · 英文原文

摘要

Nick Levine、David Duvenaud、Alec Radford 发布 talkie-1930-13b-base 与 talkie-1930-13b-it，分别基于 260B 个 1931 年前英语 tokens 训练和用历史参考书 instruction-response pairs finetune，采用 Apache 2.0；chat model 还使用 Claude 生成与评估 synthetic chats，团队称后续或分享 corpus/scripts。

介绍 talkie：来自 1930 年的 13B 复古 language model

Nick Levine、David Duvenaud 和 Alec Radford（因 GPT、GPT-2、Whisper 而知名）的新项目。talkie-1930-13b-base (53.1 GB) 是一个“在 260B tokens 的 1931 年前历史英语文本上训练的 13B language model”。talkie-1930-13b-it (26.6 GB) 是一个 checkpoint，“使用一种新数据集进行 finetune，该数据集由 1931 年前参考书中提取的 instruction-response pairs 组成”，用于驱动 chat interface。你可以在这里试用。两个模型均采用 Apache 2.0 license。

由于 base model 的 training data 完全不受版权限制（美国版权截止日期目前是 1931 年 1 月 1 日），我希望他们之后也决定发布 training data。关于这一点的更新：Nick Levine 在 Twitter 上表示：未来会发布更多关于 corpus 的内容（并尽力分享数据，或至少分享复现数据的 scripts）。

他们的 report 提出了一些针对这类 model 的有趣研究目标，包括：

这些模型预测未来的能力如何？“我们计算了一个在 1931 年前文本上训练的 13B model 对历史事件简短描述的 surprisingness。”

这些模型能发明超出其 knowledge cutoff 的东西吗？“正如 Demis Hassabis 所问，一个训练到 1911 年的 model，能否像 Einstein 在 1915 年那样独立发现 General Relativity？”

它们能被教会编程吗？“Figure 3（左侧）展示了这类测试的早期示例，用于衡量在 1931 年前文本上训练的 models 在给定少量 Python programs 演示示例时，能否写出新的正确 programs。”

我长期关注我称为“vegan models”的东西——完全基于已授权或无版权数据训练的 LLMs。我认为这里的 base model 符合这个标准，但 chat model 并不完全纯粹，因为它依赖非 vegan models 来帮助 fine-tuning——重点是我加的：

首先，我们从具有规则结构的历史文本中生成 instruction-response pairs，例如礼仪手册、书信写作手册、食谱、词典、百科全书，以及诗歌和寓言集（见 Figure 7），并使用简单的 chat format 在这些数据上 fine-tune 我们的 base model。接下来，为了提升 instruction-following 能力，我们生成了覆盖不同任务类型的 synthetic prompts，例如总结文档、回应直接信息请求，以及连贯地延续多轮对话。随后，我们对由这些 prompts 生成的 rollouts 运行 online direct preference optimization，并使用 Claude Sonnet 4.6 作为 judge。[…] 最后，我们又进行了一轮 supervised fine-tuning，这次使用 Claude Opus 4.6 与 talkie 之间的 rejection-sampled multi-turn synthetic chats，以平滑其对话能力中持续存在的粗糙之处。

训练 talkie 的一个主要挑战，是避免意外污染：可能来自混入 training corpus 的 1931 年后文本，也可能来自现代 LLMs 在 fine-tuning 辅助过程中向 chat model 引入的时代错置知识。

我最近写过 Mr. Chatterbox，这是一个类似的复古 language model 项目，也不得不借助现代 LLMs 创建 synthetic conversations，以帮助训练 chat model。

talkie 团队希望最终突破这一限制：

虽然我们已经尽力在 post-train talkie 时避免现代影响，但使用 AI feedback 的 reinforcement learning 不可避免地会以时代错置的方式塑造 talkie 的行为。（7B 版本的 talkie 在 RL 后开始用 listicles 说话。）随着我们扩大规模，我们希望能够使用我们自己的复古 base models 作为 judges，从而实现一个完全自举、符合时代背景的 post-training pipeline。

我忍不住用我的经典测试 prompt 去试了 talkie demo：

Generate an SVG of a pelican riding a bicycle

它回复说：

一张鹈鹕骑自行车的 SVG 于 1860 年生成。鹈鹕被画成栖在车座上，长喙向前，双腿跨在车把两侧。这个想法来自这样一个事实：人们有时会在莱茵河岸边看到鹈鹕骑在马上捕鱼。

来自 Hacker News

标签：ai、generative-ai、local-llms、llms、training-data、ai-ethics、llm-release

译自 simon-willison · 录于二〇二六年五月三日