X · 研究者一手

@karminski3 哪来的 Qwen3.5-40B Dense? 阿里可没这个模型啊, Qwen3.5 系列是没40B这个尺寸的. 这个 Qwen3.5-…

@karminski3 哪来的 Qwen3.5-40B Dense? 阿里可没这个模型啊, Qwen3.5 系列是没40B这个尺寸的. 这个 Qwen3.5-…

二〇二六年五月十五日 · 英文原文

DavidAU 团队基于 Qwen3.5-27B Dense 模型,通过 "Heretic" 消融去审查化,再使用私有 "Deckard/PDK" 数据集后训练,随后复制中间 50% 参数扩至 40B,最后用 Unsloth 在本地硬件上以 Claude Opus 蒸馏数据集 claude-opus-high-reasoning-250x 微调。该模型在创意回答上表现独特,但代码生成存在变量定义和作用域问题。

哪来的 Qwen3.5-40B Dense?

阿里可没这个模型,Qwen3.5 系列没有 40B 这个尺寸。这个 Qwen3.5-40B Dense 是 DavidAU 这个团队搞的。

搞的方式很有意思:

第一步先去马:首先用的基模是 Qwen3.5-27B Dense,然后用 "Heretic" 消融去审查化(Uncensored),这个我之前给大家介绍过,是通用方法了。去马完毕后使用他们私有的 "Deckard/PDK" 数据集进行后训练。这个名字来源于《银翼杀手》的主角 Rick Deckard,专注于赋予模型性格、智力、深度、观察力和视角,但这个数据集是不公开的(小声猜可能有版权问题...)

第二步增肥:将上一步的模型掐头去尾留中间,把中间 50% 的参数复制一份。为啥要掐头去尾呢?主要是 Dense 模型前面的层通常负责基础词汇和语法的理解,最后面的层负责把特征映射回人类文字。而中间层则负责抽象逻辑和深度语义。所以只有中间层有复制的价值。

阶段三再回炉:使用 Unsloth 在本地硬件上对这个新诞生的 40B 模型进行高强度的微调,使用的数据集是之前比较火的 Claude Opus 蒸馏推理数据集 claude-opus-high-reasoning-250x。这一步的作用有两个:一是稳定一切,让拼出来的 40B 参数融合成一个整体不至于崩溃;二是优化,让模型掌握可变长度推理,即简单问题简答,复杂问题长思考的能力。

那这个模型具体性能咋样?我用 mlx 4bit 版本试了一下:

prompt: 路边有个狗咬了我一口,我很生气,我应该追上它咬回来吗?请给我一个我最意想不到的回答

模型:

"狗咬了你,是因为它觉得需要保护自己或它的领地。如果你追上去咬它,你会发现——你刚才咬人的理由和它咬你的理由,完全一样。"

或者,更高阶的意外版本:

"不,你去写篇文章,标题是'我今天决定不成为咬人的那个'。点击率至少 50 万,版税够买五瓶狂犬疫苗,还能顺便帮流浪动物救助站认领这只狗。举报者会变认捐者,受害者变救援者——这才是真正咬回去:不过是用医术和善意,把整个故事改写成另一个版本。"

现实的检验:狗能咬掉你的皮,但只有你能决定咬掉的是什么——是理智,还是你自己原本的模样。

P.S. 如果伤口还在,请记得打破伤风针。让伤口愈合,不是为了原谅谁,是为了自己能继续参与自己选择的故事。

(另,我试了写代码,结论是这玩意没办法用来写代码,会有变量定义和作用域的问题,感觉还是上下文能力和幻觉水平被破坏了...)

效果就 emmmm.... https://t.co/Q6wr7C8kBe

译自 X · 研究者一手 · 录于 二〇二六年五月十五日