一声棒喝,本不立文字
偏要著録,已是二义

X · 研究者一手

@rasbt 一个用于教育目的的小型 Qwen3.5 从头复现:(probabl…

@rasbt A small Qwen3.5 from-scratch reimplementation for edu purposes: (probabl…

二〇二六年五月十二日 · 英文原文

一个用于教育目的的小型Qwen3.5从头重新实现已发布。该模型采用Gated DeltaNet模块,该模块不增加KV cache大小。凭借3:1的比例,Qwen3.5在内存友好性上优于之前的Qwen3模型。

一个用于教育目的的小型 Qwen3.5 从头重新实现:https://t.co/OnupgeE55l

(可能是目前最适合在设备上捣鼓的"小型"LLM)https://t.co/LwyF8x6sle

Gated DeltaNet 模块真正好的一点是,它们不会增加 KV cache 的大小。 因此,凭借 3:1 的比例,Qwen3.5 在内存友好性上远胜于之前的 Qwen3 模型。https://t.co/AhegasegIB

译自 X · 研究者一手 · 录于 二〇二六年五月十二日