X · 研究者一手
@rasbt 一个用于教育目的的小型 Qwen3.5 从头复现:(probabl…
@rasbt A small Qwen3.5 from-scratch reimplementation for edu purposes: (probabl…
摘要
一个用于教育目的的小型Qwen3.5从头重新实现已发布。该模型采用Gated DeltaNet模块,该模块不增加KV cache大小。凭借3:1的比例,Qwen3.5在内存友好性上优于之前的Qwen3模型。
一个用于教育目的的小型 Qwen3.5 从头重新实现:https://t.co/OnupgeE55l
(可能是目前最适合在设备上捣鼓的"小型"LLM)https://t.co/LwyF8x6sle
Gated DeltaNet 模块真正好的一点是,它们不会增加 KV cache 的大小。 因此,凭借 3:1 的比例,Qwen3.5 在内存友好性上远胜于之前的 Qwen3 模型。https://t.co/AhegasegIB
译自 X · 研究者一手 · 录于 二〇二六年五月十二日