大纲:

有点不一样的长文本

上周 minimax-text-01 发布,把模型的上下文窗口扩展到了4M,在此之前,最大的 Google 1.5 Pro 的 2M。

本来下文窗口的提升并不是新鲜事了,但是偶然看到好友九原客的测试,注意到这个模型有个跟以前的长文本不太一样的地方:输出的文本特别长。

CleanShot 2025-01-19 at 21.28.01@2x.png

我自己打开海螺官网,把一本 83 页,五万多 tokens 的英文书 PDF 放进去,然后让它「把文件的全部内容翻译成中文」。

我记得以前模型的输出一般都不会超过一万字,而且还会因为输出太长,拒绝此类需求。

但是海螺什么废话都没说,就开始表演全书翻译,这么一翻译就咣咣输出了十分钟。

翻译停止的时候,是书的第 47 页,我用软件统计了一下,大约两万字符。

CleanShot 2025-01-19 at 21.33.24@2x.png

在上周发布的技术报告里,确实写了这次的模型使用了不同于传统 transformer 架构,

还说这是第一次大规模使用线性注意力技术,不仅让训练和推理效率提升,还让模型的上下文窗口有了新突破。

于是我去补课了一下线性注意力的前世今生。

为什么线性注意力是关键

在OpenNLPLab的一篇《高效大语言模型的前世今生》的文章中提到,业界其实一直都在研究对 Transformer 架构优化的路线:

Transformer 其庞大的参数量和计算资源需求使得训练和部署成本变得极高;同时,模型的数据和计算复杂度也带来了隐私和安全的风险。为此,研究者们在模型优化、压缩、加密和隐私保护等方向进行了探索,以寻求更加高效和可信的解决方案。

高效的序列建模可以分为四大主要路线:

  1. 稀疏Transformer(Sparse Transformer);
  2. 线性Transformer(Linear Transformer);
  3. 长卷积(Long Convolution);
  4. 循环神经网络(RNN)。

而 MiniMax 的技术报告中提到他们最终的选择是Lightning Attention的线性注意力路线,并且这次的模型是线性注意力机制首次被大规模的部署:

我们的方法从选择最有潜力的架构开始,接着优化其底层的训练和推 理框架以确保其支持。对于网络架构,我们要求线性注意力——不仅理论上要合理,而且在实践中要高效,尤其是在处理长上下文的时候。 经过大量实验,我们选择了主要采用 Lightning Attention(Qin 等,2024b)的混合架构,这是一种线性注意力变体的I/O 感知实现(Qin 等,2022a) 。 在架构中,每七个 transnormer 块之后跟随一个带有 softmax 注意力的 transformer 块(Qin 等,2022a) ,并使用 lightning 注意力。 …

我们展示了线性注意力机制首次成功的大规模实现。

虽然线性注意力机制之前已经被研究过,但从未以如此规模部署过。

在这段报告里的引用文字中,频繁地提到了一个研究员的名字:Qin。