2月19日,星期三
02-19 11:05
DeepSeek发布新论文介绍注意力机制

#DeepSeek# 发布新论文,创始人梁文锋亲自挂名。

2 月 18 日,DeepSeek 官方发文公布了一篇新的论文,值得关注的是,论文中提出了一种新的注意力机制「NSA」。

据 DeepSeek 介绍,「NSA」是一个用于超快长上下文训练和推断的本地可训练的稀疏注意力机制,并且还具有与硬件对齐的特点。

研究通过对现 ​……

[展开]
加载更多