12月17日,星期三
2 小时前
小米新技术降低长文本处理成本

#小米天才少女罗福莉首次登场# MiMo-V2-Flash 在保持长文本性能的同时,还降低了成本,究其原因,离不开两项核心技术创新。

1.混合滑动窗口注意力机制:

传统大模型处理长文本时,全局注意力机制会导致计算量二次爆炸,存储中间结果的 KV 缓存也跟着飙升。小米这次采用了 5 比 1 的激进比例,5 层滑 ​……

[展开]
加载更多