
中国南方大学的帕祖实验室和科技大学共同引发了一种与环境(注意CCA)进行批判性关注的机制,以实现超长文本的有效背景建模。在128K超长序列上下文建模任务中,CCA护理推理率是标准自动关节机制的7.9倍,使用键值内存(KV CACH)的使用降低了93%。文档标题:长上下文语言建模的中央上下文识别链接运输:https://arxiv.org/pdf/2412.12465代码链接:https://github.com/chenyaofo deepseek nsa and nsa and kimi moba。 CCA Care不仅具有快速的速度和资源的速度较低,而且还为上下文建模的准确性和效率建立了新的参考点,并在长期处理中注入了新的驱动力。引入研究[1,2,3]发现,大多数LLM层中的注意力重点主要集中在几个令牌中,表明显着的分散体离子(见图1)。这一发现表明,这种稀缺特征可用于降低注意机制的计算复杂性。可视化模型2-7B的重量,阴影的深度越深,注意力的重量就越大。在上下文中,最终令牌仅对某些芯片有很大的关注。换句话说,注意力的重量存在很大的短缺。现有的稀缺方法[5,6,7]通常通过预定义的分散模式降低计算成本。但是,问题和答案要求关键信息在上下文中分布在不同位置,并且该模型必须能够访问任何地方的信息。方法分解通常会忽略维持令牌之间可访问性的重要性,这可能会导致信息传输有限,并以长序列和复杂的任务影响模型的性能。为了解决这个问题,作者提出了一个长而高度的效果插件的高度文本上下文建模方法。这是以下特征的主要内容:这是响应疑问的警告机制(CCA-法)。有效的长文本建模:通过世界护理分组和局部保护的注意,可以维持长期依赖性建模能力。线性计算机复杂性:通过以关键上下文的方式引入中央代币,可以很大程度上提高计算机效率。插头和复制集成:不需要对模型的修改,并且可以通过稍微调整进行优化所需的性能,并在先前训练的LLMS中进行怨恨。与DePseek [8]发布的NSA相比,它需要引入其他压缩模块和从头开始的LLM培训,CCA athena张力可以完美地替换现有的无参数和其他修改的现有标准的自助幕模块NS对模型的结构。与月球释放的MOBA [9]相比,通过激活机制丢弃无关的块,动态地将CCA-ACENA张力凝结为中央令牌,保证了完全触及的信息相互作用并保持完整的全局建模功能,同时降低了计算复杂性。 CCA-atencion:创新的解决方案CCA注意示意图全球感知小组:智能运动以减少计算维度。标准顺序的compics ComplectityAction在物理上随着序列的长度而物理增加,并且长序列操作的计算超载非常高。许多研究发现,注意力的分布并不统一,大多数注意力权重分配给了几个重要的代币,其余的仅贡献了冗余背景。受到这一点的启发,作者提出了一个全球感知组模块。具体而言,入口序列分为不结束的组互相圈,是组的大小。计算了I组的咨询向量以及该组中所有令牌的主要向量的咨询向量,并获得了该组的中心。使用该组的最后一个令牌。与I组中最后一个令牌相对应的咨询向量是I组的重要矩阵,总和是一个学习参数。代币的中心以从令牌中央获得序列以减少冗余。作者使用中央令牌序列来减少注意计算而不是原始令牌来降低维度,从而降低计算和存储复杂性。通过核心令牌序列计算得出的键值矩阵如下:以下是可以学习的参数。局部保留模块:捕获本地单元的关键是,由于其压缩属性,全球感知组模块可以有效地捕获长范围单位,但是本地细粒情境可以是IGNored,这些局部语义对于语言建模同样重要。为此,作者还提出了本地压力模块,以向全球模块提供有效和互补的信息。具体而言,该模块可确保每个令牌PUEDA至少要关注原始令牌W,从而捕获本地上下文信息并保留连续的语义信息。为了解决在整个组大小的生成过程中保持标记数量难度的问题,作者建立了本地窗口的大小以避免组的大小。原始令牌序列是线性转换的钥匙值矩阵。本地储备模块与全局分组模块共享线性转换参数,而无需引入其他参数过载。实际上,局部模块提供了良好的语义支持,以补偿全球压缩引起的信息损失,并共同形成Complete上下文建模系统。全局局部模块可以是微置。创建一个积分可访问桥。全局Aking组模块和本地模块仅包含计算的代币的一部分,从而导致注意力的访问有限。为了解决这个问题,作者使用了全球局部模块的微置策略。具体而言,此策略结合了两个护理模块的键值矩阵。形成一个统一的密钥矩阵。因此,CCA护理的最终输出表示如下:总价值矩阵的输出计算公式,每个位置如下:Tritons的基本加速度:提高效率的强大动机。作者实现了基于Triton的基于CCA的CCA核心,以在训练,完整和解码过程中在水平上达到闪存加速度。作者利用Flashat的设计思想,整合使用Triton的基础操作员,整合了分组的全球关注和尊敬保留的离子独立运营商与缓存友好的前提,有效地消除了冗余计算,本地支持KV缓存技术,进一步提高了培训的计算效率。与标准的自我定义机制相比,CCA的注意力可实现更快的执行速度,并且由于计算机复杂性的显着优势和KV高速缓存内存的足迹而导致的内存使用效率更高。实验结果实验配置作者对CARA2-7B-32K和CALL2-7B-80K的模型应用了CCA法,并调整了1,000个步骤,并调整了1,000个步骤。比较方法包括有效的注意方法,例如Streamingllm,LM侵入和奴才。资格指标涵盖了较长的银行积分以及多个问题和答案的问题和答案的精确巧合得分(EM分数),并在长期任务中彻底衡量模型的性能。 CCA-LLM长序列语言E建模在Longbench-E参考点上达到了最高的平均得分。以CALL 2-7B-32K为例,其得分明显优于无限和罚款LM。在CALL 2-7B-80K模型中,CC的注意力继续效果很好,平均得分与标准自动关节相当,同时大大减少了推理延迟和视频记忆的使用,从而提供了长期测序效率的很大优势。长序列语言建模实验多文件的问题和答案是长期文档的答案,并提高了上下文的长度。当处理64K和128K等超长环境时,CCA-LLM的EM得分超过了标准的自催化机制,显着提高了推断速度:在128K的上下文长度上,推理速度达到了7.9倍的7.9倍,是标准自动催化方法的7.9倍,表明在高效的长文本模型中表现出了出色的优势。与标准的自我rengis相比TRACT和其他有效注意的方法(例如微妙),CCA的注意在推理速度和使用记忆的速度上显示出显着的优势。与仅关注精度阶段的加速度的奴才不同,CCA的注意力可以同时优化Prefesta的两个阶段和解码,从而通过极端到极端并通过完整的过程进行了推断。 CCA注意力的推理率达到了64K的上下文长度,其关节体自动离子的5.7倍,并且使用KV缓存视频存储器的使用也大大降低了。在128K上下文任务中,推理率增加了7.9倍,使用KV缓存存储器的使用降低了93%,这完全反映了长距离建模的效率和实用性。比较记忆和计算效率的一般描述作者为长序列建模提出了重要的上下文护理机制(CCA-法)。与标准的自我定义相比在保持模型性能的同时,护理大大减少了计算过载。该方法由两个互补模块组成。全球感知组模块:中央令牌(中央令牌)是根据随后注意计算中使用的输入令牌的重要性提取的,以有效捕获fllobal厚的谷物构造。本地储备模块:作为全球小组模块的有效补充,它重点介绍了相邻令牌的上下文细粒信息。实验结果表明,CCA Care在各种长文本任务中都效果很好,从而显着提高了计算机效率,实用性和整合。 6月1日在晚上7点之间的0篇文章。晚上8点,Chen Yafo带来了实时广播的交流,以帮助实时在线广播,以帮助每个人更好地工作。欢迎所有人来到现场广播室进行沟通。客人的个人资料:Chen Yofo获得了Technolo的博士学位中国南部基督教大学于2024年,目前是中国技术大学Futura技术学院的博士后研究员。主要的研究解决方案是设计和优化有效的神经元网络结构,以及模型的迁移和概括。他们在AI ICML,ICLR,CVPR和AAAI的主要国际会议上进行了讨论,并在IEEE TCSVT领域和神经元网络中发表了著名的杂志。总共有13篇文章,Google Scholar引用了超过900次。实时广播储备:此实时广播有质量控制会议,每个人都可以加入小组并聊天。参考[1] longformer:长文档变压器。 Arxiv预印型ARXIV:2004.05150,2020。高级神经信息处理系统,33:17283–17297,2020。[3]带有警告槽的有效传输语言模型。在202的国际学习表达会议上4。[4] Llama:开放有效的基本语言模型。 ARXIV:2302.13971,2023。[5]带有Awarning Anns的有效传输语言模型。在2024年的国际学习表达会议上。[6] LM Infinite:大规模语言模型中简单的长度的概括。 Arxiv预印型ARXIV:2308.16137,2023。国际学习表达会议,2024年。LLMS,2025。