2024年行情一360一

第1362章 字节豆包UltraMem稀疏模型架构,推理成本最高可降低83%(第2页)

 ultramem的创新主要体现在三个方面:优化模型结构、优化value检索方式以及隐式扩展稀疏参数。

 首先,在模型结构上,ultramem借鉴了pkm(product key memory)的设计,但对其进行了改进。pkm的memory layer只有一层,插在整个transformer的中间层,这对大规模训练并不友好。ultramem则拆分出多个小memory layer,以固定的间隔分布在transformer layer中,并增加了skip-layer操作。这使得模型可以并行地执行memory layer的访存操作和transformer layer的计算,从而提高了推理效率。

 其次,在value检索方式上,ultramem采用了更复杂的乘法方法tucker deposed query-key retrieval(tdqkr)。这一方法受启发于tucker deposition,通过组合乘加行score和列score,提高了value检索的复杂度,从而优化了模型效果。

 最后,在隐式扩展稀疏参数方面,ultramem提出了implicit value expansion(ive)方法。该方法通过引入virtual memory和physical memory的概念,隐式地扩展了稀疏参数的数量,从而提高了模型的性能。同时,由于ive方法中没有非线性操作,因此可以与physical memory table进行融合,生成全新的memory table,进一步降低了显存和部署成本。

 ultramem的实验验证与性能评估

 为了验证ultramem的有效性,研究团队在多个尺寸的激活参数上进行了广泛实验。实验结果表明,ultramem在680m和1.6b的激活参数上具有显着的效果优势。随着稀疏参数的增加,ultramem的效果和推理速度均表现出良好的扩展性。