英特尔宣告将AutoRound算法集成到LLM Compressor,以提高低比特量化大模型的功能与功率。该算法可在坚持模型准确度的前提下,完成更快、更轻量的推理,一起兼容包含英特尔自家GPU与英伟达CUDA在内的多硬件渠道。
英特尔未来推出的“Crescent Island”系列数据中心GPU将原生支撑FP8/MXFP8/MXFP4等格局,使量化模型可以直接使用这一些数据类型带来的硬件加快优势。AutoRound是面向大言语模型(LLM)与视觉言语模型(VLM)的先进后练习量化(PTQ)算法,通过为每个量化张量引进三个可练习参数(v、α、β),合作逐层处理和符号梯度下降办法,完成更精准的舍入和裁剪优化。
AutoRound的首要优势包含:在低比特量化条件下保持较高准确度;支撑多种数据类型;可进行混合比特与按层精度查找;零额定推理开支;适用于LLM与VLM的量化场景。该算法生成的量化模型可在多个英特尔硬件渠道上加快推理,包含Xeon处理器、Gaudi加快器、英特尔数据中心GPU、Arc B系列显卡,以及CUDA生态的GPU。
当时AutoRound已支撑Llama、Qwen等干流密布LLM,并供给轻量的调优流程。英特尔表明,未来将持续扩展更多量化计划、主动混合比特查找、更多模型族,并加强与LLM Compressor其他紧缩算法的协同。
,安博体育网页版登录