為破解大模型部署與推理成本高昂的困境,近日,北京大學(xué)楊仝教授團(tuán)隊(duì)首次提出名為iFairy的超低比特量化方案。該方案創(chuàng)新性地利用復(fù)數(shù){1, i}對(duì)模型權(quán)重進(jìn)行2-bit量化,在實(shí)現(xiàn)1/8極致壓縮與無(wú)乘法推理加速的同時(shí),語(yǔ)言建模能力和下游任務(wù)表現(xiàn)反超了同尺寸的全精度LLaMA基座模型。相關(guān)論文題為iFairy: the First 2-bit Complex LLM with All Parameters in {1, i}。 研究聚焦于大語(yǔ)言模型在真實(shí)應(yīng)用中的空間和時(shí)間瓶頸。傳統(tǒng)全精度模型參數(shù)量大、推理能耗高;盡管已有低比特量化降低了模型體積,但核心矩陣乘法仍廣泛依賴(lài)乘法運(yùn)算,難以從根