摘要
作者设计了一种方法——通过在Transformers的前馈和注意力投影层中实现8位整数(Int8)矩阵乘法来减少运行大型语言模型(LLM)所需的GPU内存。
We develop a procedure for Int8 matri
2024-02-16