详解大模型微调方法LoRA Adapter(内附实现代码)
1. 背景介绍
以GPT-3
175B参数量为例,过大的参数量在Finetune的时候代价很大,Adapter适配器方法是进行大模型微调的方法之一。Adapter方法的主要思路是在模型网络结构中加入新定义的Adapter适配器部分,在重训的过程中只更新Adapter部分的网络参数。Adapter-based tuning
最早源于19年的【ICML2019:
Parameter-Efficient Transfer Learning for NLP adapters】
Adapter
module会先把输入的d
维向量映射为一个小的m
维向量,通过非线性层后,再从m
维向量映射回d
维向量;其中也用到了残差网络,结构如下图(右):
Adapter的效果可以大幅减少微调的参数量: