邱梓轩课题组|Qiu's Laboratory
设为首页 | 收藏本站

什么是模型蒸馏技术?

作者:张作满

想象一下,有一个非常聪明但复杂的大模型(比如GPT-4),它就像一个经验丰富的老师,但运行速度慢、成本高。而我们希望有一个“小学生”模型,能变得又快又轻,还能学到老师的本事。于是我们做了这几步:

1、老师做题示范:大模型先去看很多问题,并给出自己的答案。

2、 小学生学老师的答题思路:小模型不是直接看题本身,而是模仿老师是怎么答题的,学会老师的风格和技巧。

3、反复练习直到相似:小模型不断调整自己,直到给出的答案尽量像老师那样。这个“老师教学生”的过程,就是模型蒸馏。

它的好处是:模型更小、更快(适合部署在手机、浏览器上),性能尽量接近大模型。但是,这种蒸馏技术模型缺陷十分明显,主要表现在以下几点:

1、创造力和推理能力弱于原始大模型;

2、学生模仿老师解题思路容易学歪;

3、没有纠错能力难以超越老师;

4、对罕见情况容易判断错误,俗称“容易丢失知识”。

总结来说,高阶智力挑战,还需要“大模型”这种老师。