想象一下,有一个非常聪明但复杂的大模型(比如GPT-4),它就像一个经验丰富的老师,但运行速度慢、成本高。而我们希望有一个“小学生”模型,能变得又快又轻,还能学到老师的本事。于是我们做了这几步:
1、老师做题示范:大模型先去看很多问题,并给出自己的答案。
2、 小学生学老师的答题思路:小模型不是直接看题本身,而是模仿老师是怎么答题的,学会老师的风格和技巧。
3、反复练习直到相似:小模型不断调整自己,直到给出的答案尽量像老师那样。这个“老师教学生”的过程,就是模型蒸馏。
它的好处是:模型更小、更快(适合部署在手机、浏览器上),性能尽量接近大模型。但是,这种蒸馏技术模型缺陷十分明显,主要表现在以下几点:
1、创造力和推理能力弱于原始大模型;
2、学生模仿老师解题思路容易学歪;
3、没有纠错能力难以超越老师;
4、对罕见情况容易判断错误,俗称“容易丢失知识”。
总结来说,高阶智力挑战,还需要“大模型”这种老师。
|