麻省理工学院(MIT)和微软的研究学者发现,GPT-4模型具有优秀的代码自我纠错能力,而GPT-3.5不具有该特性,目前论文已经发布于ArXiv中。
▲图源ArXiv
当下市面上已经涌现出了一批专为代码而生的AI模型,但目前更多只是起到辅助开发者写代码的作用,例如IT之家小伙伴们熟悉的微软Copilot助理,这些AI模型当下仅能够生成代码片段,因此尚不能完全替代人工开发者。
研究人员通过研究GPT-4表示,当下实际上可以通过“模型的自我纠错”方式,令模型“反思自身所存在的不足之处”,以提升代码片段长度、并改善输出结果的准确度。
来自爱丁堡大学的研究者符尧表示,只有GPT-4才具备自我改进的能力,而较弱的GPT-3.5则没有这种特性,这一发现表明大型模型可能具有一种新型能力,即通过一系列用户反馈令AI自我纠错,最终得到令用户满意的结果,这种自我纠错的能力可能只存在于足够成熟的AI模型中。
在经过自我纠错后,GPT-4模型输出的代码有71%达到研究人员设定的要求,而使用GPT-4对GPT-3.5所生成的代码经过纠错后,这一批代码的通过率也达到了54%。
研究人员表示,当下可以将GPT-4的自我纠错方式应用于商业中,在扣除一系列纠错冗余成本后,依然能够产生一定的收益。论文总能够在一定程度上反映行业未来的趋势,因此有望在今后涌现出一批基于GPT-4的代码生成器。