斯坦福新作无指令调优的指令遵循

斯坦福新作：无指令调优的指令遵循

机器之心报道编辑：杜伟、陈陈指令调优（Instructiontuning）是一种优化技术，通过对模型的输入进行微调，以使其更好地适应特定任务。先前的研究表明，指令调优样本效率是很高效的，只需要大约1000个指令-响应对或精心制作的提示和少量指令-响应示例即可。本文中，来自斯坦福大学的研究者更进一步探索了这样一种想法，即指令遵循甚至可以隐式地从语言模型中产生，即通过并非明确设计的方法产生。本文发现了两种执行隐式指令调优的适应形式，与显式指令调优相比，它们似乎存在缺陷：（1）响应调优，仅对响应进行训练；（2）单任务调优...

科技生活 2024-09-27 751 0 斯坦福新作无指令调优的指令遵循

1