これまでOpenAIの微調整はSFT(Supervised Fine-Tuning)を採用していましたが、今回採用された**強化微調整ReFT(Reinforced Fine-Tuning)**は、SFTを大きく超える可能性を秘めています。
ReFTの特徴
SFTがデータを記憶させ模倣させる手法であるのに対し、ReFTはモデルに特定の分野で推論能力を教えることを目指しています。これにより、OpenAIの「o1」モデルなど、特定分野に特化した専門モデルを強化微調整で構築することが可能になります。
かつて「o1」は「4o」に比べて知識面で劣ると批判されることがありましたが、ReFTを使えばこれを大きく改善できると言われています。
驚くべき点
実は、この「ReFT(強化微調整)」の技術路線は、ByteDance(字節跳動)の研究チームが初めて提案したものです。この手法について詳細に記した論文**「REFT: Reasoning with REinforced Fine-Tuning」**は、今年のACL 2024で発表されました。
参考資料
- 論文タイトル: REFT: Reasoning with REinforced Fine-Tuning
- 論文リンク: arXiv:2401.08967
この技術は、AIモデルのさらなる進化を牽引する可能性を秘めています。