OpenAI“雙12”直播第二天,依舊簡(jiǎn)短精悍,主題:
新功能強(qiáng)化微調(diào)(Reinforcement Fine-Tuning),使用極少訓(xùn)練數(shù)據(jù)即在特定領(lǐng)域輕松地創(chuàng)建專家模型。
少到什么程度呢?最低幾十個(gè)例子就可以。
CEO奧特曼表示“效果一級(jí)棒,是我2024年最大的驚喜,期待看到人們構(gòu)建什么!”
那么效果有多棒呢?
微調(diào)后的o1-mini模型得分提高80%,直接反超o1正式版。
目前OpenAI已開啟強(qiáng)化微調(diào)研究計(jì)劃,開發(fā)者可以申請(qǐng)強(qiáng)化微調(diào)API的alpha版本訪問權(quán)限。
進(jìn)行測(cè)試時(shí),可使用幾十到幾千個(gè)高質(zhì)量數(shù)據(jù),模型能夠通過強(qiáng)化學(xué)習(xí)自行探索和學(xué)習(xí)如何推理復(fù)雜任務(wù)。
蹲守直播間的網(wǎng)友們聽得也是one愣one愣的,完全沒有料想到今晚“圣誕盲盒“是醬嬸兒的。
OpenAI員工Jerry Tworek則表示“AGI不是授人以魚,而是授人以漁”。
OpenAI微調(diào)首次支持強(qiáng)化學(xué)習(xí)
直播嘉賓除了Mark Chen、John Allard、Julie Wang三位OpenAI自家研究員,還有伯克利實(shí)驗(yàn)室計(jì)算生物學(xué)家Justin Reese,他們共同演示了強(qiáng)化微調(diào)功能的全過程。