2月17日上午消息,月之暗面研究員Flood Sung近日分享了k1.5 模型背后的完整思考過程,并透露稱,2024年9月 12 號OpenAI o1 發(fā)布帶來的震撼效果,令自己陷入了Long-CoT的有效性反思中。因為 Long-CoT 的有效性,其實在一年多前月之暗面Kimi聯合創(chuàng)始人Tim周昕宇就驗證過,使用很小的模型,訓練模型做幾十位的加減乘除運算,將細粒度的運算過程合成出來變成很長的 CoT 數據做 SFT,就可以獲得非常好的效果。
“我依然記得當時看到那個效果的震撼。”Flood Sung表示,公司意識到 Long Context的重要性,所以率先考慮把 Context 搞長,但卻對 Long-CoT 這件事情不夠重視,其實主要還是考慮了成本問題。“Long Context 主要做的是長文本輸入,有 Prefill 預填充,有 Mooncake 加持,成本速度可控,而 Long-CoT 是長文本輸出,成本高很多,速度也要慢很多,在這種情況下,把輸出搞長就沒有成為一個高優(yōu)選項。”
Flood Sung反思道,“但還有什么比 Performance (性能)更重要呢?成本和速度有摩爾定律加持,可以不斷下降,只要把 Performance 搞上去,剩下的都不是主要問題。”所以,我們得搞 Long-CoT,搞 o1。“All in All,我們就是要訓練模型能夠像我們人一樣思考,自由地思考。”Flood Sung表示。
在月之暗面Kimi官網上,Flood Sung刊發(fā)了一篇解密o1破解過程的萬字長文,預示了公司關注并開始對標o1并推進相關研究的實質性動作。