OpenAI研究員稱:Deepseek發(fā)現(xiàn)了他們?cè)趯?shí)現(xiàn)o1的過程中的一些核心理念
Mark Chen (@markchen90)1月28 日
祝賀 DeepSeek 成功開發(fā)出 o1級(jí)推理模型!他們的研究論文表明,他們發(fā)現(xiàn)了我們?cè)趯?shí)現(xiàn)o1的過程中的一些核心理念。
然而,我認(rèn)為外界對(duì)這項(xiàng)成果的反應(yīng)有些過度,尤其是在關(guān)于成本的敘述上。有兩個(gè)范式(預(yù)訓(xùn)練和推理)意味著我們可以在兩個(gè)軸線上優(yōu)化能力,而不僅僅是一個(gè),這降低了整體成本。
但這也表明我們可以沿兩個(gè)方向擴(kuò)展能力,而我們計(jì)劃在這兩個(gè)方向上積極投入計(jì)算資源!
隨著蒸餾研究的進(jìn)步,我們也發(fā)現(xiàn)降低成本和提升能力這兩者之間的關(guān)系越來越獨(dú)立。以更低成本提供服務(wù)(尤其是在較高延遲的情況下)并不代表能夠?qū)崿F(xiàn)更高的能力。
我們將繼續(xù)優(yōu)化模型以更低的成本提供服務(wù)同時(shí)對(duì)我們的研究計(jì)劃保持樂觀并專注于實(shí)施。今年第一季度以及全年,我們期待為大家?guī)砀鼜?qiáng)大的模型!
相關(guān)文章
DeepSeek R1-0528有哪些功能更新?
2025-05-29