什么是大模型的蒸餾(distillation),DeepSeek遭遇的“模型蒸餾”指控是怎么回事?
DeepSeek是一家新興的人工智能公司,最近因被指控使用Openai的技術(shù)進(jìn)行模型蒸餾而引發(fā)大量關(guān)注。OpenAI聲稱,DeepSeek可能通過蒸餾技術(shù)提取了其模型的知識(shí),從而開發(fā)出競(jìng)爭(zhēng)對(duì)手的產(chǎn)品。
什么是大模型的蒸餾(Distillation)?
大模型的蒸餾是一種模型壓縮技術(shù),旨在將一個(gè)大型、復(fù)雜的模型(稱為教師模型)的知識(shí)轉(zhuǎn)移到一個(gè)較小、更高效的模型(稱為學(xué)生模型)中。這一過程通過訓(xùn)練學(xué)生模型,使其能夠模仿教師模型的輸出,從而在保持性能的同時(shí)減少計(jì)算資源的消耗。
這一概念由Hinton等人在2015年提出,常用于模型壓縮、加速推理和降低部署成本,同時(shí)盡量保留原模型的性能。蒸餾技術(shù)在深度學(xué)習(xí)中被廣泛應(yīng)用,尤其是在自然語(yǔ)言處理和計(jì)算機(jī)視覺等領(lǐng)域。
下面用一張youtube“Jeff科技視角”Jeff Li的思維導(dǎo)圖體會(huì)一下。Jeff Li老師在《第379期:大模型的 蒸餾 (Distillation)及 DeepSeek 遭遇的指控》視頻中講得非常詳細(xì)。
大模型的蒸餾實(shí)施方式:
軟標(biāo)簽(Soft Labels): 使用教師模型生成的概率分布而不是硬標(biāo)簽來進(jìn)行訓(xùn)練。
隱藏激活(Hidden Activations): 將教師模型的部分中間層輸出作為輔助信號(hào)給學(xué)生模型。
注意力權(quán)重(Attention Weights): 如果涉及到序列模型,也可以遷移注意機(jī)制的相關(guān)信息
DeepSeek 遭遇的“模型蒸餾”指控
起因背景:
DeepSeek 是一家初創(chuàng)企業(yè), 提供了自己的大語(yǔ)言模型產(chǎn)品。
DeepSeek的低成本模型開發(fā)、開源、免費(fèi)策略可能威脅到OpenAI 和 Anthropic等公司的市場(chǎng)地位,導(dǎo)致競(jìng)爭(zhēng)對(duì)手對(duì)其展開了批評(píng),認(rèn)為 DeepSeek 不正當(dāng)使用他們的技術(shù)和數(shù)據(jù)。
關(guān)鍵點(diǎn):
OpenAI 的立場(chǎng)
指責(zé) DeepSeek 抓取并使用了未經(jīng)許可的數(shù)據(jù)來訓(xùn)練自己的模型。
自身存在的問題:OpenAI 自己也被指摘曾非法抓取互聯(lián)網(wǎng)上的數(shù)據(jù)來訓(xùn)練其模型,尤其是受版權(quán)保護(hù)的文章作品。此外,OpenAI 曾因?yàn)轭愃菩袨樵獾健都~約時(shí)報(bào)》等出版方的法律訴訟。
Anthropic 的觀點(diǎn)
反駁嚴(yán)重性: Anthropic 認(rèn)為 DeepSeek 并沒有達(dá)到對(duì)其產(chǎn)品的真正威脅的程度,稱其技術(shù)水平相當(dāng)于幾個(gè)月之前的版本而已。
微軟的態(tài)度
微軟在其Azure AI和GitHub平臺(tái)上線了 DeepSeek 模型,顯示出某種形式的支持態(tài)度,這也引發(fā)了關(guān)于利益沖突的討論。
模型蒸餾的具體爭(zhēng)議
合法性和規(guī)范性:模型蒸餾是一項(xiàng)常見的技術(shù)實(shí)踐,但在實(shí)際操作中有嚴(yán)格的規(guī)則約束。特別是針對(duì)商業(yè)用途和技術(shù)共享協(xié)議的規(guī)定,各家公司有不同的解讀和執(zhí)行力度。
如何界定 "未經(jīng)授權(quán)的方式" 獲取數(shù)據(jù)?
是否允許使用某些 API 輸出的數(shù)據(jù)來訓(xùn)練新的競(jìng)爭(zhēng)性的模型?
證據(jù)和支持材料:目前雙方都沒有完全公開詳細(xì)的證據(jù)支持各自的主張,這增加了事件的復(fù)雜性和不確定性。
行業(yè)反應(yīng)和社會(huì)輿論
社區(qū)內(nèi)外對(duì)此事的看法不一,有人認(rèn)為這是市場(chǎng)競(jìng)爭(zhēng)的一部分表現(xiàn);但也有很多聲音關(guān)注此事背后的倫理和法律規(guī)定是否得到了充分尊重。
DeepSeek 遭遇的 “模型蒸餾” 控訴反映了當(dāng)前 AI 行業(yè)中存在的激烈競(jìng)爭(zhēng)態(tài)勢(shì)以及圍繞著數(shù)據(jù)使用權(quán)、技術(shù)創(chuàng)新邊界等方面的法規(guī)模糊地帶帶來的挑戰(zhàn)。
相關(guān)文章
- 用戶登錄