一文看懂MoE的前世今生,大模型的未來(lái)它說(shuō)了算?
分類: 最新資訊
潛能詞典
編輯 : 潛能
發(fā)布 : 05-01
閱讀 :226
出品|科技《態(tài)度》欄目作者|薛世軒編輯|丁廣勝所有的創(chuàng)新都有其現(xiàn)實(shí)驅(qū)動(dòng)力。在互聯(lián)網(wǎng)巨頭的世界,這一驅(qū)動(dòng)力就是成本。“降本增效”的邏輯貫穿著技術(shù)演進(jìn)的始終,大模型架構(gòu)也不例外。目前,大模型的發(fā)展已經(jīng)到了一個(gè)瓶頸期,包括被業(yè)內(nèi)詬病的邏輯理解問(wèn)題、數(shù)學(xué)推理能力等,想要解決這些問(wèn)題就不得不繼續(xù)增加模型的復(fù)雜度。如何平衡大模型的訓(xùn)練難度和推理成本成為擺在各位玩家面前的難題。而MoE模型的日漸成熟為開(kāi)發(fā)者們重新指引了前進(jìn)的方向——通過(guò)改變模型底層架構(gòu),換一種耗能低且訓(xùn)練和推理效果好的模型架構(gòu)進(jìn)行大模型開(kāi)發(fā)。一、MoE的前世今生:老樹(shù)又冒新芽MoE(Mixture-of-Experts,專家混合),首次出現(xiàn)于1991年的論文Adaptive Mixture of Local Experts中,其前身是“集成學(xué)習(xí)”(Ensemble Learning),作為一種由專家模型和門(mén)控模型組成稀疏門(mén)控制的深度學(xué)習(xí)技術(shù),MoE由多個(gè)子模型(即專家)組成,每個(gè)子模型都是一個(gè)局部模型,專門(mén)處理輸入空間的一個(gè)子集。在“分而治之”的核心思想指導(dǎo)下,MoE 使用門(mén)控網(wǎng)絡(luò)來(lái)決定每個(gè)數(shù)據(jù)應(yīng)該被哪個(gè)模型去訓(xùn)練,從而減輕不同類型樣本之間的干擾。通俗來(lái)講,MoE就像復(fù)仇者聯(lián)盟,每個(gè)子模型(專家)都是一個(gè)超級(jí)英雄,門(mén)控網(wǎng)絡(luò)則是尼克·弗瑞,負(fù)責(zé)協(xié)調(diào)各個(gè)超級(jí)英雄,決定在什么情況下召喚哪位英雄。門(mén)控網(wǎng)絡(luò)會(huì)根據(jù)任務(wù)的特點(diǎn),選擇最合適的專家進(jìn)行處理,然后將各位專家的輸出匯總起來(lái),給出最終的答案。門(mén)控功能“稀疏性”的引入讓MoE在處理輸入數(shù)據(jù)時(shí)只激活使用少數(shù)專家模型,大部分專家模型處于未激活狀態(tài)。換言之,只有擅長(zhǎng)某一特定領(lǐng)域的超級(jí)英雄會(huì)被派遣,為用戶提供最專業(yè)的服務(wù),而其他超級(jí)英雄則原地待命,靜待自己擅長(zhǎng)的領(lǐng)域到來(lái)。這種“稀疏狀態(tài)”作為混合專家模型的重要優(yōu)勢(shì),進(jìn)一步提升了模型訓(xùn)練和推理過(guò)程的效率。MoE發(fā)展至今,離不開(kāi)兩個(gè)研究領(lǐng)域?qū)ζ渌龅木薮筘暙I(xiàn):專家作為關(guān)鍵組件與條件計(jì)算。