大模型的無限上下文與數(shù)據(jù)集組合藝術(shù)
來源 | Latent Space OneFlow編譯 翻譯|賈川、楊婷、宛子琳 上下文長度曾是GPT-3的最大限制之一。GPT-3最多只能接收4000個詞元(3000詞,6頁),否則就會報錯。因此,為處理長文檔和提示(prompt),就需要引入 LangChain 等其他檢索技術(shù)。不過,MosaicML(已被Databricks以約13億美元收購)在5月初開源的MPT-7B上下文長度可達(dá)84000個詞元(63000個詞,126頁),大大擴(kuò)展了可處理的文本范圍,隨后,Anthronpic公司開發(fā)的Claude模型的上下文長度擴(kuò)展到10萬個詞元。 MPT-7B是從頭開始訓(xùn)練的,使用了1萬億個詞元的文本和代碼作為訓(xùn)練數(shù)據(jù)。相比其他類似模型(如Pythia和OpenLLaMA使用了3000億個詞元,StableLM使用了8000億個詞元),MPT-7B的訓(xùn)練數(shù)據(jù)規(guī)模更大,其質(zhì)量可與LLaMA-7B相媲美。該模型在MosaicML平臺上進(jìn)行訓(xùn)練,使用了440個GPU,訓(xùn)練過程耗時9.5天,并且沒有人為干預(yù),成本約為20萬美元。與其他開放模型不同,MPT-7B開放了商業(yè)使用許可,并利用FlashAttention和FasterTransformer對快速訓(xùn)練和推理進(jìn)行了優(yōu)化。 (MPT-7B在零樣本學(xué)術(shù)任務(wù)中的表現(xiàn)) MosaicML還發(fā)布了三個基于基礎(chǔ)MPT-7B進(jìn)行微調(diào)的MPT-7B-Instruct、MPT-7B-Chat、MPT-7B-StoryWriter-65k+模型。
除模型checkpoint外,該團(tuán)隊還通過他們新的MosaicML LLM Foundry開源了用于預(yù)訓(xùn)練、微調(diào)和評估MPT的完整代碼庫。以上表格就是利用LLM Foundry中的上下文學(xué)習(xí)評估框架而創(chuàng)建。 MosaicML首席科學(xué)家Jonathan Frankle和研究科學(xué)家Abhinav Venigalla是MPT-7B的負(fù)責(zé)人,主導(dǎo)了MPT-7B的整個訓(xùn)練過程。在Latent Space的最新播客中,主理人Swyx、Decibel Partners合伙人Alessio與他們探討了MPT-7B訓(xùn)練過程的創(chuàng)新之處,解釋為什么LLM數(shù)據(jù)集組合是重要且神秘的藝術(shù)。此外,某些傳統(tǒng)的多項選擇基準(zhǔn)測試對于正在構(gòu)建的這種技術(shù)可能幫助不大,他們也將探討這背后的原因。 (以下內(nèi)容經(jīng)授權(quán)后由OneFlow編譯發(fā)布,轉(zhuǎn)載請聯(lián)系OneFlow獲得授權(quán)。來源:https://www.latent.space/p/mosaic-mpt-7b#details) 1 MPT-7B模型的構(gòu)建 Swyx:你們當(dāng)時為什么會開發(fā)MPT-7B? Abhinav:MPT-7B項目大概花了6-12個月時間。我們從去年夏天開始研究語言模型,并發(fā)布了一篇博客,對語言模型進(jìn)行了分析,發(fā)現(xiàn)訓(xùn)練成本實際上可能比人們想象的低得多。也是從那時起,我們受Meta AI發(fā)布的LLaMA模型和許多其他開源工作的啟發(fā),開始著手創(chuàng)建真正優(yōu)秀的、擁有70億參數(shù)的模型,這就是MPT的由來。 Alessio:你曾在其中一個播客中說:Mosaic沒有構(gòu)建和發(fā)布模型的計劃。但最終你們還是發(fā)布了模型,是什么讓你們改變了主意? Jonathan:我認(rèn)為,主要有幾個因素:我們至今仍然缺乏一個一流模型。與OpenAI不同,我們的業(yè)務(wù)圍繞客戶創(chuàng)建自己的模型展開,而我們主要為其提供工具,為了確保這些工具的有效性,我們就必須先創(chuàng)建自己的模型。 必須清楚一點,如果客戶能做出偉大的事,那么我們也同樣能實現(xiàn)偉大的成就。Twitter上有很多人向我提出質(zhì)疑,懷疑Mosaic所展示數(shù)字的真實性,比如Ross Whiteman就曾提出“讓我們看看實際的成果”,對此,我想說的是,“Ross,你認(rèn)為這些成果如何?”我們在9.5天的時間里以20萬美元的成本研發(fā)了模型,所以你們也可以做到。 Swyx:參考你們?nèi)ツ臧l(fā)布的數(shù)據(jù),最初估計訓(xùn)練GPT-3的成本不到45萬美元,后來降至10萬美元;Stable Diffusion的成本也由16萬美元降至不到5萬美元。 Jonathan:對于10萬美元這個數(shù)字我還是很謹(jǐn)慎的。雖然還未實現(xiàn)這一目標(biāo),但我們會朝著這個方向前進(jìn),這也是給Abhi的一大挑戰(zhàn)。 Swyx:MPT-7B模型有三個變體,其中一個在上下文長度方面達(dá)到SOTA,這些模型的訓(xùn)練過程是怎樣的? Abhinav:我們的基礎(chǔ)模型是對LLaMA-7B的再創(chuàng)造,擁有70億參數(shù),訓(xùn)練數(shù)據(jù)達(dá)1萬億個詞元,為微調(diào)模型提供一個高效、不需要過多干預(yù)的訓(xùn)練起點。微調(diào)模型也非常有趣,比如MPT-7B-StoryWriter-65k+可用于故事編寫,上下文窗口長度為65,000,還可以根據(jù)已知內(nèi)容進(jìn)行續(xù)寫。 當(dāng)然,這只是我們想到的方向之一,你可以利用MPT-7B Base模型來構(gòu)建自定義模型,以適用不同的需求,如長上下文代碼模型或特定語言模型。所以基于基礎(chǔ)模型構(gòu)建了三個變體,MPT-7B-Instruct、MPT-7B-Chat和MPT-7B-StoryWriter-65k+,分別用于遵循簡短指令、聊天對話和編寫故事。 Alessio:在訓(xùn)練模型時,你們是如何決定要選用多少詞元和參數(shù)的?70億和30億模型參數(shù)似乎是當(dāng)前流行的兩個神奇數(shù)字。 Abhinav:對于訓(xùn)練模型來說,規(guī)模定律(scaling law)可以告訴你如何最有效地利用訓(xùn)練計算資源。比如預(yù)算為20萬美元,那么依照規(guī)模定律,就能給出一套最有效的訓(xùn)練方案。 其中,我們最常遵循的是Chinchilla定律。而對于MPT-7B模型及其相關(guān)變體,卻并未嚴(yán)格遵循這些定律,因為我們想確保模型適用于個人使用并具備良好的推斷性能,所以對其進(jìn)行了過度訓(xùn)練,超過了Chinchilla Point(指以詞元衡量的數(shù)據(jù)級別)。網(wǎng)上有人將這些模型戲稱為長蛇狗(Llongboi),因為其訓(xùn)練時間相當(dāng)長,以7B模型為例,Chinchilla Point可能是1400億個詞元,而我們實際訓(xùn)練了1萬億個詞元,因此訓(xùn)練時間幾乎是正常情況下的7倍。 Swyx:Llongboi指的是一種訓(xùn)練方法嗎? Jonathan:Llongboi只是內(nèi)行的一句玩笑話,指的是所用詞元數(shù)量多于Chinchilla定律所規(guī)定數(shù)量的訓(xùn)練方法。可以看到,Llongboi開頭有兩個“L”,用于致敬LLaMA。我們的CEO曾在Twitter上將這個名字公之于眾,將模型稱為“Llongboi”。有時我真的想拿走他的Twitter密碼,以免提前泄密,不過現(xiàn)在全世界都已經(jīng)知道這個名字了。 2 關(guān)于架構(gòu)、ALiBi、上下文 Alessio:Flash Attention和Faster Transformer是你們構(gòu)建模型的兩個核心要素,它們的優(yōu)勢是什么? Abhinav:Flash Attention是Full Attention的更快實現(xiàn),由斯坦福的Hazy Research實驗室開發(fā)。去年九月,我們將Flash Attention集成到了我們的庫中,它在訓(xùn)練和推理速度方面起到了很大作用。與其他Hugging Face模型相比,這個模型十分特別,它可以在一般的Torch Attention和專為GPU設(shè)計的Flash Attention之間進(jìn)行切換,這讓模型的訓(xùn)練速度提升了2倍左右,推理速度提升了50%-100%。 Swyx:是什么促使你們選擇了ALiBi位置編碼? Abhinav:我們通過一種有趣的方式,將ALiBi位置編碼、Flash Attention以及訓(xùn)練穩(wěn)定性相結(jié)合。ALiBi能夠消除模型對位置嵌入的需求。之前,如果一個詞元的位置是1,那么你需要添加一個特定的位置嵌入,并且無法超過最大位置(通常為2000)。但是通過ALiBi,這個問題就被解決了。我們只需要在Attention Map上添加一個偏置(bias),這就像一個斜坡,如果在推理時需要更長的位置范圍,它會將這個斜坡延長到更長的位置數(shù)。由于斜坡是連續(xù)的,且可以進(jìn)行解釋,所以這種方法是可行的。 有趣的是,通過Flash Attention,模型節(jié)省了大量的內(nèi)存并提升了性能,所以我們在去年就開始對具有非常長上下文(長達(dá)65k)的模型進(jìn)行性能測試,同時,要進(jìn)行穩(wěn)定訓(xùn)練也非常難。后來,我們嘗試將ALiBi整合進(jìn)模型,結(jié)果模型穩(wěn)定性獲得了顯著提升?,F(xiàn)在,我們可以在非常長的上下文中穩(wěn)定地訓(xùn)練故事寫作模型,并保證高效地使用它們。 Jonathan:上下文長度在技術(shù)上是無限的。只要給予足夠的內(nèi)存,對話可以無限延續(xù)下去。我們認(rèn)為,模型能夠處理的最長數(shù)字是84K,這是實踐中人們能夠輕松處理的最長上下文長度。但我們在實踐中也嘗試過超84K的上下文長度,我們完全可以處理更長的長度。 Swyx:比如我們可以給模型輸入小說《了不起的蓋茨比》,然后讓模型根據(jù)輸入文本續(xù)寫小說,最后模型輸出了相當(dāng)精彩的內(nèi)容。 Jonathan:在Mosaic內(nèi)部存在許多非常好的故事結(jié)尾版本。其中一個版本描述了蓋茨比的葬禮,尼克開始與蓋茨比的鬼魂交談,蓋茨比的父親也出現(xiàn)了,然后他和湯姆出現(xiàn)在了警察局。這個版本非??粗厍楣?jié),描述了接下來會發(fā)生什么。此外,許多版本的結(jié)尾非常有菲茲杰拉德的風(fēng)格,它們的文字都十分優(yōu)美。因此,我們可以看出模型似乎確實在處理輸入,并產(chǎn)生了有意義的輸出,這一點十分令人激動。我們可以利用這種上下文長度做很多事。 Alessio:記憶開始成為模型的限制條件之一,那么應(yīng)該如何選擇參數(shù)大小和上下文長度? Jonathan:最近,關(guān)于長上下文的研究引起了大量關(guān)注,并出現(xiàn)了一系列相關(guān)論文。然而,這些論文并不完全準(zhǔn)確,在某種程度上,尤其是注意力機(jī)制方面,它們在非二次注意力機(jī)制(如近似的、分層的注意力)和明確且正確的二次注意力之間做了權(quán)衡或取舍。我很看好近似方法,因此迫不及待地想深入研究這些論文。 通過撰寫和閱讀論文,我學(xué)到了一個重要的教訓(xùn),即在親身實踐前,不要輕信任何數(shù)據(jù)。在Mosaic時,我們曾多次在實施中失望過,因為這些論文一開始看起來很有希望,但實現(xiàn)后才意識到,論文對數(shù)據(jù)做了手腳。因此,我對數(shù)據(jù)總是持懷疑態(tài)度,在重新實施并驗證之前,不會輕信任何結(jié)果。總的來說,這種實踐給予了一定回報,很多時候,這些理論在實踐中并不如預(yù)期那樣有效。 3 MPT-7B的特點 Swyx:MPT-7B有什么具體特點? Abhinav:我會將其分為兩部分,首先是訓(xùn)練的穩(wěn)定性問題。該問題又可分為三部分。首先,模型在訓(xùn)練過程中需要避免損失峰值,這是我們的第一道防線。在我看來,在訓(xùn)練規(guī)模為70億參數(shù)時,損失峰值不是一個大問題。然而,隨著訓(xùn)練時間延長,避免損失峰值會變得困難。我們花費了很長時間來研究如何調(diào)整初始化方法、優(yōu)化器和架構(gòu)等,以防止損失峰值的出現(xiàn)。即使在我們的訓(xùn)練過程中,如果仔細(xì)觀察,還是能發(fā)現(xiàn)一些小的間歇性峰值,但這些峰值會在幾百個step內(nèi)恢復(fù)正常,這是非常神奇的現(xiàn)象,它能夠幫助我們自然從峰值損失中恢復(fù)過來。 確定性(determinism)和智能恢復(fù)策略是我們的第二道防線。如果發(fā)生災(zāi)難性錯誤,我們將能夠快速恢復(fù)訓(xùn)練,在故障前的幾個批次內(nèi)應(yīng)用一些干預(yù)措施。對于可能出現(xiàn)的問題,我們做了多種準(zhǔn)備。但在MPT-7B的訓(xùn)練中,我們完全沒有用到這些備用措施,不得不說這是一種幸運(yùn)。 正確的訓(xùn)練基礎(chǔ)設(shè)施是第三道防線。如果我們嘗試在數(shù)百個GPU上對模型進(jìn)行訓(xùn)練,這時常常出現(xiàn)硬件故障問題。比如在512個GPU的大型集群中訓(xùn)練模型,幾乎每隔兩天訓(xùn)練就會失敗一次,失敗原因可能是網(wǎng)絡(luò)故障等。 一般情況下,人們會設(shè)立全天候待命團(tuán)隊來處理這些故障。當(dāng)出現(xiàn)故障時,團(tuán)隊會嘗試檢查集群、移除損壞節(jié)點、重新啟動等,這是一項非常繁瑣的任務(wù)。我們曾經(jīng)花了幾個月時間來手動檢查錯誤,但現(xiàn)在我們構(gòu)建了一個平臺,以實現(xiàn)模型訓(xùn)練過程中每個節(jié)點的自動化處理。 當(dāng)模型運(yùn)行出現(xiàn)問題時,我們的自動監(jiān)控系統(tǒng)會停止作業(yè)、測試并檢查損壞節(jié)點,再重新啟動。由于我們的軟件具有確定性和快速恢復(fù)能力,所以模型可以很好地繼續(xù)運(yùn)行。因此,我們在模型日志中有時可以看到,凌晨2點模型出現(xiàn)故障后,它在幾分鐘內(nèi)就恢復(fù)了正常運(yùn)行,無需團(tuán)隊成員人工處理。 Jonathan: 要做到這一點確實不容易,幾個月前模型如果出現(xiàn)了硬件故障,那么團(tuán)隊成員將不得不在凌晨兩點起床,去檢查節(jié)點故障原因,重新啟動作業(yè)。之前即使在70億參數(shù)規(guī)模的訓(xùn)練中,我們也經(jīng)常遇到災(zāi)難性損失峰值,這些問題嚴(yán)重影響了模型的訓(xùn)練。 現(xiàn)在,我們已經(jīng)通過逐步改進(jìn)的方式解決了這些問題。正如Abhinav所說,現(xiàn)在在訓(xùn)練多個模型的同時,我們可以悠閑地坐在辦公室,無需擔(dān)心模型出現(xiàn)問題,從而導(dǎo)致訓(xùn)練中斷。 4 數(shù)據(jù)選擇和重復(fù)以及LLM的評估挑戰(zhàn) Swyx:數(shù)據(jù)選擇是你們的關(guān)注重點,可以展開講講嗎? Jonathan:在我嘗試將所有的GPU用于數(shù)據(jù)處理而非實際訓(xùn)練模型時,Abhi幾乎要殺了我。我們知道,訓(xùn)練模型需要大量的數(shù)據(jù),但也存在許多不確定的因素。 一是不同數(shù)據(jù)來源中哪些種類是重要的,二是重復(fù)的重要性。其中,關(guān)于重復(fù)的問題可以進(jìn)一步分解為質(zhì)量和數(shù)量的權(quán)衡。假設(shè)我有世界上最好的100億個詞元數(shù)據(jù),那么是將其重復(fù)訓(xùn)練一百次更好,還是使用1萬億個低質(zhì)量、最新的詞元數(shù)據(jù)更好?當(dāng)然,或許存在折中點,但如何確定高質(zhì)量數(shù)據(jù)也是一個問題,目前還沒有明確答案。如果現(xiàn)在回到學(xué)術(shù)界,我一定會為此寫一篇論文,因為我對其中的情況還一無所知。 Swyx:至今還沒有看到有關(guān)這方面的研究論文。 Jonathan:論文研究的中心問題是“應(yīng)該使用什么樣的數(shù)據(jù)集組合”。 在創(chuàng)建模型的過程中,我回到了曾任教的喬治敦大學(xué)法學(xué)院,與一群法學(xué)院的學(xué)生坐在一起討論。我為他們給出了高質(zhì)量數(shù)據(jù)集、數(shù)據(jù)混合方式,以及擁有的詞元數(shù)量,然后讓他們?yōu)樽约旱哪P蛣?chuàng)建最好的數(shù)據(jù)集。 他們對LLM一無所知,只知道輸入數(shù)據(jù)會影響行為。我告訴他們要創(chuàng)建一個混合體,以涵蓋所有不同的權(quán)衡考量。起初可能需要大量英文語料,可通過網(wǎng)絡(luò)獲??;如果想使其變成多語言模型,那么英文語料就會減少很多;另外,是否將代碼包含在其中。 有人認(rèn)為,代碼可以使模型在邏輯推理方面表現(xiàn)更好,但我從未見過任何證據(jù)支持這一觀點。雖然我們確實開發(fā)了出色的代碼模型,但代碼模型能否帶來更好的思維鏈推理能力,這還需要進(jìn)一步研究。 GPT-3的一個版本據(jù)說是從小說《達(dá)·芬奇密碼》開始訓(xùn)練的,由此有人認(rèn)為這可能會有用,但并沒有證據(jù);也有人認(rèn)為將精力放在那些優(yōu)質(zhì)數(shù)據(jù)源(如維基百科)上會有助于模型的訓(xùn)練,可也缺乏證據(jù)。 因此,我們對多種不同數(shù)據(jù)混合進(jìn)行嘗試,發(fā)現(xiàn)總有一些數(shù)據(jù)混合比其他的效果更好或更差。比如“The Pile”是一個非常穩(wěn)定的數(shù)據(jù)混合,但根據(jù)評估指標(biāo),還有其他更好的數(shù)據(jù)混合。下面我還會談到評估問題,該問題非常重要。 T5模型最初是在C4數(shù)據(jù)集上訓(xùn)練的,該數(shù)據(jù)集表現(xiàn)得異常好。當(dāng)我在Twitter上發(fā)布相關(guān)信息時,EleutherAI的Stella Beaterman在內(nèi)的其他人也提到了這一點。在T5模型的原始論文中,對C4數(shù)據(jù)集的預(yù)處理方法看起來很奇怪,作者從數(shù)據(jù)集中刪除了所有包含“JavaScript”一詞的內(nèi)容,因為他們不想出現(xiàn)與JavaScript相關(guān)的警告信息。此外,他們還刪除了包含大括號的內(nèi)容,因為他們不想獲得包含JavaScript的內(nèi)容。 他們查看了一份不良詞匯列表,并刪除了其中包含不良詞匯的內(nèi)容。然而,該不良詞匯列表中其實包含了一些實際上并不是不良的詞匯,比如“gay”。但由于有這樣的清洗過程,得到的數(shù)據(jù)集似乎變得無與倫比得好。從這一點來看,我們對數(shù)據(jù)一無所知。 實際上,我們還用到一個名叫MC4的數(shù)據(jù)集,MC4和C4進(jìn)行了相同的預(yù)處理,只是增加了更多的網(wǎng)頁調(diào)用(web call),但與C4相比,MC4的英語部分要差很多,原因不得而知。 為此,我設(shè)定了兩個標(biāo)準(zhǔn): 首先,英語部分至少要和MC4一樣好。相對于其他可用數(shù)據(jù)集,MC4的英文部分要好一些。其次,全力推動數(shù)據(jù)多樣性,確保數(shù)據(jù)集包含代碼、科學(xué)論文和維基百科等內(nèi)容,因為人們會用該模型完成各種不同的任務(wù)。 Swyx:你認(rèn)為MMLU(Massive Multitask Language Understanding)和BIG-bench等評估方法不夠有說服力? Jonathan:這類方法無疑都是做兩類任務(wù)。一是多項選擇式任務(wù),其中包含一個正確答案,這可以讓模型生成A、B、C或D等選項,然后通過計算每個可能答案的困惑度(perplexity),選擇模型最可能生成的答案。但我們并不要求模型做多項選擇題,而是進(jìn)行第二種開放式生成任務(wù),比如摘要。使用類似于BLEU和ROUGE的指標(biāo)進(jìn)行比較不夠準(zhǔn)確,有許多出色的論文摘要和開放式生成方法。相比之下,人工是一種較為可靠的評估標(biāo)準(zhǔn),但人工評估非常耗時費力,無法實時地與模型進(jìn)行比較,或許在以后有可能實現(xiàn)。 Abhinav:我們有一支出色的評估團(tuán)隊,正在幫助我們構(gòu)建新的指標(biāo)。 Jonathan:但很難對LLM進(jìn)行評估,我認(rèn)為,這些指標(biāo)中的任何一個都不能真正體現(xiàn)到我們在實踐中對模型的期望。 5 模型訓(xùn)練的降本增效 Swyx:現(xiàn)在人們需要花費三到十天的時間去訓(xùn)練模型,你們想將時間縮短至多久? Abhinav:就原始模型訓(xùn)練效率的提升而言,今年可能是最令人興奮的年份之一。今年軟硬件都出現(xiàn)了相應(yīng)升級,首先是英偉達(dá)的新一代硬件H100s,單單這一項就能提升至少兩倍的性能。其次還有一種新的浮點數(shù)格式FP8,單獨使用也能達(dá)到同樣的性能提升。 幾年前,我們開始使用32位精度,之后英偉達(dá)推出了16位精度。經(jīng)過幾年的發(fā)展,因為要求不斷提高,我們逐漸掌握了16位訓(xùn)練技巧。 今年有了FP8,我們能將吞吐量提升兩倍,也就是將成本降低兩倍。同時,我們已經(jīng)開始在H100上使用FP8對LLM訓(xùn)練進(jìn)行性能分析,這方面的進(jìn)展十分迅速。因此,僅僅通過硬件方面的進(jìn)步,我們就能大幅降低成本。 此外,還有許多架構(gòu)應(yīng)用方面的研究。我們正在探索引入一些稀疏性方法,但并非完全無規(guī)則的稀疏性。是否有一種類似門控機(jī)制或者M(jìn)oE風(fēng)格的架構(gòu)方式可以實現(xiàn)該目標(biāo)? 我們最初的目標(biāo)是將GPT-J模型的訓(xùn)練費用從50萬美元降至10萬美元 ,如果我們能在年底實現(xiàn),那將是了不起的成就。 Jonathan:這一想法并非空中樓閣。雖然現(xiàn)在還未達(dá)到該階段,但這一目標(biāo)很可能2023年就能達(dá)成。 有關(guān)訓(xùn)練與推理成本的統(tǒng)計數(shù)據(jù)十分稀缺。Google的David Patterson發(fā)表了一篇博文,討論了Google在機(jī)器學(xué)習(xí)方面的能源使用情況。經(jīng)過詳細(xì)分析,在過去三年中,谷歌將五分之三的資源用于推理,五分之二的資源用于訓(xùn)練。以上是Google的數(shù)據(jù),他們?yōu)閿?shù)十億用戶提供模型。 谷歌可能是全球推理負(fù)載最大的地方。這還只是針對訓(xùn)練的資源分配,推理占五分之三,訓(xùn)練占五分之二。而硬件可能更為昂貴,硬件的網(wǎng)絡(luò)結(jié)構(gòu)更為復(fù)雜,因此可能會是訓(xùn)練和推理對半分的配置。以上是谷歌的分配比例,但對于其他公司來說,訓(xùn)練可能會占更高權(quán)重。 6 開放對于AI研究的重要性 Alessio:以前的訓(xùn)練成本十分昂貴,這導(dǎo)致我們無法進(jìn)行足夠多的實驗,所以在選擇數(shù)據(jù)集等方面存在很多問題。 Jonathan:研究生期間,我曾對朋友們嫉妒不已,因為他們有GPU,而我的筆記本電腦上沒有,所以無法訓(xùn)練任何模型。我曾幻想過能夠中彩票,這樣我就可以擁有一個K80 GPU了。 在內(nèi)心深處,我仍然是那個渴望進(jìn)行科學(xué)研究的學(xué)生。我堅信,如果我們想要進(jìn)行科學(xué)研究,并真正理解這些系統(tǒng),了解如何使其良好運(yùn)行,了解其行為、安全性和可靠性等要素,我們就必須降低訓(xùn)練成本,這樣才能真正進(jìn)行科學(xué)研究。以生物試驗為例,我們需要進(jìn)行多個細(xì)胞培養(yǎng)和實驗才能確保藥物有效,在真正了解事物之前,進(jìn)行大量科學(xué)研究必不可少。 Abhinav:MosaicML擁有眾多客戶,他們都在嘗試訓(xùn)練模型,因此公司有動力投入大量資源和時間進(jìn)行科研。只有真正了解應(yīng)該如何訓(xùn)練模型,我們才能幫助更多人。因此,對于我們來說,這種聚合過程非常重要。 我記得以前谷歌發(fā)表過一篇論文,針對批次大小或其他問題進(jìn)行了調(diào)查。這篇論文可能耗費了數(shù)百萬美元,它給整個社區(qū)帶來了巨大好處?,F(xiàn)在,我們都能從中學(xué)習(xí),節(jié)省開支,而無需花費大量資金。因此,對于Mosaic來說,通過試驗研究我們在數(shù)據(jù)、預(yù)訓(xùn)練架構(gòu)等方面具備了深刻的洞察,這也正是客戶選擇我們的原因。 Jonathan:開放對于AI社區(qū)十分重要。從某種意義上說,我們沒有封閉的理由,通過幫助客戶訓(xùn)練模型來獲得收益,對我們來說與社區(qū)分享成果沒有損失,畢竟最后我們要通過定制模型和優(yōu)秀的基礎(chǔ)設(shè)施來賺取收入,并將這些方面整合在一起,這也是我們將公司命名為MosaicML的原因。 我們一直秉持著放開的態(tài)度,不會對取得的成果遮遮掩掩。但現(xiàn)在,我發(fā)現(xiàn)我們已經(jīng)成為了行業(yè)里最大的開源實驗室之一,這是一個很可悲的事實,因為就整個行業(yè)而言,MosaicML并不算大,我們只有大約15名研究人員,其他許多實驗室都變得封閉,不再公開發(fā)表太多內(nèi)容。但MosaicML將繼續(xù)保持與社區(qū)的交流和分享,盡力成為開放研究的先鋒。盡管我們的規(guī)模和研究數(shù)量無法與大型實驗室相媲美,但我們將繼續(xù)分享所學(xué)內(nèi)容,努力為社區(qū)創(chuàng)造資源。 當(dāng)我與政策制定者討論AI生態(tài)系統(tǒng)時,總會提及一個普遍擔(dān)憂:缺乏開放性將阻礙創(chuàng)新的步伐。多年來,我始終強(qiáng)調(diào)這一問題,但最終還是成為了現(xiàn)實。我提倡開源,但不認(rèn)為每個人都會分享自己的成果。我們曾一度將開源視為理所當(dāng)然,但如今這種情況已不復(fù)存在。 我認(rèn)為這將會拖慢我們的發(fā)展速度。很多時候,各個實驗室都存在某種一元文化,而交流溝通是科學(xué)進(jìn)步的重要動力。因此,開源不僅在開源社區(qū)和學(xué)術(shù)界中不可或缺,其對于技術(shù)的進(jìn)步也至關(guān)重要。我們需要一個充滿活力的開源研究社區(qū)。 7 未來發(fā)展趨勢 Swyx:你提到很多東西都不會長久存在,很容易被替代,但Transformer會長期存在。 Jonathan:Transformer將會一直存在。卷積神經(jīng)網(wǎng)絡(luò)(CNN)至今仍在使用,視覺 Transformer并未取代其地位。再看循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),已經(jīng)存在了幾十年,但依然活躍在許多領(lǐng)域。因此,實現(xiàn)基礎(chǔ)架構(gòu)的重大改進(jìn)十分困難。 Abhinav:我認(rèn)為,你的賭注很大程度上取決于什么被定義為attention(注意力)。如果替換掉QK矩陣乘法這樣的操作,用類似的方法代替,這會對結(jié)果產(chǎn)生什么影響呢? Jonathan:說到底,這只是一個全連接的前饋網(wǎng)絡(luò),帶有簡單注意力機(jī)制的Transformer。所以情況可能會有所改變,但我們?nèi)韵馎shish Vaswani(Transformer作者)六年前設(shè)想的那樣繼續(xù)使用Transformer,也許在未來還將繼續(xù)使用。 Abhinav:我認(rèn)為它將變得類似于MLP(多層感知機(jī)),這是我們目前唯一的選擇,因為現(xiàn)在架構(gòu)已經(jīng)進(jìn)行了大量簡化,只剩下一些線性層、殘差連接、注意力、點乘操作。 Jonathan:你的假設(shè)是架構(gòu)會變得更簡單,但現(xiàn)實可能相反,架構(gòu)也許會變得更加復(fù)雜。 Swyx:最近關(guān)于“涌現(xiàn)現(xiàn)象”的爭論,你們對此有什么看法? Abhinav:我看過類似論文,這些可能只是評估技術(shù)的副產(chǎn)品,如對數(shù)擴(kuò)展(log scaling)、評估指標(biāo),以及我們正在進(jìn)行的網(wǎng)格化精度(meshing accuracy),這是一種嚴(yán)格的二元判定,即將結(jié)果分為正確或錯誤,而沒有考慮更細(xì)致的連續(xù)性差異。 但是,與Jonathan關(guān)于評估的觀點類似,我們在評估指標(biāo)的多樣性方面也存在一個問題:當(dāng)我們發(fā)布這些模型時,即便是聊天模型、指令模型,人們也常將其用于各種不同任務(wù)。我們事先幾乎無法精確地測量和評估各個維度,即使規(guī)模達(dá)到70億,這些模型在一些十分困難的MMLU任務(wù)上仍然表現(xiàn)欠佳。有時它們的得分幾乎只略高于隨機(jī)機(jī)會,尤其是處理十分困難的任務(wù)。 因此,隨著我們追求更高質(zhì)量的模型,其中一些問題可能對我們更有用。但是,我們在開發(fā)MPT-7B時有點盲目,因為并不完全了解模型的最終表現(xiàn)。只能根據(jù)一小部分常見的感知推理任務(wù)來進(jìn)行開發(fā),并且通過將這些指標(biāo)與其他開源模型進(jìn)行比較來評估性能。 Alessio:我認(rèn)為,快速推理和訓(xùn)練是目標(biāo)之一,因此需要在解決最困難的任務(wù)和快速處理其他任務(wù)之間做出權(quán)衡。 Abhinav:是的。即便是70億數(shù)據(jù)規(guī)模,人們也會嘗試在家中的CPU上運(yùn)行,或者嘗試移植到他們的手機(jī)上,主要是因為小規(guī)模應(yīng)用會促使人們采用這項技術(shù),而且這是當(dāng)下的一個重要趨勢。 Alessio:AI領(lǐng)域有哪些事情的發(fā)展速度要比預(yù)期快得多? Jonathan:記得GPT-2發(fā)布時,我并沒有覺得很興奮,但當(dāng)時它已經(jīng)擁有了15億參數(shù)。隨著模型規(guī)模不斷擴(kuò)張,它們的性能不可能持續(xù)提升。然后GPT-3發(fā)布了,我也只是認(rèn)為它在生成文本方面有些許進(jìn)步,但我一次又一次地錯了。通過預(yù)測下一個詞元,擴(kuò)大模型規(guī)模可以產(chǎn)出十分有用的模型。 公平地說,我們幾乎都對此持錯誤的看法,所以也不能完全歸咎于自己。否則,早在我有機(jī)會行動之前,谷歌、Facebook和微軟研究院就會推出殺手級的語言大模型了。我曾進(jìn)行過一個非常奇怪的賭注,事實證明我賭對了:雖然擴(kuò)散模型在某種程度上十分愚笨,卻能產(chǎn)出令人驚艷的美麗圖像。 Abhinav:關(guān)于規(guī)?;奶鞕C(jī)器人,我認(rèn)為還需要很長時間,才會有數(shù)億人與AI模型進(jìn)行大量對話。現(xiàn)在有很多初創(chuàng)公司和企業(yè)不僅僅使用ChatGPT,還有角色創(chuàng)建等其他項目,讓人驚嘆的是,有多少人實際上正在與這些AI模型建立情感聯(lián)系。我不認(rèn)為自己會在去年的九、十月份預(yù)測到這一點。過去六個月間出現(xiàn)的拐點真的出乎意料。 Swyx:你認(rèn)為它們會用來做什么,比如情感支持? Abhinav:其中一些用于情感支持,或只是作為朋友。孤獨和心理健康問題是一個熱門難題。如果你去那些社區(qū)的子版塊,人們在談?wù)摵退伎甲约旱腁I朋友和這些角色,這就像是科幻小說中的情節(jié),我從未預(yù)料到這種情況會成為現(xiàn)實。 Swyx:AI領(lǐng)域最有趣的待解決問題是什么? Abhinav:我對能夠在精確性和類似BF16/FP16這方面能夠走多遠(yuǎn)感興趣。 我好奇這些問題能否隨著模型規(guī)模的擴(kuò)大變得更易解決。相關(guān)論文顯示,隨著規(guī)模不斷擴(kuò)大,量化和剪枝可能會更加容易。所以,作為未來幾年規(guī)模擴(kuò)大的自然結(jié)果,我們也許會朝著使用四位或兩位乃至二進(jìn)制權(quán)重的方向發(fā)展。 Jonathan:我想以另一種方式了解我們能實現(xiàn)多小的模型,能以多高的效率開發(fā)出同等性能的模型。這是我整個博士期間研究的問題,某種意義上說,這也是我在 Mosaic 研究的問題。OpenAI已經(jīng)向我們展示了一種獲得這種令人難以置信能力的途徑,即規(guī)模的擴(kuò)大。但我希望這不是唯一的途徑。我希望有很多其他方法也可以達(dá)到這一目標(biāo),通過更好的建模方法,更好的算法等。 雖然我不喜歡神經(jīng)科學(xué)的比喻,但從某種意義上說,我們的存在和大腦證明了至少存在另一種方式來實現(xiàn)這種難以置信的能力,而無需萬億級的參數(shù)甚至天文數(shù)字的資金投入。所以我真的很好奇我們究竟能實現(xiàn)多小的模型?是否存在另一條路徑來實現(xiàn)這些能力,而不必按照現(xiàn)有的方式?如果存在的話,希望能在Mosaic中找到答案。 Swyx:沒錯,我最感興趣的一個事實是,人類大腦只需消耗30瓦的能量,而在這一點上,模型與其相差了多個數(shù)量級。 Abhinav:我認(rèn)為,無法僅憑單獨的GPU或其他工具來達(dá)到這一目標(biāo)。 Alessio:目前有很多信息正在傳播,比如人們應(yīng)該如何思考人工智能?他們應(yīng)該關(guān)注什么? Jonathan:保持平和。有些人過于看重炒作;有些人則非常悲觀,對炒作反應(yīng)強(qiáng)烈,或者在某種程度上對其表示否認(rèn)。應(yīng)保持平和,明白我們已經(jīng)構(gòu)建出了十分有用的工具。 但是我們還未構(gòu)建出通用智能,個人而言,我們離這個目標(biāo)還很遙遠(yuǎn)。因此,保持平和并遵循科學(xué)十分重要,這正是Mosaic AI為之努力的。我們試圖專注于對人類有用的事物,希望創(chuàng)造一個更美好的世界。我們會竭盡全力,但尤為重要的是,我們將遵循科學(xué),以數(shù)據(jù)為指導(dǎo),通過實際成果而非空談來實現(xiàn)這一目標(biāo)。 Abhinav:我認(rèn)為,在開放社區(qū)中進(jìn)行研究是無可比擬的。在社區(qū)中,不僅有大量人關(guān)注你的模型,甚至還會對模型的問題以及改進(jìn)方式提出意見。這種開放性的研究將是未來的發(fā)展方向,無論是為了保證我們的模型安全,還是為了深入研究這些AI模型在現(xiàn)實世界中的影響和后果。 轉(zhuǎn)自:https://blog.csdn.net/OneFlow_Official/article/details/131971520 該文章在 2024/1/27 15:49:46 編輯過 |
關(guān)鍵字查詢
相關(guān)文章
正在查詢... |