火了整個(gè)春節(jié)的DeepSeek,他對(duì)AI產(chǎn)品的意義到底是什么?
當(dāng)前位置:點(diǎn)晴教程→閑情逸致
→『 微信好文 』
相信春節(jié)期間各位的朋友圈一定被DeepSeek“轟炸”了,就算是普通人也獲得了一些信息:國(guó)內(nèi)AI取得了巨大突破。 但DeepSeek這次突破到底對(duì)一般的互聯(lián)網(wǎng)從業(yè)者有什么幫助,絕大多數(shù)人卻是一頭霧水。 究其原因:Attention is All You need,DeepSeek成了各大自媒體爭(zhēng)奪注意力的焦點(diǎn),所以引起了大量的傳播和討論。 期間,我閱讀了至少100篇文章,其中包括官方很多文檔,這里的結(jié)論是:知道DeepSeek意義的博主故意不說,不懂其內(nèi)涵的在不停科普,其中還摻雜了大量標(biāo)題黨,所以一時(shí)魚龍混雜。 所以,今天我們整理了過去10天讀的100篇文章,得出了一些個(gè)人的認(rèn)知與各位分享,如果內(nèi)容有誤請(qǐng)您指正。 一、效果很好在我印象中DeepSeek-R是第一款直接劍指ChatGPT又取得了不錯(cuò)成績(jī)的國(guó)內(nèi)模型,從數(shù)據(jù)來看很硬: 所有大模型發(fā)布初期多少會(huì)有效果夸大部分,但在我親測(cè)使用的情況下:個(gè)人評(píng)價(jià)還是很高的,這其實(shí)是令人震撼的。 二、私有化部署在考慮其低成本與開源,并且開放訓(xùn)練手冊(cè)(學(xué)習(xí)成本)等特性,新的機(jī)會(huì)也誕生了:
當(dāng)然,研發(fā)過程中我依舊是最初的觀點(diǎn):研發(fā)要著眼于半年后,依賴最強(qiáng)大的模型。 三、成本優(yōu)勢(shì)在24年5月,DeepSeek就發(fā)布的一款名為V2的開源模型。 其性價(jià)比奇高:推理成本約等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。 大模型最終效果一定離不開:數(shù)據(jù)(你們猜數(shù)據(jù)供應(yīng)商是不是通用的?)、算法、算力三方糾纏。 區(qū)別于其他公司,DeepSeek提出的一種嶄新的MLA架構(gòu),把顯存占用降到了過去最常用的MHA架構(gòu)的5%-13%。 同時(shí),它獨(dú)創(chuàng)的DeepSeekMoESparse結(jié)構(gòu),也把計(jì)算量降到極致,所有這些最終促成了成本的下降。 其實(shí),拋開效果很好這一基本元素,私有化部署與成本優(yōu)勢(shì)都在其次;但在效果尚可這一前提下,成本優(yōu)勢(shì)就有巨大身位領(lǐng)先!
四、創(chuàng)新更多在訓(xùn)練與推理首先,我沒有讀到DeepSeek在底層模型、技術(shù)架構(gòu)上的創(chuàng)新,更多的信息是圍繞訓(xùn)練與推理是優(yōu)化以及中間件的創(chuàng)新展開。 而DeepSeek的開源模型主要基于其自研的架構(gòu),具體細(xì)節(jié)尚未完全公開,這塊暫時(shí)無從打開。 但DeepSeek一定利用了已經(jīng)開源的代碼和一些現(xiàn)成的語料,意味著它避免了從頭開始研發(fā)和收集數(shù)據(jù)的高昂成本。 五、模型蒸餾是關(guān)鍵而其中最為關(guān)鍵的是通過蒸餾技術(shù),DeepSeek能夠從更大、更復(fù)雜的模型(如GPT等)中提取出核心的知識(shí)和能力,而不是重新從零開始訓(xùn)練一個(gè)全新的模型。這種方法可以顯著減少需要的訓(xùn)練算力和資源,降低總體成本。 此外,DeepSeek在訓(xùn)練和推理過程中進(jìn)行了優(yōu)化,并在中間件方面進(jìn)行了創(chuàng)新。 六、MoE的成功應(yīng)用例如,DeepSeek-V3采用了混合專家(MoE)架構(gòu),擁有6710億個(gè)參數(shù),每個(gè)詞元激活370億個(gè)參數(shù)。 而你可以將混合專家(MoE)架構(gòu) 理解為 工程端的優(yōu)化。 DeepSeek的MoE架構(gòu)類似于一個(gè)由成百上千個(gè)領(lǐng)域?qū)<倚∧P徒M成的系統(tǒng)。 當(dāng)用戶提問時(shí),系統(tǒng)首先通過意圖識(shí)別分析問題的核心內(nèi)容,確定其所屬領(lǐng)域。 然后,通過路由系統(tǒng),將請(qǐng)求引導(dǎo)至最合適的專家小模型,這些小模型會(huì)根據(jù)各自的專長(zhǎng)生成相關(guān)答案。 若問題涉及多個(gè)領(lǐng)域,多個(gè)小模型可能會(huì)被激活,生成的答案隨后被一個(gè)可能稍大點(diǎn)的模型合并成一個(gè)完整的回應(yīng)。 這種設(shè)計(jì)讓DeepSeek能夠高效處理多領(lǐng)域問題,保證每個(gè)領(lǐng)域的專家模型提供準(zhǔn)確答案,同時(shí)通過靈活的路由系統(tǒng)提升整體系統(tǒng)的效率和準(zhǔn)確性。 七、強(qiáng)化學(xué)習(xí)DeepSeek在強(qiáng)化學(xué)習(xí)領(lǐng)域的創(chuàng)新可能集中在優(yōu)化訓(xùn)練過程和提高效率方面。 通過智能的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)和狀態(tài)空間壓縮,DeepSeek可能減少了訓(xùn)練中的計(jì)算成本,并加速了策略的收斂。 此外,結(jié)合多任務(wù)學(xué)習(xí),DeepSeek能夠在不同任務(wù)之間共享知識(shí)和經(jīng)驗(yàn),從而提升模型的訓(xùn)練效率。 在實(shí)際應(yīng)用中,DeepSeek還可能利用強(qiáng)化學(xué)習(xí)優(yōu)化自動(dòng)決策和資源調(diào)度,進(jìn)一步增強(qiáng)其在復(fù)雜環(huán)境中的自適應(yīng)能力。 綜上,便是我的一些簡(jiǎn)單信息整理,有些同學(xué)很關(guān)注DeepSeek到底如何走向成功的,這里也打個(gè)比喻。 一個(gè)不恰當(dāng)?shù)谋扔?/h2>綜上,我們可以推理出DeepSeek成功的模糊全貌了,這里做個(gè)比喻:
AI應(yīng)用側(cè)的關(guān)注點(diǎn)最終回歸到工程應(yīng)用側(cè),我們會(huì)更遵循拿來主義與實(shí)用主義,你如何成功對(duì)我一點(diǎn)都不重要,對(duì)國(guó)內(nèi)的各位產(chǎn)研同仁來說,DeepSeek最大的意義有兩點(diǎn): 第一,我們擁有了一塊國(guó)內(nèi)可以媲美GPT的基座模型,這意義重大?。。?/strong> 出于安全考慮,醫(yī)療、金融等多個(gè)領(lǐng)域是明確不允許數(shù)據(jù)外泄的,但DeepSeek的出現(xiàn)打破了這個(gè)魔咒 第二,DeepSeek是開源的,可以私有化部署,并且他大大降低了訓(xùn)練的成本! 曾經(jīng),很多公司都在基于API做開發(fā),其原因是首先找不到好的基座模型,其次訓(xùn)練成本高昂,之前所謂的AI應(yīng)用最佳實(shí)踐全部是基于成本考慮! 總結(jié)一下,站在工程應(yīng)用的角度,對(duì)于基座模型的選擇只有三個(gè)考慮點(diǎn):
DeepSeek對(duì)技術(shù)選型的影響最后,之前最好用的AI產(chǎn)品的兩個(gè)路徑是:
而DeepSeek的成功意味著更多的技術(shù)路徑有了更多的選擇,他大大加快了國(guó)內(nèi)AI應(yīng)用爆發(fā)的效率。 這里有幾個(gè)關(guān)鍵技術(shù)可以應(yīng)用到AI產(chǎn)品之上,比如你要做一個(gè)AI律師,可能需要涉及到以下技術(shù):
提示詞 VS RAG VS 微調(diào)在AI應(yīng)用落地中,提示詞、RAG(檢索增強(qiáng)生成),以及微調(diào)是三種常見的技術(shù)路徑。它們各有特點(diǎn),適合不同場(chǎng)景需求:
其實(shí)從底層邏輯來看,提示詞、RAG 和微調(diào)的本質(zhì)都是在影響模型的輸入輸出權(quán)重,只是作用方式和影響深度不同:
三者的差異在于對(duì)模型輸入輸出權(quán)重的影響深淺:提示詞影響輕微、RAG擴(kuò)展輸入、微調(diào)直接改變權(quán)重參數(shù)。 其中,RAG的底層邏輯相似,都是為優(yōu)化輸入與輸出,但微調(diào)通過直接調(diào)整模型權(quán)重,從根本上改變模型能力。 DeepSeek橫空出世,對(duì)于各個(gè)公司技術(shù)路徑選擇會(huì)有深刻影響,需要提前布局。 結(jié)語從AI產(chǎn)品的工程應(yīng)用角度來看,DeepSeek的出現(xiàn)為國(guó)內(nèi)AI領(lǐng)域提供了一個(gè)全新的技術(shù)選擇,并為實(shí)際落地應(yīng)用帶來了更多可能性。 作為一款具備成本優(yōu)勢(shì)、開源且支持私有化部署的基礎(chǔ)模型,DeepSeek不僅滿足了行業(yè)對(duì)高性能、大規(guī)模模型的需求,還為醫(yī)療、金融等對(duì)數(shù)據(jù)安全和合規(guī)性要求極高的行業(yè)提供了切實(shí)可行的解決方案。 然而,盡管DeepSeek在技術(shù)上具備顯著優(yōu)勢(shì),其在實(shí)際工程應(yīng)用中仍面臨諸多挑戰(zhàn): 第一,行業(yè)定制化與快速部署:如何將DeepSeek的技術(shù)優(yōu)勢(shì)與行業(yè)特定需求深度結(jié)合,是工程實(shí)施中的關(guān)鍵課題。 例如,在法律、醫(yī)療等領(lǐng)域,AI應(yīng)用不僅需要高效的知識(shí)檢索與推理能力,還必須保證生成結(jié)果的精準(zhǔn)度和可靠性。 這要求開發(fā)團(tuán)隊(duì)在數(shù)據(jù)清洗、領(lǐng)域知識(shí)注入和模型微調(diào)等方面進(jìn)行大量定制化開發(fā)與測(cè)試。 其次快速部署能力也是工程應(yīng)用中的一大挑戰(zhàn)。 DeepSeek的私有化部署特性雖然解決了數(shù)據(jù)安全問題,但在實(shí)際落地中,如何實(shí)現(xiàn)從模型訓(xùn)練到推理服務(wù)的無縫銜接,仍需在工程架構(gòu)和工具鏈上進(jìn)行優(yōu)化。 并且,在線模型是會(huì)迭代的,私有化后就不能迭代了,這個(gè)怎么解決還需要思考。 第二,推理性能與成本優(yōu)化:DeepSeek通過蒸餾技術(shù)和MLA架構(gòu)顯著降低了訓(xùn)練和推理成本,但在實(shí)際應(yīng)用中,如何在不犧牲性能的情況下進(jìn)一步優(yōu)化推理效率,仍是技術(shù)實(shí)現(xiàn)中的難點(diǎn)。 例如,在實(shí)時(shí)性要求較高的場(chǎng)景(如智能客服、實(shí)時(shí)法律咨詢)中,如何通過模型壓縮、量化技術(shù)或分布式推理來提升響應(yīng)速度,是工程團(tuán)隊(duì)需要重點(diǎn)解決的問題。 此外,如何結(jié)合強(qiáng)化學(xué)習(xí)和混合專家(MoE)架構(gòu)的優(yōu)勢(shì),實(shí)現(xiàn)多任務(wù)處理的高效性與準(zhǔn)確性,尤其是在多領(lǐng)域聯(lián)合任務(wù)處理時(shí),確保系統(tǒng)的穩(wěn)定性和性能,也是工程應(yīng)用中的重要考量。 第三,技術(shù)路徑的靈活選擇:在未來的應(yīng)用路徑選擇上,開發(fā)者需要根據(jù)業(yè)務(wù)需求靈活運(yùn)用提示詞優(yōu)化、RAG技術(shù)和模型微調(diào)等手段。例如: 對(duì)于輕量級(jí)應(yīng)用(如創(chuàng)意文案生成),提示詞工程可能是最經(jīng)濟(jì)高效的選擇; 對(duì)于需要?jiǎng)討B(tài)知識(shí)更新的場(chǎng)景(如醫(yī)療問答),RAG技術(shù)可以顯著提升生成內(nèi)容的準(zhǔn)確性; 對(duì)于高精度、高專業(yè)性的任務(wù)(如金融分析),模型微調(diào)則是不可或缺的手段。 開發(fā)者還需在多元化的技術(shù)框架中找到最適合自身業(yè)務(wù)的解決方案,從而提升AI技術(shù)的生產(chǎn)力,實(shí)現(xiàn)技術(shù)向?qū)嶋H業(yè)務(wù)場(chǎng)景的高效落地。 總結(jié)DeepSeek的出現(xiàn)為AI工程應(yīng)用帶來了新的機(jī)遇,但其成功落地仍依賴于開發(fā)者對(duì)行業(yè)需求的深刻理解和對(duì)技術(shù)路徑的靈活選擇。 未來,AI產(chǎn)品的開發(fā)團(tuán)隊(duì)需要在定制化開發(fā)、性能優(yōu)化和工程生態(tài)構(gòu)建等方面持續(xù)投入,才能充分發(fā)揮DeepSeek的技術(shù)優(yōu)勢(shì),推動(dòng)AI技術(shù)在實(shí)際業(yè)務(wù)場(chǎng)景中的普及與落地。 通過不斷優(yōu)化工程實(shí)現(xiàn)路徑,DeepSeek有望成為國(guó)內(nèi)AI應(yīng)用開發(fā)的核心引擎,助力各行各業(yè)實(shí)現(xiàn)智能化轉(zhuǎn)型。 轉(zhuǎn)自https://www.cnblogs.com/yexiaochai/p/18699686 該文章在 2025/2/7 9:28:32 編輯過 |
關(guān)鍵字查詢
相關(guān)文章
正在查詢... |