當前,全球人工智能技術加速迭代,已成為推動新一輪科技革命和產(chǎn)業(yè)變革的核心力量,為新質生產(chǎn)力的發(fā)展注入了前所未有的時代動能。我國順應這一趨勢,逐步構建起涵蓋基礎層、框架層、模型層與應用層的完整人工智能產(chǎn)業(yè)體系,為新質生產(chǎn)力的現(xiàn)實轉化提供了堅實支撐。特別是以Deep?Seek為代表的國產(chǎn)大模型持續(xù)突破核心技術瓶頸,在跨模態(tài)理解、知識生成與自主推理等方面展現(xiàn)出顯著優(yōu)勢,不僅有效提升了智能化生產(chǎn)效率,而且加速了智能技術與實體經(jīng)濟的深度融合,成為驅動新質生產(chǎn)力發(fā)展的關鍵創(chuàng)新支撐。
(一)全球人工智能發(fā)展方興未艾為新質生產(chǎn)力發(fā)展提供時代機遇
人工智能作為新一輪科技革命和產(chǎn)業(yè)變革的主導性技術,不僅實現(xiàn)了生產(chǎn)力的指數(shù)級躍遷,而且深刻地滲透到社會生產(chǎn)生活的各個方面,給世界政治、經(jīng)濟、文化各方面帶來了深遠的影響。鑒于此,世界主要經(jīng)濟體爭相制定并實施人工智能發(fā)展戰(zhàn)略,積極推動人工智能技術的研究與應用。
從全球主要經(jīng)濟體人工智能領域的發(fā)展態(tài)勢來看,已初步形成美、中、歐盟三足鼎立的格局,各經(jīng)濟體在政策規(guī)劃、研發(fā)投入、專利產(chǎn)出和產(chǎn)業(yè)應用等層面各具特色。其一,政策規(guī)劃層面,通過頂層設計強化人工智能發(fā)展的戰(zhàn)略框架。美國是最早意識到人工智能戰(zhàn)略價值的國家,依托其雄厚的科研基礎和活躍的科技企業(yè)生態(tài),在人工智能領域始終保持著全球領先地位。歐盟在發(fā)展人工智能領域方面獨樹一幟,其策略著重于在科技創(chuàng)新與社會責任之間尋求平衡。其中2024年5月《人工智能法案》的正式生效,標志著歐盟人工智能領域監(jiān)管立法與實踐走在世界前列。中國人工智能產(chǎn)業(yè)在國家戰(zhàn)略規(guī)劃的推動下形成“政策引導、場景驅動、產(chǎn)業(yè)協(xié)同”的發(fā)展格局,成為全球人工智能發(fā)展最具活力和潛力的國家之一。其二,研發(fā)投入層面,持續(xù)在人工智能領域實施重大投資布局。美國斯坦福大學2025年4月發(fā)布的《2025年人工智能指數(shù)報告》顯示,2024年,在人工智能私人投資方面,美國以1091億美元遙遙領先,是排名第二的中國(93億美元)的11.7 倍[32]。在生成式人工智能投資方面,美國的投資超過了中國、歐盟,差距進一步擴大。在知識創(chuàng)新方面,2023年,中國發(fā)表的關于人工智能的論文(23.2%)和被引用次數(shù)(22.6%)均超過其他國家,但美國在具有高影響力的研究方面領先(被引次數(shù)最多的前100名)。另外,美國仍是知名大模型的核心策源地,2024 年美國產(chǎn)生了40個知名大模型,遠超中國和歐盟。盡管美國在數(shù)量上保持領先,但中美之間頂尖模型的性能差異從2023年的4.9%縮減至2024年的0.7%[32],這表明中國大模型的質量在迅速崛起。其三,專利產(chǎn)出層面,呈現(xiàn)出中美主導、多國競逐,技術集中度高且應用導向明顯的發(fā)展態(tài)勢。截至2023 年年底,中國在總人工智能專利數(shù)量上領先,占所有專利授予的69.7%,是排名第二美國(14.2%)的4.9倍。其四,產(chǎn)業(yè)應用層面,人工智能不再停留在實驗階段,落地轉化呈現(xiàn)出前所未有的活躍態(tài)勢。麥肯錫調查報告顯示,2024年有78%的受訪者表示,其所在組織在至少一個業(yè)務環(huán)節(jié)中使用人工智能,這一比例相較2023年的55%顯著提升;同時,生成式人工智能的使用率也由2023年的33%增長至71%。由此可見,人工智能正逐步從企業(yè)應用中的輔助工具轉變?yōu)橥苿雍诵臉I(yè)務發(fā)展的關鍵力量。
(二)我國人工智能產(chǎn)業(yè)體系為新質生產(chǎn)力發(fā)展提供現(xiàn)實條件
盡管我國人工智能發(fā)展起步較晚,但在國家戰(zhàn)略規(guī)劃和產(chǎn)業(yè)政策的推動下,人工智能發(fā)展“已進入技術攻堅、應用深化、生態(tài)重構的新階段,在全球人工智能大模型發(fā)展中處于第一梯隊”,形成了涵蓋基礎層、框架層、模型層和應用層的完整人工智能產(chǎn)業(yè)體系,為新質生產(chǎn)力的發(fā)展提供了強勁引擎與廣闊空間。
人工智能產(chǎn)業(yè)各層級之間相互嵌套、協(xié)同推進,形成從技術供給到場景落地的閉環(huán)體系。其一,基礎層是人工智能產(chǎn)業(yè)發(fā)展的底層支撐,包括算力、算法和數(shù)據(jù)三大核心要素。算力方面,截至2024年底,我國在用算力中心機架總規(guī)模超過900萬標準機架,算力總規(guī)模達280EFLops(每秒百億億次浮點運算),國家八大樞紐節(jié)點算力總規(guī)模達175EFLops;智能算力規(guī)模達90 EFLops,在總算力規(guī)模中占比提升至32%,為海量數(shù)據(jù)計算提供了智能底座。算法方面,基于Transformer架構不斷進行優(yōu)化與創(chuàng)新,諸如多頭潛在注意力機制和混合專家系統(tǒng)等結構性創(chuàng)新顯著提升了算法在大模型訓練與推理階段的效率與表現(xiàn)力。數(shù)據(jù)方面,通過構建多源異構、結構化與非結構化并重的行業(yè)知識圖譜與高質量訓練語料庫,為大模型預訓練與垂類模型精調提供了豐富的“養(yǎng)料”保障。其二,框架層是連接基礎層與上層應用的技術橋梁,主要包括深度學習框架、開發(fā)工具鏈及開源社區(qū)。深度學習框架方面,我國已構建起以飛漿(PaddlePaddle)、昇思(MindSpore)、一流科技(OneFlow)等為代表的自主框架體系,初步具備與機器學習框架(TensorFlow)、深度學習工具(PyTorch)等國際主流框架競爭的能力。開發(fā)工具鏈方面,一是圍繞國產(chǎn)芯片,如昇騰(Ascend)、昆侖(Baidu)構建的異構兼容編譯工具與算子優(yōu)化系統(tǒng),實現(xiàn)了從硬件到算法的深度融合,顯著提升了大模型在本土算力平臺上的運行效率;二是以飛槳、昇思為核心的開發(fā)工具鏈體系,在模型壓縮、自動并行訓練、跨端部署、可解釋性分析等環(huán)節(jié)形成了差異化優(yōu)勢。開源社區(qū)方面,通過構建活躍的社區(qū)生態(tài),聚集了大量開發(fā)者與開源項目,推動了開源技術的本土化演進與產(chǎn)業(yè)化落地。其三,模型層聚焦大模型及垂直領域模型的研發(fā)與優(yōu)化,是技術落地的關鍵環(huán)節(jié)。深度求索、百度、騰訊、阿里巴巴、字節(jié)跳動、商湯科技等企業(yè)憑借各自的發(fā)展戰(zhàn)略和技術特色,“紛紛投身大模型研發(fā)賽道,不斷探索創(chuàng)新的模型架構、訓練算法與優(yōu)化策略,呈現(xiàn)‘百模競爭’的火熱局面”。其四,應用層不僅是技術價值的最終體現(xiàn),更是驅動新質生產(chǎn)力加快形成的實踐前沿。一方面,依托大模型與行業(yè)知識融合能力,在智能制造、智慧醫(yī)療、金融風控、教育輔助、數(shù)字政務等領域持續(xù)涌現(xiàn)出一批具備場景適配性與規(guī)模化部署能力的AI應用解決方案。另一方面,不斷推動算法能力與實體經(jīng)濟深度融合,催生了智能客服、虛擬人、智能駕駛、工業(yè)質檢等新業(yè)態(tài)、新模式。
(三)DeepSeek大模型技術優(yōu)勢為新質生產(chǎn)力發(fā)展提供創(chuàng)新支撐
DeepSeek之所以能夠在短時間內實現(xiàn)對國際頂尖大模型的趕超,并非源自技術代際超越,而是現(xiàn)有算力、算法與數(shù)據(jù)三大核心維度實現(xiàn)了協(xié)同推進、極致優(yōu)化的系統(tǒng)性創(chuàng)新,構建了具有高性能、高效率和高適應性的機器學習模型。
算力維度體現(xiàn)為自主可控的算力生態(tài)與技術鏈的系統(tǒng)整合。其一,實現(xiàn)動態(tài)異構資源的高效映射。DeepSeek 采用動態(tài)資源調度策略,能夠在CPU、GPU、AI加速芯片等多種異構算力資源之間實現(xiàn)高效映射。其底層調度系統(tǒng)可根據(jù)模型訓練階段的不同計算需求,動態(tài)分配資源,從而提升整體算力利用率與能源效率。其二,國產(chǎn)化高性能芯片適配。DeepSeek在算力部署過程中,積極適配國產(chǎn)AI 芯片,如昇騰(Ascend)、寒武紀(Cambricon)等,并針對其架構特性優(yōu)化深度學習框架與編譯器,加快了自主可控AI基礎設施的落地,提升了系統(tǒng)的安全性與可持續(xù)性。其三,引入FP8混合精度訓練框架。DeepSeek-V3使用FP8(8位浮點數(shù))全棧技術,提升算力運行效率,并顯著降低對存儲的消耗,實現(xiàn)了“高性能—低能耗”的平衡。
算法維度體現(xiàn)為以稀疏激活機制為核心的算法效率優(yōu)化路徑。其一,混合專家模型架構的優(yōu)化。該架構主要通過細粒度專家、共享專家和路由機制實現(xiàn)了模型容量的高效擴展,在保持模型整體容量(總參數(shù)671B)的同時,大幅降低了計算負載(每步僅激活參數(shù)37B),實現(xiàn)了“規(guī)模—效率”兼容。其二,多頭潛在注意力機制的創(chuàng)新。DeepSeek的多頭潛在注意力機制創(chuàng)新地采用低秩聯(lián)合壓縮技術,顯著減少了推理時的鍵值緩存和訓練時的激活內存,同時保持了與標準多頭注意力機制相當?shù)男阅堋F淙R蒸餾技術的應用。DeepSeek的蒸餾技術將數(shù)據(jù)蒸餾與模型蒸餾相結合,通過監(jiān)督微調的方式,將教師模型的知識遷移到學生模型中,實現(xiàn)了從大型復雜模型到小型高效模型的知識遷移。
數(shù)據(jù)維度體現(xiàn)為本土語義建模與知識體系的融合并進。其一,多令牌預測(MTP)技術的應用。多令牌預測是語言建模中的一種先進方法,其工作原理是通過模型一次預測多個token,以提升模型的訓練效率、生成質量和推理速度。DeepSeek團隊率先將MTP技術應用于大模型訓練中,通過動態(tài)分配計算資源,利用MTP模塊約束模型的高效優(yōu)勢,在保持模型性能的同時顯著提升訓練和推理效率。其二,本土知識結構深度嵌入。DeepSeek在語料構建過程中系統(tǒng)引入中國本土知識體系,包括傳統(tǒng)文化經(jīng)典、政策法規(guī)文書、國家發(fā)展戰(zhàn)略文本、產(chǎn)業(yè)發(fā)展資料與社會治理文獻等內容。這種知識嵌入不僅增強了模型對特定領域語言的理解深度,也提升了其在面對中文場景時復雜語義推理與內容生成的能力。
總體來看,DeepSeek通過“算力彈性化—算法稀疏化—數(shù)據(jù)價值化”的協(xié)同推進,突破了傳統(tǒng)大模型的“算力堆砌”困境,為大模型技術持續(xù)進化提供了可擴展的技術框架。(作者:劉偉)