2025年的夏天雖已遠(yuǎn)去,然而PAC 2025的熱血余溫未散:算力的涌動(dòng)、屏幕的閃爍、代碼的狂奔……那份拼搏與激情,仿佛仍在空氣中熾烈燃燒,未曾褪色。
頂尖戰(zhàn)隊(duì)齊聚第21屆CCF HPC China 2025的PAC決賽現(xiàn)場(chǎng),展開(kāi)正面交鋒,將激情與實(shí)力盡數(shù)傾注 “優(yōu)化” 與 “應(yīng)用” 兩大賽道,現(xiàn)場(chǎng)氛圍燃至頂峰。
賽場(chǎng)的熱度,不止是代碼奔涌時(shí)的風(fēng)扇轟鳴,更是年輕人拼盡全力時(shí)的心跳共振。正是這股激情與執(zhí)著,凝聚成推動(dòng)國(guó)產(chǎn)計(jì)算駛向未來(lái)的核心動(dòng)力。終場(chǎng)哨響,PAC2025并行應(yīng)用挑戰(zhàn)賽圓滿收官。


鯤鵬撐腰,滿格開(kāi)戰(zhàn)
本屆大賽全面采用鯤鵬計(jì)算平臺(tái)作為核心硬件底座。以ARM架構(gòu)為技術(shù)核心,其集成的眾核架構(gòu)、向量/矩陣擴(kuò)展、片上內(nèi)存高帶寬等硬件特性,成為參賽團(tuán)隊(duì)挖掘極致性能的核心載體,也標(biāo)志著國(guó)產(chǎn)CPU平臺(tái)正式成為高性能計(jì)算技術(shù)探索的關(guān)鍵陣地。
技術(shù)亮點(diǎn)回顧“硬件-軟件-應(yīng)用”的全棧突破
硬件架構(gòu)特性的深度挖掘:以鯤鵬 ARM 為核心,釋放國(guó)產(chǎn) CPU 潛力
ARM 技術(shù)的規(guī)模化應(yīng)用:特等獎(jiǎng)獲得者清華大學(xué)深圳國(guó)際研究生院團(tuán)隊(duì)(簡(jiǎn)稱清華團(tuán)隊(duì))充分發(fā)揮矩陣運(yùn)算可伸縮向量擴(kuò)展的優(yōu)勢(shì),通過(guò)循環(huán)重排與數(shù)據(jù)預(yù)取優(yōu)化GEMM與HPCG性能,最大化鯤鵬CPU的向量計(jì)算吞吐。在INT8低精度計(jì)算與Attention算子這一核心挑戰(zhàn)上,清華、浙大、山大團(tuán)隊(duì)均依托鯤鵬平臺(tái)的矩陣算力,實(shí)現(xiàn)了“向量→矩陣”的計(jì)算單元升級(jí)。例如,清華團(tuán)隊(duì)利用矩陣運(yùn)算單指令完成 Tile 級(jí)乘加,大幅降低指令數(shù)量與寄存器壓力;浙江大學(xué)團(tuán)隊(duì)則驗(yàn)證“矩陣運(yùn)算+片上內(nèi)存”組合的優(yōu)勢(shì),將鯤鵬CPU的帶寬與矩陣吞吐拉至接近GPU量級(jí),減少CPU與加速器的數(shù)據(jù)搬運(yùn)延遲。
鯤鵬硬件優(yōu)勢(shì)的協(xié)同驗(yàn)證:山東大學(xué)團(tuán)隊(duì)在應(yīng)用賽道中,基于鯤鵬新一代CPU的多核并行與高帶寬優(yōu)勢(shì),實(shí)現(xiàn)了 20 億原子體系的分子動(dòng)力學(xué)模擬。在弱擴(kuò)展8倍、強(qiáng)擴(kuò)展 4 倍的條件下仍保持80%并行效率,直接證明了國(guó)產(chǎn)CPU在超大規(guī)模科學(xué)計(jì)算中的端到端性能,已具備與GPU相當(dāng)?shù)母?jìng)爭(zhēng)力。

PAC2025上機(jī)現(xiàn)場(chǎng)
軟件優(yōu)化創(chuàng)新:硬件特性與軟件策略的深度協(xié)同
精細(xì)化內(nèi)存與計(jì)算調(diào)度:清華團(tuán)隊(duì)采用二維 Tiling 策略,浙江大學(xué)團(tuán)隊(duì)針對(duì)K維度切分以充分利用HPC緩存,均將關(guān)鍵數(shù)據(jù)留駐L1/L2緩存,減少對(duì)內(nèi)存帶寬的依賴,適配鯤鵬的緩存架構(gòu)設(shè)計(jì)。此外,清華基于 Pthreads 自建線程池,規(guī)避操作系統(tǒng)調(diào)度開(kāi)銷,實(shí)現(xiàn)鯤鵬多核間的任務(wù)均衡分配,并行效率較傳統(tǒng)方案提升顯著。
精度與性能的平衡優(yōu)化:針對(duì)混合精度計(jì)算需求,浙大提出“fp32保存中間變量 + svzip 轉(zhuǎn)化為 fp16”的方法,避免了純 fp16 的指數(shù)溢出問(wèn)題;山大則提出“全流程混合精度向量化”,并自研 ARM 向量化超越函數(shù)庫(kù),進(jìn)一步適配鯤鵬平臺(tái)的指令集特性,在保證計(jì)算正確性的前提下,效率提升 20%-30%。
算子級(jí)優(yōu)化突破:山東大學(xué)團(tuán)隊(duì)在優(yōu)化賽道中,針對(duì) INT8GEMM 與 Attention 算子提出“數(shù)值擴(kuò)展+算子融合”全棧方案——基于SVSUMOPA/SVMOPA指令實(shí)現(xiàn)2路/4路矩陣外積乘法,結(jié)合FlashAttention融合策略,減少中間結(jié)果訪存開(kāi)銷與線程競(jìng)爭(zhēng),使大Batch訓(xùn)練與大模型推理的穩(wěn)定性提升40%以上,為鯤鵬平臺(tái)的AI算子庫(kù)建設(shè)提供直接技術(shù)參考。

PAC2025答辯現(xiàn)場(chǎng)
應(yīng)用落地突破:覆蓋 AI 與科學(xué)計(jì)算的多領(lǐng)域驗(yàn)證
AI 計(jì)算:清華團(tuán)隊(duì)的矩陣運(yùn)算加速與山大的算子融合成果,可直接應(yīng)用于鯤鵬生態(tài)的 AI 芯片與 CPU,為大模型推理(如語(yǔ)音識(shí)別、視覺(jué)計(jì)算)與中小規(guī)模訓(xùn)練提供高性能算子支撐,有效解決國(guó)產(chǎn)平臺(tái)“AI計(jì)算性能不足”的核心痛點(diǎn)。
科學(xué)計(jì)算:清華團(tuán)隊(duì)的 HPCG 優(yōu)化與山大的分子動(dòng)力學(xué)模擬,驗(yàn)證了鯤鵬平臺(tái)在氣象、天文、流體力學(xué)、藥物研發(fā)等領(lǐng)域的適用性——如山東大學(xué)團(tuán)隊(duì)的成果可直接復(fù)用至新能源材料設(shè)計(jì)與復(fù)雜流體計(jì)算,為國(guó)產(chǎn)高性能計(jì)算的行業(yè)落地提供技術(shù)范本。

PAC的意義:從賽場(chǎng)到未來(lái)
PAC大賽的成果不是單點(diǎn)的創(chuàng)新打法,而是真正能走出賽場(chǎng)、落到產(chǎn)業(yè)的技術(shù)。無(wú)論是算子優(yōu)化,還是大規(guī)模科學(xué)計(jì)算模擬,都已具備直接賦能科研與產(chǎn)業(yè)的潛力。
PAC 2025的意義,在于夯實(shí)國(guó)產(chǎn)算力生態(tài),讓以鯤鵬為核心的國(guó)產(chǎn) CPU 走向成熟,打破“高性能依賴國(guó)外架構(gòu)”的偏見(jiàn);在于推動(dòng)“硬件—軟件—應(yīng)用”的全棧融合,讓協(xié)同優(yōu)化成為可復(fù)制的范式;更在于將成果帶入產(chǎn)業(yè)與人才的長(zhǎng)遠(yuǎn)布局,既賦能 AI、大模型、分子動(dòng)力學(xué)等應(yīng)用場(chǎng)景,也培養(yǎng)出一批能夠橫跨硬件、軟件與應(yīng)用的青年力量。
從 ARM 架構(gòu)的深度挖掘,到軟硬件的協(xié)同優(yōu)化,再到端到端的應(yīng)用突破,PAC 2025 讓國(guó)產(chǎn)算力不再只是“能用”,而是真正“好用”。它證明了我們不再只是被動(dòng)追趕,而是已能與前沿并肩而行,正全力奔向?qū)儆谥袊?guó)的高性能計(jì)算未來(lái)。





明基投影機(jī)
堅(jiān)果投影機(jī)
科視投影機(jī)
極米投影機(jī)
SONNOC投影機(jī)
寶視來(lái)投影機(jī)
視美樂(lè)投影機(jī)
當(dāng)貝投影機(jī)
哈趣投影機(jī)
WAP手機(jī)版
建議反饋
官方微博
微信掃一掃
PjTime