
深圳市大數(shù)據(jù)研究院研究科學(xué)家、智子芯元聯(lián)合創(chuàng)始人丁添。 深圳特區(qū)報記者 耿超逸 攝
深圳新聞網(wǎng)2026年3月10日訊(深圳特區(qū)報記者 鄭銘)2026年開年不久,中國AI算力賽道傳來一聲“加速”哨響。
由深圳市大數(shù)據(jù)研究院孵化的智子芯元公司,成立僅5個月,便拿出一張硬核答卷:其自主研發(fā)的一款名為KernelCAT的AI Agent工具,38分鐘完成DeepSeek-OCR-2模型在華為昇騰平臺的全自動部署與推理驗(yàn)證。曾經(jīng)讓頂尖工程師團(tuán)隊撓頭的大模型與國產(chǎn)芯片“適配”難題,如今只用花費(fèi)喝完一杯熱咖啡的時間就可解決,且全程基本無需人工干預(yù)。
38分鐘奇跡:
AI“翻譯官”如何打破適配困局
要把一個原本為國外芯片設(shè)計的AI模型,遷移到國產(chǎn)昇騰芯片上運(yùn)行,到底有多難?
“AI模型就像一套復(fù)雜的指令,不同的芯片能聽懂的語言不一樣。而AI模型適配國產(chǎn)芯片,就是讓模型能在國產(chǎn)芯片上正常運(yùn)行,還能發(fā)揮芯片性能?!鄙钲谑写髷?shù)據(jù)研究院研究科學(xué)家、智子芯元聯(lián)合創(chuàng)始人丁添打了個比方:“就像你只有一臺蘋果電腦,卻想玩一個只有Windows版本的游戲。你需要去找游戲公司或蘋果客服花幾個月時間進(jìn)行專門適配,普通用戶很難自己做到?!?/p>
在AI的世界里,這個“適配”過程靠的是算子——它是連接算法與芯片的“翻譯官”,把模型指令轉(zhuǎn)換成芯片能聽懂的語言。算子寫得好不好,直接決定了模型跑得快不快、能耗高不高。在過去,為了把一個復(fù)雜模型“翻譯”適配到國產(chǎn)芯片上,工程師們得一行一行手寫底層代碼,耗時數(shù)周甚至數(shù)月,還未必能發(fā)揮芯片的全部性能。
DeepSeek-OCR-2是一款引入了“視覺因果流”設(shè)計的復(fù)雜多模態(tài)模型,對算子的要求極高,適配這類模型意味著要面對最令人頭疼的“版本地獄”:vLLM、PyTorch和NPU驅(qū)動之間錯綜復(fù)雜的版本互鎖,一個版本不匹配,整個工程就得推倒重來。
而在KernelCAT接到“把DeepSeek-OCR-2模型部署到昇騰平臺”的任務(wù)后,它的運(yùn)行則全程無需人工干預(yù):自動解析模型結(jié)構(gòu),智能排雷,動態(tài)生成遷移方案,并在硬件上反復(fù)測試驗(yàn)證。從下達(dá)指令到推理驗(yàn)證完成,僅耗時38分鐘。
據(jù)昇騰官方平臺消息,在前序DeepSeek-OCR的1代模型的部署測試中,KernelCAT優(yōu)化后的方案較原生方案推理加速最高達(dá)139倍。這意味著,復(fù)雜OCR模型不僅能在國產(chǎn)算力平臺上“跑起來”,更能“跑得穩(wěn)、跑得快”。
“數(shù)學(xué)+AI”雙引擎:
一家初創(chuàng)公司的突破密碼
一家成立僅5個月的公司,憑什么做出國內(nèi)領(lǐng)先行列全自動AI模型遷移工具?
談及最初的研發(fā)初衷,深圳市大數(shù)據(jù)研究院副院長張昕介紹,現(xiàn)在很多單位買了國產(chǎn)算力卡,但不知道怎么用。華為的支持是通用型的,但每家需求不同,怎么低成本快速部署,是個非常大的行業(yè)痛點(diǎn)。
這個痛點(diǎn),恰好撞上了深圳市大數(shù)據(jù)研究院十多年的深厚積累。“我們在應(yīng)用數(shù)學(xué)、運(yùn)籌優(yōu)化、求解器等領(lǐng)域走在國內(nèi)前列,算子開發(fā)、AI Infra(基礎(chǔ)架構(gòu))本質(zhì)上都是優(yōu)化問題,這正是我們擅長的方向。AI大模型我們也已布局三四年,丁添博士團(tuán)隊全力攻關(guān),再加上研究院開放包容的土壤給了大家充分的自由度——憑興趣找準(zhǔn)研發(fā)點(diǎn),沉浸下去、持續(xù)突破。這種氛圍,讓很多‘不可能’慢慢變成了現(xiàn)實(shí)?!睆堦空f道。
據(jù)悉,作為深圳首批十大基礎(chǔ)研究機(jī)構(gòu)之一,深圳市大數(shù)據(jù)研究院長期致力于解決“卡脖子”問題,堅持以數(shù)學(xué)為基礎(chǔ),以數(shù)據(jù)為驅(qū)動,以重大應(yīng)用為導(dǎo)向。智子芯元是由深圳市大數(shù)據(jù)研究院孵化的科技企業(yè),團(tuán)隊成員承襲了研究院“數(shù)學(xué)+AI”路徑,將高深的運(yùn)籌優(yōu)化理論與最前沿的AI大模型技術(shù)結(jié)合,攻克了算法與算子這一“最后一公里”難題。
從跟跑到領(lǐng)跑:
開拓國產(chǎn)算力生態(tài)的星辰大海
KernelCAT的誕生,意義遠(yuǎn)不止于“省幾周時間”。
國產(chǎn)芯片關(guān)系到算力底座能否自主可控。軍事、醫(yī)療等關(guān)鍵領(lǐng)域的模型,不能長期依賴國外芯片運(yùn)行。要讓國產(chǎn)芯片真正用起來、跑得穩(wěn),就必須解決國產(chǎn)芯片開發(fā)難的瓶頸。
“現(xiàn)在,我們有了換道超車的可能?!痹诙√砜磥?,KernelCAT不只是一個模型遷移工具,它更是一個通用計算加速開發(fā)平臺。工程師未來可以在國產(chǎn)芯片上,借助這個工具開發(fā)自己想要的、性能更強(qiáng)的AI模型。他希望,在這個工具的幫助下,未來在國產(chǎn)芯片上能孕育出世界一流的AI模型。
據(jù)了解,作為國家新一代人工智能創(chuàng)新發(fā)展試驗(yàn)區(qū)和創(chuàng)新應(yīng)用先導(dǎo)區(qū),深圳擁有良好產(chǎn)業(yè)基礎(chǔ)、廣闊市場空間和強(qiáng)勁創(chuàng)新活力。全市現(xiàn)有人工智能企業(yè)2600余家,產(chǎn)業(yè)鏈覆蓋芯片、模型、硬件及應(yīng)用全環(huán)節(jié)?!渡钲谑屑涌齑蛟烊斯ぶ悄芟蠕h城市行動計劃》等接連出臺,從資金、場景、人才到產(chǎn)業(yè)鏈協(xié)同,為創(chuàng)新企業(yè)鋪好跑道。智子芯元正是這條跑道上加速沖刺的選手之一。
“我們不僅在做一家公司,更在探索數(shù)學(xué)與AI最本質(zhì)的結(jié)合如何轉(zhuǎn)化為產(chǎn)業(yè)生產(chǎn)力?!倍√硇χ硎荆跋M约汉蛨F(tuán)隊能為這座城市的‘硬’產(chǎn)業(yè),修好最關(guān)鍵的那條‘軟’路。”