蘋果 CoreAI 端側(cè) AI 架構(gòu)測(cè)試：M4 Mac 上 Qwen3 0.6B 解碼速度是 MLX 的 2.47 倍

2026/6/11 14:02:48 來(lái)源：IT之家作者：故淵責(zé)編：故淵

評(píng)論：

IT之家 6 月 11 日消息，科技媒體 Wccftech 昨日（6 月 10 日）發(fā)布博文，報(bào)道稱在 2026 年全球開發(fā)者大會(huì)（WWDC）上，蘋果推出 CoreAI 引擎，接替 2017 年推出的 CoreML 框架，主打端側(cè)大模型推理。

IT之家援引博文介紹，CoreML 框架已服役 9 年，主要面向圖像分類等小型靜態(tài)任務(wù)；而最新接棒的 CoreAI 主要面向端側(cè)本地推理和邊緣 AI 場(chǎng)景，重點(diǎn)優(yōu)化設(shè)備端大語(yǔ)言模型推理，重點(diǎn)支持更靈活的模型格式和更大的模型內(nèi)存占用。

而 MLX 是蘋果生態(tài)中的一個(gè)機(jī)器學(xué)習(xí)框架，更偏向研究、訓(xùn)練和微調(diào)任務(wù)，常被開發(fā)者拿來(lái)測(cè)試和部署本地大模型。

從首批基準(zhǔn)來(lái)看，蘋果 CoreAI 呈現(xiàn)“小模型強(qiáng)、大模型接近持平”特征。在 M4 Mac 上運(yùn)行 Qwen3 0.6B 模型后，CoreAI 解碼速度約為 MLX 的 2.47 倍。在 iPhone 17 Pro 上，這一優(yōu)勢(shì)約為 1.6 倍。

解碼速度指大語(yǔ)言模型生成文本時(shí)，每秒能輸出多少個(gè) token，常寫作 tok／s。這個(gè)指標(biāo)越高，模型回復(fù)通常越快，用戶等待時(shí)間越短。

蘋果 CoreAI 端側(cè) AI 架構(gòu)測(cè)試：M4 Mac 上 Qwen3 0.6B 解碼速度是 MLX 的 2.47 倍

在模型規(guī)模提升至 80 億參數(shù)（Qwen3 8B，M4 Max）后，CoreAI 比 MLX 快 5%，兩者解碼性能幾乎持平，意味著 CoreAI 的性能優(yōu)勢(shì)隨模型規(guī)模增大而收窄。

在持續(xù)負(fù)載方面，測(cè)試顯示，iPhone 17 Pro 的 GPU 在長(zhǎng)時(shí)間運(yùn)行后會(huì)較快觸發(fā)溫控降頻，這會(huì)削弱 GPU 路線的持續(xù)吞吐。CoreML 配合蘋果神經(jīng)引擎（ANE，Apple Neural Engine）的組合在性能保持率方面實(shí)現(xiàn)反超。

A table compares decode throughput and peak memory for '4-bit, n=3' models showing 'LiteRT-LM' leading in both categories with 55.4 tok/s and 641 MB.

橫向?qū)Ρ绕渌麖S商方案，針對(duì)特定模型深度優(yōu)化的引擎依然更容易勝出。比如，谷歌的 LiteRT-LM 運(yùn)行 Gemma 時(shí)，在 iPhone 17 Pro 上達(dá)到每秒 55.4 tokens，并且 RAM 占用僅 641 MB；作為對(duì)照，蘋果 MLX 的內(nèi)存占用為 2900 MB，是前者的 4.5 倍。

A table compares the average package power, energy per 512-token run, and joules per token for different runtimes, showing 'apple-fm' with the lowest energy per token at 0.11 J/token.

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

蘋果 CoreAI 端側(cè) AI 架構(gòu)測(cè)試：M4 Mac 上 Qwen3 0.6B 解碼速度是 MLX 的 2.47 倍

相關(guān)文章