在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

<pre id="vi7kq"><li id="vi7kq"></li></pre>

<bdo id="vi7kq"><span id="vi7kq"></span></bdo>

<bdo id="vi7kq"><pre id="vi7kq"><meter id="vi7kq"></meter></pre></bdo>

首頁(yè)

最會(huì)買(mǎi)

設(shè)置

日夜間

隨系統(tǒng)

淺色

深色
主題色
黑色

訂閱

軟媒應(yīng)用

App客戶端
要知App
軟媒魔方

首頁(yè) > 智能時(shí)代>人工智能

智譜開(kāi)源 GLM-OCR 模型：僅 0.9B 參數(shù)，多項(xiàng)基準(zhǔn)取得 SOTA 表現(xiàn)

2026/2/3 9:14:44 來(lái)源：IT之家作者：遠(yuǎn)洋 責(zé)編：遠(yuǎn)洋

評(píng)論：

感謝IT之家網(wǎng)友斯文當(dāng)不了飯吃的線索投遞！

IT之家 2 月 3 日消息，智譜今日宣布正式發(fā)布并開(kāi)源 GLM-OCR。據(jù)介紹，該模型僅 0.9B 參數(shù)規(guī)模，支持 vLLM、SGLang 和 Ollama 部署，在公式識(shí)別、表格識(shí)別、信息抽取的多項(xiàng)主流基準(zhǔn)中均取得 SOTA 表現(xiàn)。

IT之家附官方詳細(xì)介紹如下：

今天，我們正式發(fā)布并開(kāi)源 GLM-OCR，以“小尺寸、高精度”實(shí)現(xiàn)文檔解析能力新標(biāo)桿。作為一款輕量的專(zhuān)業(yè)級(jí) OCR 模型，其核心亮點(diǎn)如下：

性能 SOTA：以 94.6 分登頂 OmniDocBench V1.5，并在公式識(shí)別、表格識(shí)別、信息抽取的多項(xiàng)主流基準(zhǔn)中均取得 SOTA 表現(xiàn)；
場(chǎng)景優(yōu)化：專(zhuān)攻真實(shí)業(yè)務(wù)痛點(diǎn)，在手寫(xiě)體、復(fù)雜表格、代碼文檔及印章等高難場(chǎng)景中表現(xiàn)穩(wěn)健；
推理高效：僅 0.9B 參數(shù)規(guī)模，支持 vLLM、SGLang 和 Ollama 部署，顯著降低推理延遲與算力開(kāi)銷(xiāo)，適合高并發(fā)與邊緣部署；
開(kāi)源易用：同步開(kāi)源完整 SDK 與推理工具鏈，環(huán)境依賴簡(jiǎn)單，支持一行命令快速調(diào)用，輕松接入現(xiàn)有業(yè)務(wù)系統(tǒng)。

性能 SOTA、精準(zhǔn)干活兒

得益于自研 CogViT 視覺(jué)編碼器與深度場(chǎng)景優(yōu)化，GLM-OCR 實(shí)現(xiàn)了“小尺寸，高精度”。

GLM-OCR 參數(shù)量?jī)H 0.9B，但在權(quán)威文檔解析榜單 OmniDocBench V1.5 中以 94.6 分取得 SOTA 性能。在文本、公式、表格識(shí)別及信息抽取四大細(xì)分領(lǐng)域的表現(xiàn)優(yōu)于多款 OCR 專(zhuān)項(xiàng)模型，性能接近 Gemini-3-Pro。

智譜開(kāi)源 GLM-OCR 模型：僅 0.9B 參數(shù)，多項(xiàng)基準(zhǔn)取得 SOTA 表現(xiàn)

除了公開(kāi)榜單，我們還針對(duì)真實(shí)業(yè)務(wù)中的六大核心場(chǎng)景進(jìn)行了內(nèi)部測(cè)評(píng)。結(jié)果顯示，GLM-OCR 在代碼文檔、真實(shí)場(chǎng)景表格、手寫(xiě)體、多語(yǔ)言、印章識(shí)別、票據(jù)提取等維度均取得顯著優(yōu)勢(shì)。

智譜開(kāi)源 GLM-OCR 模型：僅 0.9B 參數(shù)，多項(xiàng)基準(zhǔn)取得 SOTA 表現(xiàn)

案例實(shí)測(cè)

在實(shí)際應(yīng)用中，GLM-OCR 能夠精準(zhǔn)解析掃描件、PDF、表格及票據(jù)，有效解決手寫(xiě)、印章、豎排及多語(yǔ)言混排難題，在復(fù)雜版式下依然保持極高的準(zhǔn)確率和魯棒性。

通用文本識(shí)別：GLM-OCR 支持照片、截圖、掃描件、文檔輸入，能夠識(shí)別手寫(xiě)體、印章、代碼等特殊文字，可廣泛應(yīng)用于教育、科研、辦公等場(chǎng)景。

案例：手寫(xiě)公式識(shí)別

智譜開(kāi)源 GLM-OCR 模型：僅 0.9B 參數(shù)，多項(xiàng)基準(zhǔn)取得 SOTA 表現(xiàn)

案例：印章識(shí)別

智譜開(kāi)源 GLM-OCR 模型：僅 0.9B 參數(shù)，多項(xiàng)基準(zhǔn)取得 SOTA 表現(xiàn)

案例：代碼識(shí)別

智譜開(kāi)源 GLM-OCR 模型：僅 0.9B 參數(shù)，多項(xiàng)基準(zhǔn)取得 SOTA 表現(xiàn)

復(fù)雜表格解析：針對(duì)合并單元格、多層表頭等復(fù)雜結(jié)構(gòu)，模型能精準(zhǔn)理解并直接輸出 HTML 代碼。無(wú)需二次制表，識(shí)別結(jié)果即可用于網(wǎng)頁(yè)展示或數(shù)據(jù)處理，大幅提升表格錄入與轉(zhuǎn)換效率。

案例：跨單元格表格

智譜開(kāi)源 GLM-OCR 模型：僅 0.9B 參數(shù)，多項(xiàng)基準(zhǔn)取得 SOTA 表現(xiàn)

案例：分段表

智譜開(kāi)源 GLM-OCR 模型：僅 0.9B 參數(shù)，多項(xiàng)基準(zhǔn)取得 SOTA 表現(xiàn)

信息結(jié)構(gòu)化提取：GLM-OCR 可從各類(lèi)卡證、票據(jù)、表格中智能提取關(guān)鍵字段，并輸出標(biāo)準(zhǔn)的 JSON 格式，無(wú)縫對(duì)接銀行、保險(xiǎn)及物流等行業(yè)系統(tǒng)。

輸入圖片：

智譜開(kāi)源 GLM-OCR 模型：僅 0.9B 參數(shù)，多項(xiàng)基準(zhǔn)取得 SOTA 表現(xiàn)

輸出：

智譜開(kāi)源 GLM-OCR 模型：僅 0.9B 參數(shù)，多項(xiàng)基準(zhǔn)取得 SOTA 表現(xiàn)

批量處理與 RAG 支持：GLM-OCR 支持大批量文檔的識(shí)別與解析，其高精度的識(shí)別能力和規(guī)整的輸出格式，可為檢索增強(qiáng)生成（RAG）提供堅(jiān)實(shí)基礎(chǔ)。

更快、更便宜

速度方面，我們對(duì)比了在相同硬件環(huán)境與測(cè)試條件下（單副本，單并發(fā)），分別以圖像文件和 PDF 文件為輸入，不同 OCR 方法完成解析并導(dǎo)出 Markdown 文件的速度差異。結(jié)果顯示，GLM-OCR 處理 PDF 文檔的吞吐量達(dá) 1.86 頁(yè) / 秒，圖片達(dá) 0.67 張 / 秒，速度顯著優(yōu)于同類(lèi)模型。

智譜開(kāi)源 GLM-OCR 模型：僅 0.9B 參數(shù)，多項(xiàng)基準(zhǔn)取得 SOTA 表現(xiàn)

價(jià)格方面，API 輸入輸出同價(jià)，僅需 0.2 元 / 百萬(wàn) Tokens。1 元即可處理約 2000 張 A4 大小掃描圖片或 200 份 10 頁(yè)簡(jiǎn)單排版 PDF，成本約為傳統(tǒng) OCR 方案的 1/10。

技術(shù)細(xì)節(jié)

在訓(xùn)練策略方面，GLM-OCR 率先將多 Tokens 預(yù)測(cè)損失（MTP）引入 OCR 模型訓(xùn)練過(guò)程，以增強(qiáng)損失信號(hào)密度并提升模型學(xué)習(xí)效率。并且，通過(guò)持續(xù)且穩(wěn)定的全任務(wù)強(qiáng)化學(xué)習(xí)訓(xùn)練，能夠顯著提升模型在復(fù)雜文檔場(chǎng)景下的整體識(shí)別精度與泛化能力。

上述性能提升還得益于 GLM-OCR 在多模態(tài)模型結(jié)構(gòu)上的系統(tǒng)性設(shè)計(jì)。模型整體采用“編碼器-解碼器”架構(gòu)，繼承自 GLM-V 系列，由視覺(jué)編碼器（ViT）、跨模態(tài)連接層和語(yǔ)言解碼器三大核心模塊組成。其中，視覺(jué)側(cè)集成了自研的 CogViT 視覺(jué)編碼器（400M 參數(shù)），并在數(shù)十億級(jí)圖文對(duì)數(shù)據(jù)上引入 CLIP 策略進(jìn)行大規(guī)模預(yù)訓(xùn)練，使模型具備了強(qiáng)大的文字與版面語(yǔ)義理解能力。

為實(shí)現(xiàn)視覺(jué)與語(yǔ)言信息的高效融合，GLM-OCR 設(shè)計(jì)了一套輕量而高效的連接層結(jié)構(gòu)，融合 SwiGLU 機(jī)制并引入 4 倍下采樣策略，能夠精準(zhǔn)篩選并保留關(guān)鍵視覺(jué) Token，將高密度語(yǔ)義信息高效傳遞至后端的 GLM-0.5B 解碼器，從而支撐高精度的 OCR 識(shí)別輸出。

在整體系統(tǒng)層面，GLM-OCR 采用“版面分析 → 并行識(shí)別”的兩階段技術(shù)范式。其中，版面分析模塊基于 PP-DocLayout-V3 實(shí)現(xiàn)，能夠在版式多樣、結(jié)構(gòu)復(fù)雜的文檔場(chǎng)景下實(shí)現(xiàn)穩(wěn)定、高質(zhì)量且高效率的 OCR 解析效果。

開(kāi)源與在線體驗(yàn)

1.開(kāi)源地址

Github：https://github.com/zai-org/GLM-OCR
Hugging Face：https://huggingface.co/zai-org/GLM-OCR

2.模型 API

智譜開(kāi)放平臺(tái)：https://docs.bigmodel.cn/cn/guide/models/vlm/glm-ocr
特惠嘗鮮禮包上線，2.9 元享 5000 萬(wàn) Tokens：https://bigmodel.cn/special_area
Z.ai：https://docs.z.ai/guides/vlm/glm-ocr

3.在線體驗(yàn)

Z.ai：https://ocr.z.ai

未來(lái)，我們將持續(xù)迭代 GLM-OCR，推出更多尺寸版本，并將能力延伸至更多語(yǔ)言和視頻 OCR，全面拓寬視覺(jué)智能的應(yīng)用邊界。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

相關(guān)文章

關(guān)鍵詞：智譜，OCR

軟媒旗下網(wǎng)站： IT之家最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件： 軟媒手機(jī)APP應(yīng)用魔方最會(huì)買(mǎi) 要知

<center id="jalt2"></center>

<bdo id="jalt2"><span id="jalt2"><meter id="jalt2"></meter></span></bdo>

<bdo id="jalt2"><span id="jalt2"></span></bdo>