在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

智譜開(kāi)源 GLM-OCR 模型:僅 0.9B 參數(shù),多項(xiàng)基準(zhǔn)取得 SOTA 表現(xiàn)

2026/2/3 9:14:44 來(lái)源:IT之家 作者:遠(yuǎn)洋 責(zé)編:遠(yuǎn)洋
感謝IT之家網(wǎng)友 斯文當(dāng)不了飯吃 的線索投遞!

IT之家 2 月 3 日消息,智譜今日宣布正式發(fā)布并開(kāi)源 GLM-OCR。據(jù)介紹,該模型僅 0.9B 參數(shù)規(guī)模,支持 vLLM、SGLang 和 Ollama 部署,在公式識(shí)別、表格識(shí)別、信息抽取的多項(xiàng)主流基準(zhǔn)中均取得 SOTA 表現(xiàn)。

IT之家附官方詳細(xì)介紹如下:

今天,我們正式發(fā)布并開(kāi)源 GLM-OCR,以“小尺寸、高精度”實(shí)現(xiàn)文檔解析能力新標(biāo)桿。作為一款輕量的專(zhuān)業(yè)級(jí) OCR 模型,其核心亮點(diǎn)如下:

  • 性能 SOTA:以 94.6 分登頂 OmniDocBench V1.5,并在公式識(shí)別、表格識(shí)別、信息抽取的多項(xiàng)主流基準(zhǔn)中均取得 SOTA 表現(xiàn);

  • 場(chǎng)景優(yōu)化:專(zhuān)攻真實(shí)業(yè)務(wù)痛點(diǎn),在手寫(xiě)體、復(fù)雜表格、代碼文檔及印章等高難場(chǎng)景中表現(xiàn)穩(wěn)健;

  • 推理高效:僅 0.9B 參數(shù)規(guī)模,支持 vLLM、SGLang 和 Ollama 部署,顯著降低推理延遲與算力開(kāi)銷(xiāo),適合高并發(fā)與邊緣部署;

  • 開(kāi)源易用:同步開(kāi)源完整 SDK 與推理工具鏈,環(huán)境依賴簡(jiǎn)單,支持一行命令快速調(diào)用,輕松接入現(xiàn)有業(yè)務(wù)系統(tǒng)。

性能 SOTA、精準(zhǔn)干活兒

得益于自研 CogViT 視覺(jué)編碼器與深度場(chǎng)景優(yōu)化,GLM-OCR 實(shí)現(xiàn)了“小尺寸,高精度”。

GLM-OCR 參數(shù)量?jī)H 0.9B,但在權(quán)威文檔解析榜單 OmniDocBench V1.5 中以 94.6 分取得 SOTA 性能。在文本、公式、表格識(shí)別及信息抽取四大細(xì)分領(lǐng)域的表現(xiàn)優(yōu)于多款 OCR 專(zhuān)項(xiàng)模型,性能接近 Gemini-3-Pro。

除了公開(kāi)榜單,我們還針對(duì)真實(shí)業(yè)務(wù)中的六大核心場(chǎng)景進(jìn)行了內(nèi)部測(cè)評(píng)。結(jié)果顯示,GLM-OCR 在代碼文檔、真實(shí)場(chǎng)景表格、手寫(xiě)體、多語(yǔ)言、印章識(shí)別、票據(jù)提取等維度均取得顯著優(yōu)勢(shì)。

案例實(shí)測(cè)

在實(shí)際應(yīng)用中,GLM-OCR 能夠精準(zhǔn)解析掃描件、PDF、表格及票據(jù),有效解決手寫(xiě)、印章、豎排及多語(yǔ)言混排難題,在復(fù)雜版式下依然保持極高的準(zhǔn)確率和魯棒性。

通用文本識(shí)別:GLM-OCR 支持照片、截圖、掃描件、文檔輸入,能夠識(shí)別手寫(xiě)體、印章、代碼等特殊文字,可廣泛應(yīng)用于教育、科研、辦公等場(chǎng)景。

案例:手寫(xiě)公式識(shí)別

案例:印章識(shí)別

案例:代碼識(shí)別

復(fù)雜表格解析:針對(duì)合并單元格、多層表頭等復(fù)雜結(jié)構(gòu),模型能精準(zhǔn)理解并直接輸出 HTML 代碼。無(wú)需二次制表,識(shí)別結(jié)果即可用于網(wǎng)頁(yè)展示或數(shù)據(jù)處理,大幅提升表格錄入與轉(zhuǎn)換效率。

案例:跨單元格表格

案例:分段表

信息結(jié)構(gòu)化提取:GLM-OCR 可從各類(lèi)卡證、票據(jù)、表格中智能提取關(guān)鍵字段,并輸出標(biāo)準(zhǔn)的 JSON 格式,無(wú)縫對(duì)接銀行、保險(xiǎn)及物流等行業(yè)系統(tǒng)。

輸入圖片:

輸出:

批量處理與 RAG 支持:GLM-OCR 支持大批量文檔的識(shí)別與解析,其高精度的識(shí)別能力和規(guī)整的輸出格式,可為檢索增強(qiáng)生成(RAG)提供堅(jiān)實(shí)基礎(chǔ)。

更快、更便宜

速度方面,我們對(duì)比了在相同硬件環(huán)境與測(cè)試條件下(單副本,單并發(fā)),分別以圖像文件和 PDF 文件為輸入,不同 OCR 方法完成解析并導(dǎo)出 Markdown 文件的速度差異。結(jié)果顯示,GLM-OCR 處理 PDF 文檔的吞吐量達(dá) 1.86 頁(yè) / 秒,圖片達(dá) 0.67 張 / 秒,速度顯著優(yōu)于同類(lèi)模型。

價(jià)格方面,API 輸入輸出同價(jià),僅需 0.2 元 / 百萬(wàn) Tokens。1 元即可處理約 2000 張 A4 大小掃描圖片或 200 份 10 頁(yè)簡(jiǎn)單排版 PDF,成本約為傳統(tǒng) OCR 方案的 1/10。

技術(shù)細(xì)節(jié)

在訓(xùn)練策略方面,GLM-OCR 率先將多 Tokens 預(yù)測(cè)損失(MTP)引入 OCR 模型訓(xùn)練過(guò)程,以增強(qiáng)損失信號(hào)密度并提升模型學(xué)習(xí)效率。并且,通過(guò)持續(xù)且穩(wěn)定的全任務(wù)強(qiáng)化學(xué)習(xí)訓(xùn)練,能夠顯著提升模型在復(fù)雜文檔場(chǎng)景下的整體識(shí)別精度與泛化能力。

上述性能提升還得益于 GLM-OCR 在多模態(tài)模型結(jié)構(gòu)上的系統(tǒng)性設(shè)計(jì)。模型整體采用“編碼器-解碼器”架構(gòu),繼承自 GLM-V 系列,由視覺(jué)編碼器(ViT)、跨模態(tài)連接層和語(yǔ)言解碼器三大核心模塊組成。其中,視覺(jué)側(cè)集成了自研的 CogViT 視覺(jué)編碼器(400M 參數(shù)),并在數(shù)十億級(jí)圖文對(duì)數(shù)據(jù)上引入 CLIP 策略進(jìn)行大規(guī)模預(yù)訓(xùn)練,使模型具備了強(qiáng)大的文字與版面語(yǔ)義理解能力。

為實(shí)現(xiàn)視覺(jué)與語(yǔ)言信息的高效融合,GLM-OCR 設(shè)計(jì)了一套輕量而高效的連接層結(jié)構(gòu),融合 SwiGLU 機(jī)制并引入 4 倍下采樣策略,能夠精準(zhǔn)篩選并保留關(guān)鍵視覺(jué) Token,將高密度語(yǔ)義信息高效傳遞至后端的 GLM-0.5B 解碼器,從而支撐高精度的 OCR 識(shí)別輸出。

在整體系統(tǒng)層面,GLM-OCR 采用“版面分析 → 并行識(shí)別”的兩階段技術(shù)范式。其中,版面分析模塊基于 PP-DocLayout-V3 實(shí)現(xiàn),能夠在版式多樣、結(jié)構(gòu)復(fù)雜的文檔場(chǎng)景下實(shí)現(xiàn)穩(wěn)定、高質(zhì)量且高效率的 OCR 解析效果。

開(kāi)源與在線體驗(yàn)

1.開(kāi)源地址

2.模型 API

3.在線體驗(yàn)

未來(lái),我們將持續(xù)迭代 GLM-OCR,推出更多尺寸版本,并將能力延伸至更多語(yǔ)言和視頻 OCR,全面拓寬視覺(jué)智能的應(yīng)用邊界。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:智譜,OCR

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知