DeepSeek 團(tuán)隊開源新模型 DeepSeek-OCR：少量視覺 token 完成海量文本壓縮

2025/10/20 15:56:15 來源：IT之家作者：清源責(zé)編：清源

評論：

感謝IT之家網(wǎng)友軟媒用戶1392612 的線索投遞！

IT之家 10 月 20 日消息，今天上午，DeepSeek-AI 團(tuán)隊發(fā)布《DeepSeek-OCR：Contexts Optical Compression》論文，提出利用視覺模態(tài)壓縮長文本上下文的新方法。Hugging Face 頁面顯示，該模型的參數(shù)量為 3B。

根據(jù)介紹，此次開源的 DeepSeek-OCR 由兩個部分組成：核心編碼器 DeepEncoder 和解碼器 DeepSeek3B-MoE-A570M。DeepEncoder 專為在高分辨率輸入下保持低計算激活而設(shè)計，同時實現(xiàn)高壓縮比，以控制視覺 token 數(shù)量在可管理的范圍內(nèi)。實驗顯示，當(dāng)文本 token 數(shù)量不超過視覺 token 的 10 倍（壓縮比低于 10×）時，模型的 OCR 精度可達(dá) 97%；即便壓縮比提高到 20×，準(zhǔn)確率仍保持約 60%，展現(xiàn)出在歷史文檔長上下文壓縮和大語言模型記憶機(jī)制研究中的巨大潛力。DeepSeek-OCR 同時具備較高的實際應(yīng)用價值。

在 OmniDocBench 測試中，DeepSeek-OCR 使用 100 個視覺 token 就超過了 GOT-OCR2.0（每頁 256 個 token），而使用不到 800 個視覺 token 便優(yōu)于 MinerU2.0（平均每頁超過 6000 個 token）。

在實際生產(chǎn)中，DeepSeek-OCR 可在單塊 A100-40G 顯卡上每天生成超過 20 萬頁的大語言模型 / 視覺語言模型訓(xùn)練數(shù)據(jù)。

DeepSeek 團(tuán)隊開源新模型 DeepSeek-OCR：少量視覺 token 完成海量文本壓縮

IT之家附有關(guān)頁面如下：

GitHub：https://github.com/deepseek-ai/DeepSeek-OCR
Hugging Face：https://huggingface.co/deepseek-ai/DeepSeek-OCR

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

DeepSeek 團(tuán)隊開源新模型 DeepSeek-OCR：少量視覺 token 完成海量文本壓縮

相關(guān)文章