IT之家 10 月 20 日消息,今天上午,DeepSeek-AI 團(tuán)隊發(fā)布《DeepSeek-OCR:Contexts Optical Compression》論文,提出利用視覺模態(tài)壓縮長文本上下文的新方法。Hugging Face 頁面顯示,該模型的參數(shù)量為 3B。

根據(jù)介紹,此次開源的 DeepSeek-OCR 由兩個部分組成:核心編碼器 DeepEncoder 和解碼器 DeepSeek3B-MoE-A570M。DeepEncoder 專為在高分辨率輸入下保持低計算激活而設(shè)計,同時實現(xiàn)高壓縮比,以控制視覺 token 數(shù)量在可管理的范圍內(nèi)。實驗顯示,當(dāng)文本 token 數(shù)量不超過視覺 token 的 10 倍(壓縮比低于 10×)時,模型的 OCR 精度可達(dá) 97%;即便壓縮比提高到 20×,準(zhǔn)確率仍保持約 60%,展現(xiàn)出在歷史文檔長上下文壓縮和大語言模型記憶機(jī)制研究中的巨大潛力。DeepSeek-OCR 同時具備較高的實際應(yīng)用價值。
在 OmniDocBench 測試中,DeepSeek-OCR 使用 100 個視覺 token 就超過了 GOT-OCR2.0(每頁 256 個 token),而使用不到 800 個視覺 token 便優(yōu)于 MinerU2.0(平均每頁超過 6000 個 token)。
在實際生產(chǎn)中,DeepSeek-OCR 可在單塊 A100-40G 顯卡上每天生成超過 20 萬頁的大語言模型 / 視覺語言模型訓(xùn)練數(shù)據(jù)。


IT之家附有關(guān)頁面如下:
Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-OCR
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。