OCR 智能體應(yīng)用背景
企業(yè)在日常運營中面臨合同、票據(jù)、手寫筆記等多種文檔的處理需求,這些文檔常以圖片或掃描件形式存在,文字提取困難,嚴重制約數(shù)字化管理效率。
為解決上述問題,本文介紹一套簡單高效的解決方案:通過 dify 工作流快速搭建 OCR 智能體,進行文字識別。
先來看一下搭建好的工作流使用流程:用戶上傳待識別的圖片或文檔,工作流會調(diào)用本地部署的 OCR 服務(wù)完成識別工作,并將提取的內(nèi)容轉(zhuǎn)換成 Markdown 文檔。
OCR 智能體搭建流程
step1:本地部署 dify
因為我們要通過工作流的方式使用 OCR 服務(wù),因此需要現(xiàn)在本地完成 dify 的部署,部署流程相對簡單,直接參考 dify 官方文檔(https://github.com/langgenius/dify)即可,推薦使用 docker 進行部署。
step2:在 dify 插件市場中,安裝澎峰科技“OCR 識別服務(wù)”插件
本文中介紹的 OCR 工具,我們已發(fā)布到 dify 的插件市場,源代碼可在 github 項目主頁(https://github.com/PerfXLab/dify-plugin-ocr-service)找到,要在 dify 中使用該工具,只需在插件市場中搜索“OCR”并安裝該插件即可:
step3:在 dify 中搭建工作流,并引入 OCR 工具
1.在 dify 中“創(chuàng)建空白應(yīng)用”,選擇“工作流”
2.對工作流進行編排:
開始節(jié)點中加入“file”字段
“OCR 轉(zhuǎn) Markdown 工具”節(jié)點中填入相關(guān)信息
其中,“上傳文件”中填入“開始”節(jié)點輸出的內(nèi)容,OCR 接口地址填入本地搭建的 OCR 服務(wù),OCR 服務(wù)本地搭建將在下一步驟中介紹- “結(jié)束”節(jié)點中填入上一節(jié)點輸出的文件
step4:在本地搭建 OCR 服務(wù)
目前 OCR 任務(wù)主流實現(xiàn)方案有兩種:使用傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)模型或多模態(tài)大模型進行處理,前者識別速度快、消耗資源少,而后者識別精度和魯棒性更好,但對算力要求較高。本文介紹一種基于卷積神經(jīng)網(wǎng)絡(luò)的方案,利用第三方工具快速在本地運行。
搭建流程:
1.安裝第三方OCR服務(wù):pip install marker-pdf[full]
2.安裝API服務(wù):pip install -U uvicorn fastapi python-multipart
3.啟動OCR服務(wù):marker_server --host 0.0.0.0 --port 8001
完成上述操作后,即可使用 dify 工作流進行 OCR 識別服務(wù)。
私有化部署方案:澎峰科技大模型一體機
前述方案采用的輕量化模型,優(yōu)勢在于資源消耗低,在 CPU 環(huán)境下即可流暢運行。然而,對于金融、法律等領(lǐng)域中,部分文檔的識別精準度和版面還原度有更高要求的場景,采用多模態(tài)大模型進行處理會是更優(yōu)選擇。多模態(tài)大模型雖然能帶來更高的識別精度與魯棒性,但其對算力資源的要求也相應(yīng)更高。
為滿足企業(yè)對高性能、數(shù)據(jù)私有化的需求,澎峰科技推出DeepFusion 系列 AI 一體機,為企業(yè)智能化轉(zhuǎn)型提供一站式本地化部署解決方案。
該方案深度融合了業(yè)界領(lǐng)先的 DeepSeek、Qwen 等系列大模型,確保企業(yè)數(shù)據(jù)在本地處理,安全無虞,完美適配復(fù)雜的辦公自動化、數(shù)據(jù)分析與智能客服等場景。
旗艦性能,應(yīng)對復(fù)雜需求:目前已發(fā)布的 DeepFusion DF110、DF210 一體機,支持部署 DeepSeek 滿血版、Qwen3-235B 等尖端大模型,推理性能強勁,能夠從容應(yīng)對最復(fù)雜的辦公需求。
高性價比,賦能中小企業(yè):我們深知,高效的AI應(yīng)用同樣可以在中小規(guī)模模型上實現(xiàn)。為此,澎峰科技推出了 DeepFusion DF50 一體機。該機型針對 30B 及以下規(guī)模的高效模型進行了深度推理優(yōu)化,實現(xiàn)了卓越性能與高性價比的平衡,旨在助力更多中小企業(yè)輕松實現(xiàn) AI 轉(zhuǎn)型。
-
智能體
+關(guān)注
關(guān)注
1文章
307瀏覽量
11081 -
OCR
+關(guān)注
關(guān)注
0文章
161瀏覽量
16802 -
澎峰科技
+關(guān)注
關(guān)注
0文章
71瀏覽量
3391
原文標題:使用澎峰科技OCR識別服務(wù)插件,在dify中搭建OCR智能體
文章出處:【微信號:perfxlab,微信公眾號:perfxlab】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
中軟國際入選中國信通院AI Agent智能體產(chǎn)業(yè)圖譜1.0
深演智能正式發(fā)布 DeepAgent Neo 智能體平臺,全力助力企業(yè)決策 AI 落地應(yīng)用

端側(cè)OCR文字識別實現(xiàn) -- Core Vision Kit ##HarmonyOS SDK AI##
告別“人工智障”:工業(yè)AI智能體的進化三定律

Dify攜手亞馬遜云科技加速全球企業(yè)生成式AI應(yīng)用規(guī)?;涞?/a>
OCR識別訓(xùn)練完成后給的是空壓縮包,為什么?

孚為智能采用多角度高清攝像與智能OCR技術(shù),實現(xiàn)集裝箱號碼全自動識別。#集裝箱號ocr識別
手把手教你Coze智能體搭建,讓智能設(shè)備秒變天氣預(yù)報小助手

阿普奇視覺控制器AK7在OCR識別場景中的應(yīng)用

請問如何在量產(chǎn)中對智能DAC或AFE的NVM進行編程?
如何搭建智能制造工廠
明治案例 | PE編織袋【大視野】【OCR識別】

評論