掃一掃就能識(shí)別文字,這是近年來(lái)出現(xiàn)在很多應(yīng)用中的新功能。比如,輸入銀行卡號(hào)時(shí),直接用手機(jī)攝像頭掃一掃,軟件就能提取銀行卡信息。這里用到的技術(shù)正是光學(xué)字符識(shí)別技術(shù)(Optical Character Recognition)。 OCR 是光學(xué)字符識(shí)別(Optical Character Recognition)的縮寫(xiě),指利用機(jī)器將圖像中手寫(xiě)體或印刷體的文本轉(zhuǎn)換為計(jì)算機(jī)可以直接處理的格式。作為計(jì)算機(jī)視覺(jué)領(lǐng)域的重要分支,OCR 典型應(yīng)用是通過(guò)圖像文字識(shí)別實(shí)現(xiàn)信息錄入。同時(shí),由于文字和符號(hào)包含豐富的語(yǔ)義信息,基于 OCR 提取文字信息繼而進(jìn)行分析,能夠幫助機(jī)器更好地理解圖像。
9 月 28 日,在工業(yè)和信息化部、北京市人民政府、國(guó)際電信聯(lián)盟 ITU-T 指導(dǎo)的 2020 AIIA 人工智能開(kāi)發(fā)者大會(huì)上,主辦方正式發(fā)布國(guó)內(nèi)首份智能文字識(shí)別(OCR)能力測(cè)評(píng)與應(yīng)用白皮書(shū)。 白皮書(shū)從 OCR 發(fā)展背景、技術(shù)沿革、產(chǎn)業(yè)發(fā)展現(xiàn)狀、技術(shù)標(biāo)準(zhǔn)化、發(fā)展趨勢(shì)等多個(gè)維度,對(duì)當(dāng)前國(guó)內(nèi) OCR 產(chǎn)業(yè)進(jìn)行了一次詳細(xì)梳理,全面助推 OCR 技術(shù)產(chǎn)業(yè)化加速落地及可持續(xù)發(fā)展。
據(jù)了解,白皮書(shū)由中國(guó)信息通信研究院、中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟、騰訊公司相關(guān)部門(mén)聯(lián)合起草。
新基建帶來(lái)新機(jī)遇,OCR技術(shù)發(fā)展三大趨勢(shì)
借助人工智能技術(shù),近年來(lái) OCR 性能的不斷提升為產(chǎn)業(yè)數(shù)字化催生出的更復(fù)雜的 OCR 應(yīng)用場(chǎng)景提供了堅(jiān)實(shí)支撐。同時(shí),覆蓋手機(jī)、電子產(chǎn)品以及云服務(wù)在內(nèi)的更加多樣化的服務(wù)載體,進(jìn)一步加快了 OCR 的普及,持續(xù)向社會(huì)生產(chǎn)生活的更多領(lǐng)域滲透。 尤其是 2020 年 4 月,發(fā)改委明確將人工智能基礎(chǔ)設(shè)施列入 “新基建” 范圍,作為人工智能應(yīng)用中最接 “地氣”,商業(yè)推廣較為成熟的領(lǐng)域,OCR 產(chǎn)業(yè)在“新基建” 背景下無(wú)疑將迎來(lái)新的發(fā)展機(jī)遇,相關(guān)技術(shù)也將迎來(lái)新一輪的變革。 報(bào)告指出,OCR 技術(shù)未來(lái)發(fā)展的三大方向主要包括一體化的端到端 OCR 模型、兼具高性能高效率的 OCR、從感知到認(rèn)知的智能 OCR。 詳細(xì)來(lái)說(shuō),構(gòu)建一體化的端到端網(wǎng)絡(luò),同時(shí)對(duì)文字檢測(cè)和識(shí)別進(jìn)行訓(xùn)練,將成為 OCR 技術(shù)發(fā)展的重要趨勢(shì)之一。端到端的網(wǎng)絡(luò)設(shè)計(jì)不僅能夠減少重復(fù)計(jì)算,又能夠提高特征的質(zhì)量,促進(jìn)任務(wù)性能的改善。 同時(shí),大量的 OCR 應(yīng)用需要在資源受限的移動(dòng)端設(shè)備上運(yùn)行,當(dāng)前移動(dòng)端 OCR 算法大多以犧牲一定的算法精度來(lái)?yè)Q取運(yùn)行速度,針對(duì)移動(dòng)設(shè)備設(shè)計(jì)兼顧性能和效率的輕量 OCR 模型將是未來(lái)發(fā)展的重要方向。 另外,從感知到認(rèn)知的智能 OCR 來(lái)說(shuō),OCR 技術(shù)通常從計(jì)算機(jī)視覺(jué)領(lǐng)域出發(fā),未來(lái)與自然語(yǔ)言處理技術(shù)、知識(shí)圖譜等更廣領(lǐng)域的交叉融合,通過(guò)語(yǔ)義及知識(shí)的深度挖掘提升 OCR 性能是重要趨勢(shì)。
此外,在 OCR 中引入強(qiáng)化學(xué)習(xí)和元學(xué)習(xí)等新的學(xué)習(xí)范式,讓機(jī)器自主學(xué)習(xí)如何識(shí)別文字,也將成為研究熱點(diǎn)。 市場(chǎng)規(guī)模達(dá) 133.81 億美元,OCR 成科技巨頭標(biāo)配 目前,OCR 技術(shù)已在金融、保險(xiǎn)、醫(yī)療、交通、教育等諸多行業(yè)有了深入成熟的應(yīng)用。未來(lái)隨著傳統(tǒng)行業(yè)的數(shù)字化轉(zhuǎn)型,OCR 應(yīng)用范圍和場(chǎng)景將進(jìn)一步擴(kuò)展,市場(chǎng)規(guī)模將進(jìn)一步增大。有權(quán)威機(jī)構(gòu)預(yù)測(cè),2025 年全球 OCR 市場(chǎng)規(guī)模將達(dá)到 133.81 億美元。 早期受限于技術(shù)發(fā)展水平,OCR 廠商通常從特定應(yīng)用切入,例如車牌識(shí)別系統(tǒng)等,形成了一系列專用設(shè)備。近年來(lái),越來(lái)越多的終端設(shè)備及應(yīng)用均嵌入了 OCR 技術(shù),并逐漸形成了從基礎(chǔ)設(shè)施、基礎(chǔ)能力到終端應(yīng)用的完整產(chǎn)業(yè)鏈生態(tài),也衍生出了卡證、票據(jù)等一系列細(xì)分 OCR 能力,通過(guò)組合的方式服務(wù)于各個(gè)行業(yè)。
圖 | OCR 產(chǎn)業(yè)生態(tài)圖 不難看出,OCR 技術(shù)逐漸 “下沉” 為一項(xiàng)基本的能力,為上層不同的業(yè)務(wù)應(yīng)用提供底層技術(shù)支撐??萍季揞^和云計(jì)算廠商正在紛紛加速布局 OCR,在滿足自身內(nèi)部業(yè)務(wù)需求的同時(shí),不斷對(duì)外開(kāi)放先進(jìn)的 OCR 能力,OCR 已然成為科技巨頭能力標(biāo)配。 多行業(yè)場(chǎng)景成熟落地,首次發(fā)布OCR評(píng)測(cè)標(biāo)準(zhǔn) 在具體的落地應(yīng)用層面,目前卡證識(shí)別、票據(jù)識(shí)別等標(biāo)準(zhǔn)場(chǎng)景文字識(shí)別已經(jīng)相對(duì)成熟,手寫(xiě)文字識(shí)別在教育、物流等行業(yè)的應(yīng)用也在不斷擴(kuò)大。復(fù)雜動(dòng)態(tài)場(chǎng)景下的 OCR 技術(shù)和應(yīng)用成為近兩年的熱門(mén)研究方向,比如在無(wú)人駕駛、機(jī)器人等場(chǎng)景利用 OCR 對(duì)視場(chǎng)中出現(xiàn)的文字進(jìn)行識(shí)別等。在此次發(fā)布的白皮書(shū)中,騰訊云也公布了其多項(xiàng)OCR領(lǐng)域的典型落地案例。
值得一提的是,為全面降低 OCR 相關(guān)領(lǐng)域的應(yīng)用門(mén)檻,避免出現(xiàn)魚(yú)龍混雜局面,白皮書(shū)也首次公布 OCR 評(píng)測(cè)標(biāo)準(zhǔn)和規(guī)范。 2020 年 4 月,中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟制定了《OCR 服務(wù)智能化分級(jí)技術(shù)要求和評(píng)估方法》,規(guī)定了 OCR 服務(wù)在功能、性能、安全等方面的技術(shù)要求以及評(píng)估方法。7 月,OCR 服務(wù)要求及評(píng)估方法在國(guó)際電信聯(lián)盟 ITU-T SG16 組成功立項(xiàng),標(biāo)志著深度學(xué)習(xí)背景下的 OCR 評(píng)測(cè)方法已經(jīng)逐漸被國(guó)際標(biāo)準(zhǔn)組織所接受。 目前,由中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟指導(dǎo),騰訊云開(kāi)發(fā)的天鑒 OCR 服務(wù)引擎自動(dòng)化評(píng)測(cè)平臺(tái),不僅能夠?yàn)?OCR 技術(shù)供給方提供技術(shù)測(cè)試服務(wù),也將發(fā)布 OCR 技術(shù)或產(chǎn)品的測(cè)試結(jié)果,為需求方提供客觀公正的選型依據(jù)。
責(zé)任編輯人:CC
-
OCR
+關(guān)注
關(guān)注
0文章
161瀏覽量
16798
原文標(biāo)題:中國(guó)首份OCR白皮書(shū)出爐,基于深度學(xué)習(xí)的OCR已成主流
文章出處:【微信號(hào):deeptechchina,微信公眾號(hào):deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
無(wú)刷雙饋電機(jī)專利技術(shù)發(fā)展
輪邊驅(qū)動(dòng)電機(jī)專利技術(shù)發(fā)展
Gartner發(fā)布云技術(shù)發(fā)展的六大趨勢(shì)

評(píng)論