一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

您好,歡迎來(lái)電子發(fā)燒友網(wǎng)! ,新用戶?[免費(fèi)注冊(cè)]

您的位置:電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

pytesseract簡(jiǎn)要解析

大?。?/span>0.5 MB 人氣: 2017-10-11 需要積分:1
 概要
  Python語(yǔ)言中,pytesseract是用于驗(yàn)證碼、字符識(shí)別的常用model。研究OCR期間,接觸到這個(gè)模塊。深究其源碼,才明白,這個(gè)庫(kù)是如此簡(jiǎn)單。
  安裝:
  首先安裝依賴:PIL、Image、tesseract-ocr,然后:
  pip install pytesseract
  pytesseract在官網(wǎng)上說(shuō)了自己是個(gè)wrapper,真正干活的是tesseract-ocr,即tesseract光學(xué)字符識(shí)別引擎。所以,這個(gè)模塊就是個(gè)接口
  Tesserarct識(shí)別引擎
  esseract-ocr是Google在維護(hù)的一個(gè)開(kāi)源項(xiàng)目,本體是HP實(shí)驗(yàn)室在1993年完成的,功能強(qiáng)大。(關(guān)于更多,見(jiàn)結(jié)尾提示。)
  在Tesseract的世界里,有且只有一條命令,展示了其強(qiáng)大功能:
  Usage:
  tesseract imagename|stdin outputbase|stdout [options…] [configfile…]
  舉例來(lái)說(shuō),對(duì)一張需要識(shí)別的chinese.png圖片:
  pytesseract簡(jiǎn)要解析
  在cmd/terminal輸入:tesseract chinese.png output -l chi_sim (*式)
  就可以得到如下output.txt文本:
  pytesseract簡(jiǎn)要解析
  如此簡(jiǎn)單純粹,缺點(diǎn)就是單線程。
  pytesseract模塊
  這是一個(gè)Wrapper:
  Python-tesseract is a python wrapper for google’s Tesseract-OCR
  所以,其底層就是Tesseract識(shí)別引擎,只是用Python語(yǔ)言來(lái)封裝罷了。那么,封裝的過(guò)程是怎樣的呢?
  pytesseract簡(jiǎn)要解析
  我知道這5步中的關(guān)鍵方法(functions)在各位讀者眼里并不是那么通俗易懂。BUT!認(rèn)真的讀者只要去看pytesseract模塊的源碼(only 202 lines)就能知道這些函數(shù)。
  Anyway,請(qǐng)看第3步,在run_tesseract()函數(shù)“拼接好tesseract本地調(diào)用命令”。什么是本地調(diào)用命令?
  還記得上面的(*式)嘛?
  tesseract chinese.png output -l chi_sim
  再看第4步,“執(zhí)行調(diào)用命令”,就是把(*式)放在cmd/terminal里。
  就這樣,對(duì)于上述chinese.png,也可以得到output.txt文件了。
  至此,就是為什么我說(shuō)“pytesseract是這么簡(jiǎn)單的model”……
  結(jié)語(yǔ)
  我笑了…是的,只是開(kāi)心而已!第一次解析Python的Model,以前pip install model’name 的時(shí)候,內(nèi)心覺(jué)得官方源碼一定很難,現(xiàn)在看倒未必!
  此后,希望大家多多閱讀源碼,沒(méi)有那么難的。
?

非常好我支持^.^

(0) 0%

不好我反對(duì)

(0) 0%

      發(fā)表評(píng)論

      用戶評(píng)論
      評(píng)價(jià):好評(píng)中評(píng)差評(píng)

      發(fā)表評(píng)論,獲取積分! 請(qǐng)遵守相關(guān)規(guī)定!

      ?