一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

北大開(kāi)源了一個(gè)中文分詞工具包,名為——PKUSeg

電子工程師 ? 來(lái)源:lq ? 2019-01-16 10:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

分詞技術(shù)是一種比較基礎(chǔ)的模塊,就英文而言,詞與詞之間通常由空格分開(kāi),因此英文分詞則要簡(jiǎn)單的多,但中文和英文的詞是有區(qū)別的,再加上中國(guó)文化的博大精深,分詞的時(shí)候要考慮的情況比英文分詞要復(fù)雜的多,如果處理不好就會(huì)直接影響到后續(xù)詞性標(biāo)注、句法分析等的準(zhǔn)確性,

目前,我們最常用的分詞工具大概有四種哈工大LTP、中科院計(jì)算所NLPIR、清華大學(xué)THULAC和jieba。

不過(guò)最近,北大開(kāi)源了一個(gè)中文分詞工具包,名為 ——PKUSeg,基于Python。據(jù)介紹其準(zhǔn)確率秒殺THULAC和結(jié)巴分詞等工具。

一經(jīng)開(kāi)源,pkuseg已經(jīng)在GitHub上獲得1738個(gè)Star,244個(gè)Fork(GitHub地址:https://github.com/lancopku/PKUSeg-python)

pkuseg具有如下幾個(gè)特點(diǎn):

多領(lǐng)域分詞:不同于以往的通用中文分詞工具,此工具包同時(shí)致力于為不同領(lǐng)域的數(shù)據(jù)提供個(gè)性化的預(yù)訓(xùn)練模型。根據(jù)待分詞文本的領(lǐng)域特點(diǎn),用戶可以自由地選擇不同的模型。 我們目前支持了新聞?lì)I(lǐng)域,網(wǎng)絡(luò)文本領(lǐng)域和混合領(lǐng)域的分詞預(yù)訓(xùn)練模型,同時(shí)也擬在近期推出更多的細(xì)領(lǐng)域預(yù)訓(xùn)練模型,比如醫(yī)藥、旅游、專利、小說(shuō)等等。

更高的分詞準(zhǔn)確率:相比于其他的分詞工具包,當(dāng)使用相同的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),pkuseg可以取得更高的分詞準(zhǔn)確率。

支持用戶自訓(xùn)練模型:支持用戶使用全新的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練。

各類分詞工具包的性能對(duì)比

前面有提到說(shuō)pkuseg的準(zhǔn)確率遠(yuǎn)超其他分詞工具包,現(xiàn)在就是用數(shù)據(jù)說(shuō)話的時(shí)候了,下面就是在 Linux 環(huán)境下,各工具在新聞數(shù)據(jù) (MSRA) 和混合型文本 (CTB8) 數(shù)據(jù)上的準(zhǔn)確率測(cè)試情況

測(cè)試使用的是第二屆國(guó)際漢語(yǔ)分詞評(píng)測(cè)比賽提供的分詞評(píng)價(jià)腳本,從上圖看出結(jié)巴分詞準(zhǔn)確率最低,

跨領(lǐng)域測(cè)試結(jié)果

以下是在其它領(lǐng)域進(jìn)行測(cè)試,以模擬模型在“黑盒數(shù)據(jù)”上的分詞效果。

默認(rèn)模型在不同領(lǐng)域的測(cè)試效果

以下是各個(gè)工具包的默認(rèn)模型在不同領(lǐng)域的測(cè)試效果

使用方式

代碼示例1:使用默認(rèn)模型及默認(rèn)詞典分詞

importpkusegseg=pkuseg.pkuseg()#以默認(rèn)配置加載模型text=seg.cut('我愛(ài)北京***')#進(jìn)行分詞print(text)

代碼示例2:設(shè)置用戶自定義詞典

importpkuseglexicon=['北京大學(xué)','北京***']#希望分詞時(shí)用戶詞典中的詞固定不分開(kāi)seg=pkuseg.pkuseg(user_dict=lexicon)#加載模型,給定用戶詞典text=seg.cut('我愛(ài)北京***')#進(jìn)行分詞print(text)

代碼示例3:使用其它模型

importpkusegseg=pkuseg.pkuseg(model_name='./ctb8')#假設(shè)用戶已經(jīng)下載好了ctb8的模型#并放在了'./ctb8'目錄下,通過(guò)設(shè)置model_name加載該模型text=seg.cut('我愛(ài)北京***')#進(jìn)行分詞print(text)

代碼示例4:對(duì)文件分詞

importpkusegpkuseg.test('input.txt','output.txt',nthread=20)#對(duì)input.txt的文件分詞輸出到output.txt中,#使用默認(rèn)模型和詞典,開(kāi)20個(gè)進(jìn)程

代碼示例5:訓(xùn)練新模型

importpkuseg#訓(xùn)練文件為'msr_training.utf8'#測(cè)試文件為'msr_test_gold.utf8'#模型存到'./models'目錄下,開(kāi)20個(gè)進(jìn)程訓(xùn)練模型pkuseg.train('msr_training.utf8','msr_test_gold.utf8','./models',nthread=20)

此外,pkuseg提供了三種在不同類型數(shù)據(jù)上訓(xùn)練得到的模型,根據(jù)具體需要,用戶可以選擇不同的預(yù)訓(xùn)練模型:

MSRA:在MSRA(新聞?wù)Z料)上訓(xùn)練的模型。

下載地址:https://pan.baidu.com/s/1twci0QVBeWXUg06dK47tiA

CTB8:在CTB8(新聞文本及網(wǎng)絡(luò)文本的混合型語(yǔ)料)上訓(xùn)練的模型。隨pip包附帶的是此模型。

下載地址:https://pan.baidu.com/s/1DCjDOxB0HD2NmP9w1jm8MA

WEIBO:在微博(網(wǎng)絡(luò)文本語(yǔ)料)上訓(xùn)練的模型。

下載地址:https://pan.baidu.com/s/1QHoK2ahpZnNmX6X7Y9iCgQ

最后附上前面提到的另外四大分詞工具的GitHub地址:

1、LTP:https://github.com/HIT-SCIR/ltp

2、NLPIR:https://github.com/NLPIR-team/NLPIR

3、THULAC:https://github.com/thunlp/THULAC

4、jieba:https://github.com/yanyiwu/cppjieba

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Linux
    +關(guān)注

    關(guān)注

    87

    文章

    11511

    瀏覽量

    213838
  • 開(kāi)源
    +關(guān)注

    關(guān)注

    3

    文章

    3690

    瀏覽量

    43837
  • python
    +關(guān)注

    關(guān)注

    56

    文章

    4827

    瀏覽量

    86768

原文標(biāo)題:準(zhǔn)確率秒殺結(jié)巴分詞,北大開(kāi)源全新中文分詞工具包PKUSeg

文章出處:【微信號(hào):TheBigData1024,微信公眾號(hào):人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    IQM 宣布 Resonance 量子云平臺(tái)重大升級(jí),推出全新軟件開(kāi)發(fā)工具包

    進(jìn)程,并為終端用戶帶來(lái)性能強(qiáng)大的新代量子系統(tǒng)。 此次升級(jí)將 Qrisp——個(gè)源自德國(guó)弗勞恩霍夫 FOKUS 研究所的項(xiàng)目——設(shè)為平臺(tái)新的默認(rèn)軟件開(kāi)發(fā)工具包 (SDK)。Qrisp
    的頭像 發(fā)表于 07-11 11:03 ?118次閱讀

    開(kāi)源項(xiàng)目!教你如何制作個(gè)開(kāi)源教育機(jī)械臂

    前言 我們的計(jì)劃始于2016年,當(dāng)時(shí)有個(gè)簡(jiǎn)單的問(wèn)題:我們?nèi)绾巫寵C(jī)器人和編程對(duì)每個(gè)人都可用? 是學(xué)習(xí)電子和編程的最佳工具,但使用帶有有線組件的試驗(yàn)板對(duì)初學(xué)者來(lái)說(shuō)可能具有挑戰(zhàn)性。為了
    發(fā)表于 03-10 11:22

    在Google Colab筆記本電腦上導(dǎo)入OpenVINO?工具包2021中的 IEPlugin類出現(xiàn)報(bào)錯(cuò),怎么解決?

    在 Google* Colab Notebook 上OpenVINO?工具包 2021 中使用了 IEPlugin 。 遇到: ImportError: cannot import name \'IEPlugin\' from \'openvino.inference_engine\'
    發(fā)表于 03-05 10:31

    構(gòu)建開(kāi)源OpenVINO?工具包后,使用MYRIAD插件成功運(yùn)行演示時(shí)報(bào)錯(cuò)怎么解決?

    構(gòu)建開(kāi)源OpenVINO?工具包后,使用 MYRIAD 插件成功運(yùn)行演示。 使用 CPU 插件運(yùn)行演示時(shí)遇到錯(cuò)誤: Cannot load library \'libarmPlugin.so
    發(fā)表于 03-05 09:57

    安裝OpenVINO?工具包穩(wěn)定擴(kuò)散后報(bào)錯(cuò),怎么解決?

    已安裝OpenVINO?工具包穩(wěn)定擴(kuò)散并收到錯(cuò)誤消息: \"BackendCompilerFailed: openvino_fx raised RuntimeError
    發(fā)表于 03-05 06:56

    云計(jì)算開(kāi)發(fā)工具包的功能

    隨著云計(jì)算技術(shù)的不斷成熟,越來(lái)越多的企業(yè)開(kāi)始將應(yīng)用和服務(wù)遷移到云端,以享受彈性計(jì)算資源、高可用性和成本效益等優(yōu)勢(shì)。為了加速這進(jìn)程,云計(jì)算服務(wù)提供商推出了各種開(kāi)發(fā)工具包。下面,AI部落小編帶您了解云計(jì)算開(kāi)發(fā)工具包的主要功能。
    的頭像 發(fā)表于 02-21 11:02 ?303次閱讀

    TDC1000-TDC7200 GUI調(diào)試工具求助

    本帖最后由 匿名 于 2025-2-18 21:15 編輯 最近準(zhǔn)備玩TDC1000的開(kāi)發(fā)板,官網(wǎng)配套的GUI開(kāi)發(fā)工具包已不能下載,跪求個(gè)壓縮
    發(fā)表于 02-17 23:24

    RT-Thread榮登2024開(kāi)源創(chuàng)新榜單,躋身中國(guó)十大開(kāi)源社區(qū)

    開(kāi)源領(lǐng)域的卓越貢獻(xiàn),榮登2024年開(kāi)源創(chuàng)新榜單——2024年度開(kāi)源社區(qū),成為中國(guó)十大開(kāi)源社區(qū)之。2024年度
    的頭像 發(fā)表于 01-08 19:06 ?787次閱讀
    RT-Thread榮登2024<b class='flag-5'>開(kāi)源</b>創(chuàng)新榜單,躋身中國(guó)十<b class='flag-5'>大開(kāi)源</b>社區(qū)

    Labview聲音和振動(dòng)工具包示例文件Sound Level

    Labview 聲音和振動(dòng)工具包示例文件,聲壓測(cè)試,有模擬和DAQ兩個(gè)文件。
    發(fā)表于 01-05 09:15 ?3次下載

    TSP工具包軟件的應(yīng)用說(shuō)明

    個(gè)需要快速開(kāi)發(fā)測(cè)試的行業(yè)中,有效的自動(dòng)化和便捷代碼的開(kāi)發(fā)需求比以往任何時(shí)候都顯得更加突出。企業(yè)在努力提高產(chǎn)品質(zhì)量的同時(shí),更需要尋求更短的上市時(shí)間,合適的工具正是實(shí)現(xiàn)這目標(biāo)的關(guān)鍵
    的頭像 發(fā)表于 01-03 15:53 ?2612次閱讀
    TSP<b class='flag-5'>工具包</b>軟件的應(yīng)用說(shuō)明

    最新Simplicity SDK軟件開(kāi)發(fā)工具包發(fā)布

    最新的SimplicitySDK軟件開(kāi)發(fā)工具包已經(jīng)發(fā)布!此次更新針對(duì)SiliconLabs(芯科科技)第二代無(wú)線開(kāi)發(fā)平臺(tái)帶來(lái)了包括藍(lán)牙6.0的信道探測(cè)(Channel Sounding
    的頭像 發(fā)表于 12-24 09:47 ?889次閱讀

    基于EasyGo Vs工具包和Nl veristand軟件進(jìn)行的永磁同步電機(jī)實(shí)時(shí)仿真

    EasyGo Vs Addon是款領(lǐng)先的FPGA仿真工具包軟件,它強(qiáng)大地連接了VeriStand軟件與Matlab/Simulink,為實(shí)時(shí)測(cè)試和驗(yàn)證領(lǐng)域帶來(lái)了前所未有的便利和效率,特別適用于汽車
    的頭像 發(fā)表于 11-27 11:28 ?1052次閱讀
    基于EasyGo Vs<b class='flag-5'>工具包</b>和Nl veristand軟件進(jìn)行的永磁同步電機(jī)實(shí)時(shí)仿真

    FPGA仿真工具包軟件EasyGo Vs Addon介紹

    EasyGo Vs Addon是款領(lǐng)先的FPGA仿真工具包軟件,它強(qiáng)大地連接了VeriStand軟件與Matlab/Simulink,為實(shí)時(shí)測(cè)試和驗(yàn)證領(lǐng)域帶來(lái)了前所未有的便利和效率,特別適用于汽車、航空航天和能源電力等實(shí)時(shí)測(cè)試和驗(yàn)證至關(guān)重要的行業(yè)。
    的頭像 發(fā)表于 10-24 15:55 ?1144次閱讀
    FPGA仿真<b class='flag-5'>工具包</b>軟件EasyGo Vs Addon介紹

    采用德州儀器 (TI) 工具包進(jìn)行模擬前端設(shè)計(jì)應(yīng)用說(shuō)明

    電子發(fā)燒友網(wǎng)站提供《采用德州儀器 (TI) 工具包進(jìn)行模擬前端設(shè)計(jì)應(yīng)用說(shuō)明.pdf》資料免費(fèi)下載
    發(fā)表于 09-09 11:21 ?0次下載
    采用德州儀器 (TI) <b class='flag-5'>工具包</b>進(jìn)行模擬前端設(shè)計(jì)應(yīng)用說(shuō)明

    蘋果推出全新開(kāi)源Swift軟件

    七月三十一日,蘋果企業(yè)總部對(duì)外正式發(fā)表公告,宣布昨日(即七月二十九日)成功推出全新的開(kāi)源 Swift 軟件—— (喚名為 swift-homomorphic-encryption)。此舉旨在為 Swift 編程語(yǔ)言帶來(lái)應(yīng)用便利
    的頭像 發(fā)表于 07-31 15:17 ?834次閱讀