一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Byte Cup 2018國際機器學(xué)習(xí)競賽奪冠記

IEEE電氣電子工程師 ? 來源:lq ? 2019-02-14 09:44 ? 次閱讀

9月份,我們兩位同學(xué)一起組隊,參加Byte Cup 2018國際機器學(xué)習(xí)競賽。本次比賽由中國人工智能學(xué)會和字節(jié)跳動主辦,IEEE中國代表處聯(lián)合組織。比賽的任務(wù)是文章標題自動生成。最終,我們隊伍獲得了第一名。

1.比賽介紹

本次比賽的任務(wù)是給定文章文本內(nèi)容,自動生成標題。本質(zhì)上和文本摘要任務(wù)比較類似。本次比賽有100多萬篇文章的訓(xùn)練數(shù)據(jù)。

1.1數(shù)據(jù)介紹

詳細參見:https://biendata.com/competition/bytecup2018/data/。

本次競賽使用的訓(xùn)練集包括了約130萬篇文本的信息,驗證集1000篇文章,

測試集800篇文章。

1.2數(shù)據(jù)處理

文章去重,訓(xùn)練數(shù)據(jù)中包含一些重復(fù)數(shù)據(jù),清洗,去重;

清洗非英文文章。

1.3評價指標

本次比賽將使用Rouge(Recall-Oriented Understudy for Gisting Evaluation)作為模型評估度量。Rough是評估自動文摘以及機器翻譯的常見指標。它通過將自動生成的文本與人工生成的文本(即參考文本)進行比較,根據(jù)相似度得出分值。

2.模型介紹

本次比賽主要嘗試了seq2seq的方法。參考的模型包括Transformer模型和pointer-generator模型。

模型如下圖:

(其實就是將pointer-generator的copy機制加到transformer模型上)。

同時,嘗試了將ner-tagger和pos-tagger信息加入到模型中,如下圖所示:

3.問題分析

最開始我們嘗試了最基本的transformer模型,通過查看數(shù)據(jù),遇到以下幾類明顯錯誤:

OOV(out of vocabulary);

數(shù)字,人名,地名預(yù)測錯誤;

詞形預(yù)測錯誤。

OOV問題,主要原因是數(shù)據(jù)集詞表太大,但是,模型能夠?qū)嶋H使用的詞表較小;數(shù)字,人名,地名預(yù)測錯誤,主要原因是低頻詞embedding學(xué)習(xí)不充分;詞形預(yù)測錯誤,主要原因是模型中沒有考慮詞的形態(tài)問題(當然,如果訓(xùn)練數(shù)據(jù)足夠大,是能避免這個問題的)。

為了解決這些問題,我們嘗試了以下方法。

4.重要組件

4.1copy機制

對于很多低頻詞,通過生成式方法生成,其實是很不靠譜的。為此,我們借鑒Pointer-generator的方法,在生成標題的單詞的時候,通過Attention的概率分布,從原文中拷貝詞。

4.2subword

為了避免oov問題,我們采用subword的方法,處理文本。這樣,可以將詞表大小減小到20k,同時,subword會包含一些單詞詞形結(jié)構(gòu)的信息。

4.3ner-tagger和pos-tagger信息

因為baseline在數(shù)字,人名,地名,詞形上預(yù)測錯誤率較高,所以我們考慮能不能將ner-tagger和pos-tagger信息加入到模型中。如上圖所示。實驗證明通過加入這兩個序列信息能夠大大加快模型的收斂速度(訓(xùn)練收斂后,指標上基本沒差異)。

4.4Gradient Accumulation

在實驗過程中,我們發(fā)現(xiàn)transformer模型對batch_size非常敏感。之前,有研究者在機器翻譯任務(wù)中,通過實驗也證明了這一觀點。然而,對于文章標題生成任務(wù),因為每個sample的文章長度較長,所以,并不能使用超大batch_size來訓(xùn)練模型,所以,我們用Gradient Accumulation的方法模擬超大batch_size。

4.5ensemble

采用了兩層融合。第一層,對于每一個模型,將訓(xùn)練最后保存的N個模型參數(shù)求平均值(在valid集上選擇最好的N)。第二層,通過不同隨機種子得到的兩個模型,一個作為生成候選標題模型(選擇不同的beam_width, length_penalty), 一個作為打分模型,將候選標題送到模型打分,選擇分數(shù)最高的標題。

5.失敗的方法

將copy機制加入到transformer遇到一些問題,我們直接在decoder倒數(shù)第二層加了一層Attention層作為copy機制需要的概率分布,訓(xùn)練模型非常不穩(wěn)定,并且結(jié)果比baseline還要差很多;

我們嘗試了bert,我們將bert-encoder抽出的feature拼接到我們模型的encoder的最后一層,結(jié)果并沒有得到提升;

word-embedding的選擇,我們使用glove和fasttext等預(yù)訓(xùn)練的詞向量,模型收斂速度加快,但是,結(jié)果并沒有random的方法好。

6.結(jié)束語

非常感謝主辦方舉辦本次比賽,通過本次比賽,我們探索,學(xué)習(xí)到了很多算法方法和調(diào)參技巧。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1804

    文章

    48477

    瀏覽量

    245191
  • 機器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    140

    瀏覽量

    15095
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1221

    瀏覽量

    25212

原文標題:Byte Cup 2018國際機器學(xué)習(xí)競賽奪冠記

文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    機器學(xué)習(xí)模型市場前景如何

    當今,隨著算法的不斷優(yōu)化、數(shù)據(jù)量的爆炸式增長以及計算能力的飛速提升,機器學(xué)習(xí)模型的市場前景愈發(fā)廣闊。下面,AI部落小編將探討機器學(xué)習(xí)模型市場的未來發(fā)展。
    的頭像 發(fā)表于 02-13 09:39 ?241次閱讀

    傳統(tǒng)機器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    在上一篇文章中,我們介紹了機器學(xué)習(xí)的關(guān)鍵概念術(shù)語。在本文中,我們會介紹傳統(tǒng)機器學(xué)習(xí)的基礎(chǔ)知識和多種算法特征,供各位老師選擇。 01 傳統(tǒng)機器
    的頭像 發(fā)表于 12-30 09:16 ?906次閱讀
    傳統(tǒng)<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>方法和應(yīng)用指導(dǎo)

    云天勵飛助力國際青少年機器競賽IYRC圓滿落幕

    近日,由云天勵飛與華嶺韓端共同主辦的第十二屆IYRC青少年數(shù)字創(chuàng)意機器國際邀請展示活動暨2024開源鴻蒙數(shù)字創(chuàng)意文化產(chǎn)業(yè)高峰論壇在深圳舉行。
    的頭像 發(fā)表于 12-26 10:39 ?449次閱讀

    如何選擇云原生機器學(xué)習(xí)平臺

    當今,云原生機器學(xué)習(xí)平臺因其彈性擴展、高效部署、低成本運營等優(yōu)勢,逐漸成為企業(yè)構(gòu)建和部署機器學(xué)習(xí)應(yīng)用的首選。然而,市場上的云原生機器
    的頭像 發(fā)表于 12-25 11:54 ?342次閱讀

    螞蟻數(shù)科與浙大團隊榮獲NeurIPS競賽冠軍

    近日,在機器學(xué)習(xí)領(lǐng)域的頂級國際會議NeurIPS的特設(shè)競賽中,螞蟻數(shù)科旗下的摩斯聯(lián)合浙江大學(xué)計算機體系結(jié)構(gòu)實驗室陳文智、魏成坤團隊組成的“Morse ARCLab”參賽隊伍憑借出色的表
    的頭像 發(fā)表于 11-26 10:27 ?700次閱讀

    什么是機器學(xué)習(xí)?通過機器學(xué)習(xí)方法能解決哪些問題?

    來源:Master編程樹“機器學(xué)習(xí)”最初的研究動機是讓計算機系統(tǒng)具有人的學(xué)習(xí)能力以便實現(xiàn)人工智能。因為沒有學(xué)習(xí)能力的系統(tǒng)很難被認為是具有智能的。目前被廣泛采用的
    的頭像 發(fā)表于 11-16 01:07 ?747次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>方法能解決哪些問題?

    NPU與機器學(xué)習(xí)算法的關(guān)系

    在人工智能領(lǐng)域,機器學(xué)習(xí)算法是實現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復(fù)雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學(xué)習(xí)機器
    的頭像 發(fā)表于 11-15 09:19 ?1008次閱讀

    電子設(shè)計競賽準備經(jīng)歷分享

    在我大學(xué)生涯中,參加電子設(shè)計競賽無疑是一段難忘且充滿挑戰(zhàn)的經(jīng)歷。從最初的迷茫與不安,到最終的收獲與成長,這段旅程讓我深刻體會到了團隊合作的力量,以及不斷學(xué)習(xí)與探索的重要性。以下是我個人參加電子設(shè)計競賽的準備經(jīng)歷,希望能為即將參賽
    的頭像 發(fā)表于 11-06 10:49 ?502次閱讀
    電子設(shè)計<b class='flag-5'>競賽</b>準備經(jīng)歷分享

    入門?畢設(shè)?競賽?項目練手?STM32/嵌入式/物聯(lián)網(wǎng)學(xué)習(xí),有這幾款開發(fā)板就夠了!

    、項目練手、創(chuàng)新競賽、技能認證等。01STM32入門+項目進階學(xué)習(xí)適用場合高校教學(xué)、學(xué)生畢設(shè)、個人學(xué)習(xí)、項目練手、創(chuàng)新競賽、技術(shù)認證可學(xué)習(xí)
    的頭像 發(fā)表于 10-10 16:31 ?766次閱讀
    入門?畢設(shè)?<b class='flag-5'>競賽</b>?項目練手?STM32/嵌入式/物聯(lián)網(wǎng)<b class='flag-5'>學(xué)習(xí)</b>,有這幾款開發(fā)板就夠了!

    AMD贊助多支FIRST機器競賽團隊

    AMD 在 2024 賽季贊助了多支 FIRST 機器競賽團隊。FIRST 機器競賽旨在教導(dǎo)高中生如何構(gòu)建能夠執(zhí)行特定任務(wù)的機器人,同時
    的頭像 發(fā)表于 09-18 09:45 ?709次閱讀

    TE Connectivity AI Cup 第五屆全球競賽結(jié)果揭曉 中國高校團隊連續(xù)兩年奪得桂冠

    中國上海 - 2024 年 7 月 31 日 - 近日,由全球行業(yè)技術(shù)領(lǐng)先企業(yè)TE Connectivity(以下簡稱“TE”)主辦的TE AI Cup第五屆全球競賽圓滿收官。來自華南農(nóng)業(yè)大學(xué)
    發(fā)表于 08-01 14:39 ?2585次閱讀
    TE Connectivity AI <b class='flag-5'>Cup</b> 第五屆全球<b class='flag-5'>競賽</b>結(jié)果揭曉 中國高校團隊連續(xù)兩年奪得桂冠

    機器學(xué)習(xí)算法原理詳解

    機器學(xué)習(xí)作為人工智能的一個重要分支,其目標是通過讓計算機自動從數(shù)據(jù)中學(xué)習(xí)并改進其性能,而無需進行明確的編程。本文將深入解讀幾種常見的機器學(xué)習(xí)
    的頭像 發(fā)表于 07-02 11:25 ?2012次閱讀

    深度學(xué)習(xí)與傳統(tǒng)機器學(xué)習(xí)的對比

    在人工智能的浪潮中,機器學(xué)習(xí)和深度學(xué)習(xí)無疑是兩大核心驅(qū)動力。它們各自以其獨特的方式推動著技術(shù)的進步,為眾多領(lǐng)域帶來了革命性的變化。然而,盡管它們都屬于機器
    的頭像 發(fā)表于 07-01 11:40 ?2049次閱讀

    機器學(xué)習(xí)的經(jīng)典算法與應(yīng)用

    關(guān)于數(shù)據(jù)機器學(xué)習(xí)就是喂入算法和數(shù)據(jù),讓算法從數(shù)據(jù)中尋找一種相應(yīng)的關(guān)系。Iris鳶尾花數(shù)據(jù)集是一個經(jīng)典數(shù)據(jù)集,在統(tǒng)計學(xué)習(xí)機器學(xué)習(xí)領(lǐng)域都經(jīng)常被
    的頭像 發(fā)表于 06-27 08:27 ?1890次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>的經(jīng)典算法與應(yīng)用

    格靈深瞳斬獲首屆花樣滑冰動作識別競賽奪冠

    近日,第一屆花樣滑冰動作識別挑戰(zhàn)賽公布了本次競賽的結(jié)果,格靈深瞳憑借領(lǐng)先的算法能力斬獲了冠軍,并包攬了本次挑戰(zhàn)賽的前兩名。
    的頭像 發(fā)表于 05-13 14:04 ?591次閱讀
    格靈深瞳斬獲首屆花樣滑冰動作識別<b class='flag-5'>競賽</b><b class='flag-5'>奪冠</b>