一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Byte Cup 2018國際機(jī)器學(xué)習(xí)競賽奪冠記

IEEE電氣電子工程師 ? 來源:lq ? 2019-02-14 09:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

9月份,我們兩位同學(xué)一起組隊(duì),參加Byte Cup 2018國際機(jī)器學(xué)習(xí)競賽。本次比賽由中國人工智能學(xué)會和字節(jié)跳動(dòng)主辦,IEEE中國代表處聯(lián)合組織。比賽的任務(wù)是文章標(biāo)題自動(dòng)生成。最終,我們隊(duì)伍獲得了第一名。

1.比賽介紹

本次比賽的任務(wù)是給定文章文本內(nèi)容,自動(dòng)生成標(biāo)題。本質(zhì)上和文本摘要任務(wù)比較類似。本次比賽有100多萬篇文章的訓(xùn)練數(shù)據(jù)。

1.1數(shù)據(jù)介紹

詳細(xì)參見:https://biendata.com/competition/bytecup2018/data/。

本次競賽使用的訓(xùn)練集包括了約130萬篇文本的信息,驗(yàn)證集1000篇文章,

測試集800篇文章。

1.2數(shù)據(jù)處理

文章去重,訓(xùn)練數(shù)據(jù)中包含一些重復(fù)數(shù)據(jù),清洗,去重;

清洗非英文文章。

1.3評價(jià)指標(biāo)

本次比賽將使用Rouge(Recall-Oriented Understudy for Gisting Evaluation)作為模型評估度量。Rough是評估自動(dòng)文摘以及機(jī)器翻譯的常見指標(biāo)。它通過將自動(dòng)生成的文本與人工生成的文本(即參考文本)進(jìn)行比較,根據(jù)相似度得出分值。

2.模型介紹

本次比賽主要嘗試了seq2seq的方法。參考的模型包括Transformer模型和pointer-generator模型。

模型如下圖:

(其實(shí)就是將pointer-generator的copy機(jī)制加到transformer模型上)。

同時(shí),嘗試了將ner-tagger和pos-tagger信息加入到模型中,如下圖所示:

3.問題分析

最開始我們嘗試了最基本的transformer模型,通過查看數(shù)據(jù),遇到以下幾類明顯錯(cuò)誤:

OOV(out of vocabulary);

數(shù)字,人名,地名預(yù)測錯(cuò)誤;

詞形預(yù)測錯(cuò)誤。

OOV問題,主要原因是數(shù)據(jù)集詞表太大,但是,模型能夠?qū)嶋H使用的詞表較??;數(shù)字,人名,地名預(yù)測錯(cuò)誤,主要原因是低頻詞embedding學(xué)習(xí)不充分;詞形預(yù)測錯(cuò)誤,主要原因是模型中沒有考慮詞的形態(tài)問題(當(dāng)然,如果訓(xùn)練數(shù)據(jù)足夠大,是能避免這個(gè)問題的)。

為了解決這些問題,我們嘗試了以下方法。

4.重要組件

4.1copy機(jī)制

對于很多低頻詞,通過生成式方法生成,其實(shí)是很不靠譜的。為此,我們借鑒Pointer-generator的方法,在生成標(biāo)題的單詞的時(shí)候,通過Attention的概率分布,從原文中拷貝詞。

4.2subword

為了避免oov問題,我們采用subword的方法,處理文本。這樣,可以將詞表大小減小到20k,同時(shí),subword會包含一些單詞詞形結(jié)構(gòu)的信息。

4.3ner-tagger和pos-tagger信息

因?yàn)閎aseline在數(shù)字,人名,地名,詞形上預(yù)測錯(cuò)誤率較高,所以我們考慮能不能將ner-tagger和pos-tagger信息加入到模型中。如上圖所示。實(shí)驗(yàn)證明通過加入這兩個(gè)序列信息能夠大大加快模型的收斂速度(訓(xùn)練收斂后,指標(biāo)上基本沒差異)。

4.4Gradient Accumulation

在實(shí)驗(yàn)過程中,我們發(fā)現(xiàn)transformer模型對batch_size非常敏感。之前,有研究者在機(jī)器翻譯任務(wù)中,通過實(shí)驗(yàn)也證明了這一觀點(diǎn)。然而,對于文章標(biāo)題生成任務(wù),因?yàn)槊總€(gè)sample的文章長度較長,所以,并不能使用超大batch_size來訓(xùn)練模型,所以,我們用Gradient Accumulation的方法模擬超大batch_size。

4.5ensemble

采用了兩層融合。第一層,對于每一個(gè)模型,將訓(xùn)練最后保存的N個(gè)模型參數(shù)求平均值(在valid集上選擇最好的N)。第二層,通過不同隨機(jī)種子得到的兩個(gè)模型,一個(gè)作為生成候選標(biāo)題模型(選擇不同的beam_width, length_penalty), 一個(gè)作為打分模型,將候選標(biāo)題送到模型打分,選擇分?jǐn)?shù)最高的標(biāo)題。

5.失敗的方法

將copy機(jī)制加入到transformer遇到一些問題,我們直接在decoder倒數(shù)第二層加了一層Attention層作為copy機(jī)制需要的概率分布,訓(xùn)練模型非常不穩(wěn)定,并且結(jié)果比baseline還要差很多;

我們嘗試了bert,我們將bert-encoder抽出的feature拼接到我們模型的encoder的最后一層,結(jié)果并沒有得到提升;

word-embedding的選擇,我們使用glove和fasttext等預(yù)訓(xùn)練的詞向量,模型收斂速度加快,但是,結(jié)果并沒有random的方法好。

6.結(jié)束語

非常感謝主辦方舉辦本次比賽,通過本次比賽,我們探索,學(xué)習(xí)到了很多算法方法和調(diào)參技巧。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    49011

    瀏覽量

    249347
  • 機(jī)器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    140

    瀏覽量

    15191
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25445

原文標(biāo)題:Byte Cup 2018國際機(jī)器學(xué)習(xí)競賽奪冠記

文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    機(jī)器學(xué)習(xí)模型市場前景如何

    當(dāng)今,隨著算法的不斷優(yōu)化、數(shù)據(jù)量的爆炸式增長以及計(jì)算能力的飛速提升,機(jī)器學(xué)習(xí)模型的市場前景愈發(fā)廣闊。下面,AI部落小編將探討機(jī)器學(xué)習(xí)模型市場的未來發(fā)展。
    的頭像 發(fā)表于 02-13 09:39 ?359次閱讀

    嵌入式機(jī)器學(xué)習(xí)的應(yīng)用特性與軟件開發(fā)環(huán)境

    作者:DigiKey Editor 在許多嵌入式系統(tǒng)中,必須采用嵌入式機(jī)器學(xué)習(xí)(Embedded Machine Learning)技術(shù),這是指將機(jī)器學(xué)習(xí)模型部署在資源受限的設(shè)備(如微
    的頭像 發(fā)表于 01-25 17:05 ?658次閱讀
    嵌入式<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>的應(yīng)用特性與軟件開發(fā)環(huán)境

    傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    在上一篇文章中,我們介紹了機(jī)器學(xué)習(xí)的關(guān)鍵概念術(shù)語。在本文中,我們會介紹傳統(tǒng)機(jī)器學(xué)習(xí)的基礎(chǔ)知識和多種算法特征,供各位老師選擇。 01 傳統(tǒng)機(jī)器
    的頭像 發(fā)表于 12-30 09:16 ?1183次閱讀
    傳統(tǒng)<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方法和應(yīng)用指導(dǎo)

    云天勵(lì)飛助力國際青少年機(jī)器競賽IYRC圓滿落幕

    近日,由云天勵(lì)飛與華嶺韓端共同主辦的第十二屆IYRC青少年數(shù)字創(chuàng)意機(jī)器國際邀請展示活動(dòng)暨2024開源鴻蒙數(shù)字創(chuàng)意文化產(chǎn)業(yè)高峰論壇在深圳舉行。
    的頭像 發(fā)表于 12-26 10:39 ?624次閱讀

    如何選擇云原生機(jī)器學(xué)習(xí)平臺

    當(dāng)今,云原生機(jī)器學(xué)習(xí)平臺因其彈性擴(kuò)展、高效部署、低成本運(yùn)營等優(yōu)勢,逐漸成為企業(yè)構(gòu)建和部署機(jī)器學(xué)習(xí)應(yīng)用的首選。然而,市場上的云原生機(jī)器
    的頭像 發(fā)表于 12-25 11:54 ?452次閱讀

    螞蟻數(shù)科與浙大團(tuán)隊(duì)榮獲NeurIPS競賽冠軍

    近日,在機(jī)器學(xué)習(xí)領(lǐng)域的頂級國際會議NeurIPS的特設(shè)競賽中,螞蟻數(shù)科旗下的摩斯聯(lián)合浙江大學(xué)計(jì)算機(jī)體系結(jié)構(gòu)實(shí)驗(yàn)室陳文智、魏成坤團(tuán)隊(duì)組成的“Morse ARCLab”參賽隊(duì)伍憑借出色的表
    的頭像 發(fā)表于 11-26 10:27 ?885次閱讀

    什么是機(jī)器學(xué)習(xí)?通過機(jī)器學(xué)習(xí)方法能解決哪些問題?

    來源:Master編程樹“機(jī)器學(xué)習(xí)”最初的研究動(dòng)機(jī)是讓計(jì)算機(jī)系統(tǒng)具有人的學(xué)習(xí)能力以便實(shí)現(xiàn)人工智能。因?yàn)闆]有學(xué)習(xí)能力的系統(tǒng)很難被認(rèn)為是具有智能的。目前被廣泛采用的
    的頭像 發(fā)表于 11-16 01:07 ?963次閱讀
    什么是<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>?通過<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方法能解決哪些問題?

    NPU與機(jī)器學(xué)習(xí)算法的關(guān)系

    在人工智能領(lǐng)域,機(jī)器學(xué)習(xí)算法是實(shí)現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復(fù)雜度的提升,對計(jì)算資源的需求也在不斷增長。NPU作為一種專門為深度學(xué)習(xí)機(jī)器
    的頭像 發(fā)表于 11-15 09:19 ?1212次閱讀

    電子設(shè)計(jì)競賽準(zhǔn)備經(jīng)歷分享

    在我大學(xué)生涯中,參加電子設(shè)計(jì)競賽無疑是一段難忘且充滿挑戰(zhàn)的經(jīng)歷。從最初的迷茫與不安,到最終的收獲與成長,這段旅程讓我深刻體會到了團(tuán)隊(duì)合作的力量,以及不斷學(xué)習(xí)與探索的重要性。以下是我個(gè)人參加電子設(shè)計(jì)競賽的準(zhǔn)備經(jīng)歷,希望能為即將參賽
    的頭像 發(fā)表于 11-06 10:49 ?608次閱讀
    電子設(shè)計(jì)<b class='flag-5'>競賽</b>準(zhǔn)備經(jīng)歷分享

    具身智能與機(jī)器學(xué)習(xí)的關(guān)系

    具身智能(Embodied Intelligence)和機(jī)器學(xué)習(xí)(Machine Learning)是人工智能領(lǐng)域的兩個(gè)重要概念,它們之間存在著密切的關(guān)系。 1. 具身智能的定義 具身智能是指智能體
    的頭像 發(fā)表于 10-27 10:33 ?1047次閱讀

    人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)存在什么區(qū)別

    人工智能指的是在某種程度上顯示出類似人類智能的設(shè)備。AI有很多技術(shù),但其中一個(gè)很大的子集是機(jī)器學(xué)習(xí)——讓算法從數(shù)據(jù)中學(xué)習(xí)。
    發(fā)表于 10-24 17:22 ?2974次閱讀
    人工智能、<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b>存在什么區(qū)別

    入門?畢設(shè)?競賽?項(xiàng)目練手?STM32/嵌入式/物聯(lián)網(wǎng)學(xué)習(xí),有這幾款開發(fā)板就夠了!

    、項(xiàng)目練手、創(chuàng)新競賽、技能認(rèn)證等。01STM32入門+項(xiàng)目進(jìn)階學(xué)習(xí)適用場合高校教學(xué)、學(xué)生畢設(shè)、個(gè)人學(xué)習(xí)、項(xiàng)目練手、創(chuàng)新競賽、技術(shù)認(rèn)證可學(xué)習(xí)
    的頭像 發(fā)表于 10-10 16:31 ?1113次閱讀
    入門?畢設(shè)?<b class='flag-5'>競賽</b>?項(xiàng)目練手?STM32/嵌入式/物聯(lián)網(wǎng)<b class='flag-5'>學(xué)習(xí)</b>,有這幾款開發(fā)板就夠了!

    AMD贊助多支FIRST機(jī)器競賽團(tuán)隊(duì)

    AMD 在 2024 賽季贊助了多支 FIRST 機(jī)器競賽團(tuán)隊(duì)。FIRST 機(jī)器競賽旨在教導(dǎo)高中生如何構(gòu)建能夠執(zhí)行特定任務(wù)的機(jī)器人,同時(shí)
    的頭像 發(fā)表于 09-18 09:45 ?870次閱讀

    【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】+ 簡單建議

    這本書以其系統(tǒng)性的框架和深入淺出的講解,為讀者繪制了一幅時(shí)間序列分析與機(jī)器學(xué)習(xí)融合應(yīng)用的宏偉藍(lán)圖。作者不僅扎實(shí)地構(gòu)建了時(shí)間序列分析的基礎(chǔ)知識,更巧妙地展示了機(jī)器學(xué)習(xí)如何在這一領(lǐng)域發(fā)揮巨
    發(fā)表于 08-12 11:21

    TE Connectivity AI Cup 第五屆全球競賽結(jié)果揭曉 中國高校團(tuán)隊(duì)連續(xù)兩年奪得桂冠

    中國上海 - 2024 年 7 月 31 日 - 近日,由全球行業(yè)技術(shù)領(lǐng)先企業(yè)TE Connectivity(以下簡稱“TE”)主辦的TE AI Cup第五屆全球競賽圓滿收官。來自華南農(nóng)業(yè)大學(xué)
    發(fā)表于 08-01 14:39 ?2663次閱讀
    TE Connectivity AI <b class='flag-5'>Cup</b> 第五屆全球<b class='flag-5'>競賽</b>結(jié)果揭曉 中國高校團(tuán)隊(duì)連續(xù)兩年奪得桂冠