AV无码免费一区二区三区不卡,欧美人妻不卡在线,久久精品一二三四

引言

對于NL2Code任務(wù)相信大家都不陌生。它主要目的就是將自然語言轉(zhuǎn)換成可執(zhí)行代碼來提高開發(fā)人員的工作效率，終極目標(biāo)就是干翻所有程序員，最近，隨著大模型的出現(xiàn)，距離這一天又稍稍進(jìn)了一步?；谠摫尘?，分享中科院和微軟亞洲研究院在ACL2023國際頂會上一篇文章：他們調(diào)研了NL2Code領(lǐng)域中的「27個(gè)大型語言模型以及相關(guān)評價(jià)指標(biāo)」，分析了「LLMs的成功在于模型參數(shù)、數(shù)據(jù)質(zhì)量和專家調(diào)優(yōu)」，并指出了「NL2Code領(lǐng)域研究的5個(gè)機(jī)遇挑戰(zhàn)」，最后作者建立了一個(gè)分享網(wǎng)站來跟蹤LLMs在NL2Code任務(wù)上的最新進(jìn)展。https://nl2code.github.io

背景介紹

新手程序員，甚至是那些沒有任何編程經(jīng)驗(yàn)的程序員，是否有可能僅僅通過用自然語言描述他們的需求來創(chuàng)建軟件?實(shí)現(xiàn)這一設(shè)想將對我們的生活、教育、經(jīng)濟(jì)和勞動(dòng)力市場產(chǎn)生前所未有的影響。自然語言-代碼(NL2Code)因其廣闊的應(yīng)用場景，是一項(xiàng)重要的研究任務(wù)，在學(xué)術(shù)界和工業(yè)界都引起了廣泛的興趣。

關(guān)于NL2Code的發(fā)展，其實(shí)和自然語言理解的發(fā)展類似，一開始，基本都是基于專家規(guī)則進(jìn)行算法設(shè)計(jì)，但是此類方法需要對不同編程語言進(jìn)行設(shè)計(jì)，泛化性差；隨著技術(shù)發(fā)展，人們逐步開始使用靜態(tài)語言模型，并使用向量空間來描述文字，此類方法在初期一般向量空間比較稀疏，不能建立長期的依賴關(guān)系；再后來，就用到了我們比較熟悉的神經(jīng)網(wǎng)絡(luò)，例如CNN、RNN、LSTM，此類方法通過標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練來構(gòu)建自然語言(NL)和代碼(Code)之間的關(guān)系，但實(shí)際效果對NL2Code任務(wù)的能力有限；現(xiàn)在，在ChatGPT風(fēng)靡全球的背景下，越來越多的大型語言模型(LLMs)如雨后春筍一樣出現(xiàn)，通過語言指令，它們可以在零樣本狀況下生成代碼，并在NL2Code任務(wù)上中取到了驚人的成績。具有標(biāo)志性的一個(gè)LLM模型就是Codex，它擁有120億個(gè)參數(shù)，在Python編程任務(wù)上測試，可解決72.31%的問題，并且該模型已經(jīng)商用可在實(shí)踐中提高開發(fā)人員的工作效率。

NL2Code任務(wù)與27個(gè)LLMs

對于NL2Code任務(wù)，其主要目的是基于給定自然語言問題描述生成所需要的代碼。以下是一個(gè)關(guān)于Python編程問題的示例。其中灰色塊部分表示問題描述，綠色塊部分表示模型生成代碼，黃色塊部分表示測試樣例。

針對NL2Code任務(wù)對27個(gè)具有代表性的LLMs進(jìn)行了全面調(diào)研，下表總結(jié)了每個(gè)模型的詳細(xì)信息，其中主要包括：模型架構(gòu)、模型大小、模型層數(shù)（L）、注意力頭數(shù)量（A）、隱藏維度（H）、模型參數(shù)是否開放（P）等五個(gè)方面。

為了更好地可視化，下圖按時(shí)間順序展示了這些模型，繪制了最大的模型大小。觀察到的一個(gè)趨勢是，隨著研究領(lǐng)域的發(fā)展，這些大型語言模型的規(guī)模也在不斷擴(kuò)大。此外，只有解碼器的架構(gòu)更適合于規(guī)模較大的預(yù)訓(xùn)練模型。

27個(gè)LLMs評估

上面總結(jié)了NL2Code現(xiàn)有的大型語言模型（LLMs），但是這些模型在架構(gòu)、模型規(guī)模等方面各不相同，無法進(jìn)行統(tǒng)一的評估。為此，作者在HumanEval基準(zhǔn)上進(jìn)行了Zero-shot統(tǒng)一評估，其中HumanEval基準(zhǔn)由164個(gè)手寫的Python編程問題組成，對于每個(gè)編程問題都提供了測試用例，以評估生成代碼正確性。使用pass@k作為評估指標(biāo)，即通過k次嘗試可以正確回答的問題的比例。下表顯示根據(jù)模型大小進(jìn)行分組，在該測試集上的測試結(jié)果。

從上表可以看出，這些LLM在該數(shù)據(jù)集上的性能差異很大，盡管模型參數(shù)相似但效果差異也是很大?？梢园l(fā)現(xiàn)Codex 在各種尺寸上都處于領(lǐng)先地位。為什么會存在這個(gè)問題呢？影響模型效果的關(guān)鍵因素是啥呢？作者經(jīng)過分析給出的結(jié)論有：模型大小、數(shù)據(jù)質(zhì)量、專家調(diào)優(yōu)。

模型大小

根據(jù)前面的整理用于NL2Code的LLMs時(shí)間發(fā)展圖可以發(fā)現(xiàn)，只要模型參數(shù)越多性能就越好。為了進(jìn)一步說明模型參數(shù)大小和模型效果之間的關(guān)系，作者整理了10個(gè)比較有代表性的模型，在HumanEval基準(zhǔn)上的pass@1結(jié)果，如下圖所示：

根據(jù)上圖，很明顯的可以「發(fā)現(xiàn)較大的模型通常會產(chǎn)生更好的結(jié)果」。此外，「當(dāng)前模型無論大小，仍然可以通過進(jìn)一步增加模型參數(shù)來實(shí)現(xiàn)性能的提升」。

數(shù)據(jù)質(zhì)量

隨著LLMs模型參數(shù)的增加，其訓(xùn)練數(shù)據(jù)規(guī)模也在不斷的增加。這在數(shù)據(jù)選擇和預(yù)處理方面也有更高的要求。早期的模型，例如CodeSearchNet、CoST、XLCoST等都是基于人工標(biāo)注數(shù)據(jù)對進(jìn)行訓(xùn)練（耗時(shí)耗力）；GPT系列模型（GPT-3 、GPT-Neo、GPT-J ）開始在大規(guī)模無監(jiān)督數(shù)據(jù)集上進(jìn)行訓(xùn)練，但是由于代碼數(shù)據(jù)限制，并沒有顯示出很強(qiáng)的代碼生成能力。由于LLMs模型的出現(xiàn)，它們可以在更大規(guī)模的未標(biāo)記代碼數(shù)據(jù)集上進(jìn)行訓(xùn)練，最終模型效果驚人。

在驚嘆于LLMs效果的同時(shí)，也要知道LLMs在訓(xùn)練之前通常會對數(shù)據(jù)進(jìn)行預(yù)處理。為此作者調(diào)研了Codex、AlphaCode、CodeGen、InCoder和PyCodeGPT等5個(gè)強(qiáng)大模型的數(shù)據(jù)預(yù)處理方法。發(fā)現(xiàn)它們具有幾個(gè)共同的特點(diǎn)：一是刪除可能自動(dòng)生成或未完成的代碼文件，二是使用特定的規(guī)則來過濾不常見的代碼文件?！缚傊@些預(yù)處理策略的目標(biāo)是實(shí)現(xiàn)一個(gè)不重復(fù)的、完整的、正確的、干凈的和通用的代碼語料庫」。

專家調(diào)優(yōu)

訓(xùn)練一個(gè)優(yōu)秀的模型需要認(rèn)真考慮模型訓(xùn)練階段的各個(gè)參數(shù)。通過對27個(gè)LLMs模型的研究發(fā)現(xiàn)，它們都有一些共同的設(shè)置，比如都應(yīng)用了Adam相關(guān)優(yōu)化器并在初始化階段相差不大。除此之外，還有需要調(diào)節(jié)的超參數(shù)，如lr、batch、窗口大小、預(yù)熱、梯度累積和temperature。對于學(xué)習(xí)率來說，隨著模型的增大，學(xué)習(xí)率會逐步變小。如下圖所示：

對于temperature，這里對比了兩個(gè)模型在HumanEval任務(wù)上使用不同temperature后模型的性能。結(jié)果發(fā)現(xiàn)，更高的temperature產(chǎn)生更低的pass@1和更高的pass@100，這表明更高的temperature使LLM產(chǎn)生更多樣化的預(yù)測，反之亦然。如下圖所示：

此外，有研究表明窗口大小也是一個(gè)關(guān)鍵因素，具有大窗口的小模型會有時(shí)優(yōu)于具有小窗口的大模型。此外，強(qiáng)大的LLMs通常主要使用兩種技術(shù)在代碼語料庫上訓(xùn)練新的標(biāo)記器:字節(jié)級字節(jié)對編碼和sentencepece 。新的標(biāo)記器可以更有效和準(zhǔn)確地將代碼內(nèi)容拆分為Tokens。這些經(jīng)過驗(yàn)證的調(diào)優(yōu)技術(shù)將為培訓(xùn)更強(qiáng)大的llm提供有價(jià)值的參考。

評估基準(zhǔn)指標(biāo)

「對NL2Code任務(wù)的評估，高質(zhì)量的基準(zhǔn)和可靠的度量是基礎(chǔ)和必要的」。作者總結(jié)了17個(gè)NL2Code基準(zhǔn)測試，每個(gè)基準(zhǔn)測試在大小、語言、復(fù)雜性和場景方面都有自己的特點(diǎn)，如下表所示。

但大多數(shù)基準(zhǔn)測試只包含有限數(shù)量的實(shí)例。例如，HumanEval和MBPP分別有164和974個(gè)實(shí)例。這是因?yàn)檫@些基準(zhǔn)通常是手寫的以防數(shù)據(jù)泄露?！冈诖笮驼Z言模型時(shí)代，在創(chuàng)建新基準(zhǔn)時(shí)避免數(shù)據(jù)泄漏至關(guān)重要」。此外，大多數(shù)當(dāng)前的基準(zhǔn)測試都有英文的問題描述和Python的代碼解決方案。最近，已經(jīng)提出了幾個(gè)多語言基準(zhǔn)，例如涵蓋「多種編程語言的MBXP，HumanEvalX和MultiPL ，以及涵蓋多種自然語言的ODEX」。多語言基準(zhǔn)測試的詳細(xì)信息如下表所示：

「手動(dòng)評估生成的代碼是不切實(shí)際的，這就需要自動(dòng)度量」。上述基準(zhǔn)均提供了基于執(zhí)行的評估的測試用例，其中指標(biāo)如 pass@k、n@k、測試用例平均值和執(zhí)行精度。但是，「這種方法對測試用例的質(zhì)量有嚴(yán)格的要求，并且只能評估可執(zhí)行代碼。對于不可執(zhí)行的代碼」，使用了 BLEU 、ROUGE 和 CodeBLEU等指標(biāo)，無法準(zhǔn)確評估代碼的正確性。到目前為止，「在設(shè)計(jì)指標(biāo)來評估代碼的各個(gè)方面（例如漏洞、可維護(hù)性、清晰度、執(zhí)行復(fù)雜性和穩(wěn)定性）方面存在許多開放性挑戰(zhàn)」。

NL2Code挑戰(zhàn)與機(jī)遇

大預(yù)言模型在NL2Code的應(yīng)用對學(xué)術(shù)界和工業(yè)界都有相當(dāng)大的影響。雖然取得了驚人的進(jìn)展，但仍然有很多挑戰(zhàn)需求解決，這也為研究人員提供了充足的機(jī)會。下面作者總結(jié)了 NL2Code任務(wù)的五個(gè)挑戰(zhàn)和機(jī)會。

「1、理解能力」：人類能夠理解不同抽象層次的各種描述，相比之下，當(dāng)前的 LLM 往往對給定的上下文敏感，這可能會導(dǎo)致性能下降。作者認(rèn)為探索LLM的理解能力是一個(gè)重要的研究方向。

「2、判斷能力」：人類能夠判定一個(gè)編程問題是否被解決。當(dāng)前模型不論輸入什么都會給出答案，而且該答案正確與否都不能確定，這在實(shí)際應(yīng)用中會存在一定的問題。目前為了提高LLM的判斷能力，需要根據(jù)用戶反饋采用強(qiáng)化學(xué)習(xí)的方式進(jìn)行調(diào)優(yōu)。作者認(rèn)為探索LLM自我判斷能力，也是一個(gè)比較重要的研究方向。

「3、解釋能力」：人類開發(fā)人員能夠解釋他們編寫的代碼，這對教育的和軟件維護(hù)至關(guān)重要。最近的研究表明，LLM 具有自動(dòng)生成代碼解釋的潛力。作者認(rèn)為針對該能力也需要進(jìn)一步的研究和探索，以充分發(fā)揮LLM在這方面的潛力。

「4、自適應(yīng)能力」：當(dāng)前的大型語言模型與人類之間的一個(gè)根本區(qū)別是它們適應(yīng)新知識和更新知識的能力。人類開發(fā)人員能夠根據(jù)文檔資料實(shí)現(xiàn)API的快速開發(fā)，而LLM需要大量的知識和訓(xùn)練。作者認(rèn)為如何提高LLM快速自學(xué)習(xí)能力也是一個(gè)比較大挑戰(zhàn)。

「5、多任務(wù)處理能力」：LLM在多任務(wù)處理方面與人類存在較大差異。人類可以在任務(wù)之間無縫切換，而LLM可能需要復(fù)雜的提示工程。為此作者任務(wù)提升LLM多任務(wù)能力同樣是一個(gè)重要的研究方向。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
561

瀏覽量
10787
python

python

+關(guān)注

關(guān)注
56

文章
4827

瀏覽量
86702
自然語言

自然語言

+關(guān)注

關(guān)注
1

文章
292

瀏覽量
13654

原文標(biāo)題：ACL2023 | 中科院針對NL2Code任務(wù)，調(diào)研了27個(gè)大模型，并指出5個(gè)重要挑戰(zhàn)

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

中科院針對NL2Code任務(wù)，調(diào)研了27個(gè)大模型，并指出5個(gè)重要挑戰(zhàn)

評論

搜索歷史

中科院針對NL2Code任務(wù)，調(diào)研了27個(gè)大模型，并指出5個(gè)重要挑戰(zhàn)

評論

中科院針對NL2Code任務(wù)，調(diào)研了27個(gè)大模型，并指出5個(gè)重要挑戰(zhàn)