国产AV一区二区三区几点回家,色噜噜人妻丝裤aV先锋影音先,美女日本国产啊啊啊色欲

最近，開源中國 OSCHINA、Gitee 與 Gitee AI 聯(lián)合發(fā)布了《2024 中國開源開發(fā)者報(bào)告》。

報(bào)告聚焦 AI 大模型領(lǐng)域，對過去一年的技術(shù)演進(jìn)動態(tài)、技術(shù)趨勢、以及開源開發(fā)者生態(tài)數(shù)據(jù)進(jìn)行多方位的總結(jié)和梳理。

在第二章《TOP 101-2024 大模型觀點(diǎn)》中，蘇州盛派網(wǎng)絡(luò)科技有限公司創(chuàng)始人兼首席架構(gòu)師蘇震巍分析了大模型訓(xùn)練過程中開源數(shù)據(jù)集和算法的重要性和影響，分析其在促進(jìn) AI 研究和應(yīng)用中的機(jī)遇，并警示相關(guān)的風(fēng)險(xiǎn)與挑戰(zhàn)。

全文如下：

大模型訓(xùn)練中的開源數(shù)據(jù)和算法：機(jī)遇及挑戰(zhàn)

隨著人工智能（AI）技術(shù)的迅猛發(fā)展，尤其是大模型（如 GPT、OpenAI o1、Llama 等）的崛起，開源數(shù)據(jù)和算法在大模型訓(xùn)練中的重要性愈發(fā)顯著。開源數(shù)據(jù)集和算法不僅推動了 AI 研究的進(jìn)步，也在應(yīng)用層面帶來了深遠(yuǎn)的影響。然而，伴隨這些機(jī)遇的還有諸多風(fēng)險(xiǎn)與挑戰(zhàn)，如數(shù)據(jù)質(zhì)量、版權(quán)問題和算法透明性等。本文將淺析大模型訓(xùn)練過程中開源數(shù)據(jù)集和算法的重要性和影響，分析其在促進(jìn) AI 研究和應(yīng)用中的機(jī)遇，并警示相關(guān)的風(fēng)險(xiǎn)與挑戰(zhàn)。

任何方案都具有兩面性和在特殊環(huán)境下的討論的意義和前提，因此，本文不討論開源或?qū)α⒚妫ㄩ]源）的絕對取舍問題，僅對開源的有利之處加以淺析。

重要的開源數(shù)據(jù)集和算法在大模型訓(xùn)練中的角色

開源數(shù)據(jù)集是大模型訓(xùn)練的基石。沒有高質(zhì)量的數(shù)據(jù)，大模型的性能和應(yīng)用場景將受到極大限制。ImageNet、COCO、Wikipedia 和 Common Crawl 是非常重要一批高質(zhì)量的開源數(shù)據(jù)集。以下是這幾個數(shù)據(jù)集在大模型訓(xùn)練歷程中的重要角色。

ImageNet：ImageNet 是計(jì)算機(jī)視覺領(lǐng)域最著名的開源數(shù)據(jù)集之一，包含數(shù)百萬張帶有標(biāo)簽的圖像。它為圖像分類、物體檢測等任務(wù)提供了豐富的數(shù)據(jù)資源，使得模型能夠在視覺理解方面取得突破。它由普林斯頓大學(xué)的計(jì)算機(jī)科學(xué)家李飛飛（Fei-Fei Li）及其團(tuán)隊(duì)在 2009 年創(chuàng)建。ImageNet 包含超過 1400 萬張圖像，這些圖像分為超過 2 萬個類別，每個類別都與 WordNet 中的一個詞條對應(yīng)。每個類別的圖像數(shù)量從數(shù)百到數(shù)千不等。ImageNet 每年都會舉辦一個大型的視覺識別競賽，即 ImageNet Large Scale Visual Recognition Challenge （ILSVRC）。該競賽吸引了全球眾多研究團(tuán)隊(duì)參與，并在推動深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)（CNN）技術(shù)的發(fā)展中發(fā)揮了重要作用。今年的諾貝爾物理學(xué)獎得主之一 Geoffrey Hinton 帶領(lǐng)的團(tuán)隊(duì)成員 AlexNet 在 2012 年的 ILSVRC 中取得了顯著的成功，使得深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域迅速崛起。也為如今我們看到的種類繁多的視覺大模型（VLMs）開啟了新的篇章。

COCO（Common Objects in Context）：COCO 數(shù)據(jù)集由微軟于 2014 年發(fā)布，涵蓋了數(shù)十萬張日常生活中的圖像，并附有詳細(xì)的標(biāo)注信息。雖然 COCO 對比 ImageNet 具有更少的類別，但每一個類別擁有更多的實(shí)例，假定這能幫助復(fù)雜模型提高物體定位的準(zhǔn)確率。它的設(shè)計(jì)初衷適用于具有上下文信息的圖片中的物體檢測和分割，目前在目標(biāo)檢測、分割等任務(wù)中發(fā)揮了重要作用，推動了計(jì)算機(jī)視覺技術(shù)的進(jìn)步。

Wikipedia 和 Common Crawl：Wikipedia 是一個由全球用戶共同編輯和維護(hù)的高質(zhì)量在線百科全書，以文字為主，知識高度結(jié)構(gòu)化，Common Crawl 是一個非營利組織，定期抓取互聯(lián)網(wǎng)公開網(wǎng)頁，生成大量的網(wǎng)頁數(shù)據(jù)集，可提供大量的互聯(lián)網(wǎng)用戶知識及非結(jié)構(gòu)化數(shù)據(jù)。他們的共同點(diǎn)是為模型訓(xùn)練提供了充沛的文字素材。這些大型文本數(shù)據(jù)集為自然語言處理（NLP）模型的訓(xùn)練提供了豐富的語料庫。像 GPT 這樣的語言模型正是通過大規(guī)模爬取和處理這些數(shù)據(jù)集，才能在文本生成和理解方面表現(xiàn)出色。

開源算法的角色

開源算法是 AI 研究和應(yīng)用的核心驅(qū)動力。開源算法的共享和復(fù)用使得研究者和開發(fā)者能夠在前人工作的基礎(chǔ)上迅速迭代和創(chuàng)新。以下是一些在這一輪 AI 大模型浪潮中扮演重要角色的的開源算法及其在大模型訓(xùn)練中的角色：

TensorFlow 和 PyTorch：這兩個深度學(xué)習(xí)框架是當(dāng)前最流行的開源工具，提供了強(qiáng)大的計(jì)算能力和靈活的模型構(gòu)建方式。它們?yōu)榇竽Ｐ偷挠?xùn)練和部署提供了基礎(chǔ)設(shè)施支持，使得復(fù)雜的 AI 模型得以實(shí)現(xiàn)。

Transformer 架構(gòu)：Transformer 架構(gòu)是一種用于處理序列數(shù)據(jù)的開源算法，廣泛應(yīng)用于 NLP 任務(wù)，也是作為這一輪 AI 浪潮推動者 GPT 模型的基礎(chǔ)算法。基于 Transformer 的模型，如 BERT 和 GPT，已經(jīng)成為自然語言理解和生成的事實(shí)標(biāo)準(zhǔn)。

GAN（生成對抗網(wǎng)絡(luò)）：GAN 是一種用于生成數(shù)據(jù)的開源算法，廣泛應(yīng)用于圖像生成、數(shù)據(jù)增強(qiáng)等領(lǐng)域。它通過生成器和判別器的對抗訓(xùn)練，能夠生成高質(zhì)量的圖像和其他數(shù)據(jù)。

除此以外，如果把 Pre-Train 之后的微調(diào)（Fine-Tuning）等環(huán)節(jié)也看做廣義 “訓(xùn)練” 的一部分，還有一系列開源方法及配套的工具，例如比較常見的 LoRA（Low-Rank Adaptation of Large Language Models）。

機(jī)遇

從上述開源數(shù)據(jù)和算法在模型訓(xùn)練過程中所扮演的角色可以看到，大模型訓(xùn)練中的開源數(shù)據(jù)和算法為 AI 研究和應(yīng)用帶來了諸多機(jī)遇，在加速創(chuàng)新、促進(jìn)合作、資源共享等方便提供了廣泛而可靠的基礎(chǔ)條件和資源，圍繞這些資源，技術(shù)人員得以進(jìn)行更加開放的交流和合作，并展開更加深入的教育和培訓(xùn)，以此不斷提升整個行業(yè)人才的技術(shù)水平。

由于目前主流的模型訓(xùn)練算法都需要依靠對訓(xùn)練數(shù)據(jù)（樣本）的統(tǒng)計(jì)（概率），因此，開放的數(shù)據(jù)和算法能夠在更大程度上確保樣本的質(zhì)量，從而避免更多未知的風(fēng)險(xiǎn)。例如就在 2024 年 12 月 1 日，用戶發(fā)現(xiàn) ChatGPT 在需要輸出 “David Mayer” 這個名字的時候會突然提示拒絕：

此事件一度被解讀為 GPT 模型在訓(xùn)練過程中被植入了特定的樣本或算法，以避免討論特定的人名。雖然后續(xù)的一系列測試表明，這種限制似乎只存在于 ChatGPT 產(chǎn)品中，通過 OpenAI 對外提供的模型接口并不會觸發(fā)這樣的屏蔽機(jī)制。

OpenAI 在隨后周二（12 月 3 日）立即確認(rèn) “David Mayer” 這個名字已經(jīng)被內(nèi)部隱私工具標(biāo)記，其在一份聲明中說：“可能有些情況下，ChatGPT 不提供關(guān)于人們的某些信息，以保護(hù)他們的隱私?！?公司不會提供有關(guān)工具或流程的更多細(xì)節(jié)。

無論真實(shí)的原因是什么，這個事件是一個反例，其顯示了封閉的系統(tǒng)以及中心化的模型提供者所具備的風(fēng)險(xiǎn)，也說明了不透明的處理環(huán)節(jié)對模型的輸出結(jié)果帶來更多的不確定性。類似的拒絕服務(wù)也是在模型服務(wù)過程中表現(xiàn)出來的另外一種偏見（Bias）行為，而偏見也是目前所有模型都在極力避免的情形，要進(jìn)一步解決這個問題，使用更加開放的數(shù)據(jù)集和算法是一種更負(fù)責(zé)任的做法。

種種事件的發(fā)生并不是壞事，這是所有技術(shù)在發(fā)展過程中接受實(shí)踐檢驗(yàn)的必經(jīng)之路，通過種種嘗試和反饋，目前對于開源數(shù)據(jù)集和算法的呼聲正在越來越高漲。

除了對于訓(xùn)練集和算法的開源之外，對于模型的 “開源” 定義也經(jīng)受著各種議論。筆者比較認(rèn)同的觀點(diǎn)是：開源模型不應(yīng)該只把模型文件公布出來，同時應(yīng)該把對應(yīng)的訓(xùn)練集和算法進(jìn)行公開，并能夠提供相應(yīng)的訓(xùn)練流程，是所有人能夠?qū)Y(jié)果進(jìn)行重現(xiàn)。這好比我們討論開源項(xiàng)目的時候，通常不會指我們只能夠下載某個應(yīng)用程序，而是我們能夠查看源碼，甚至通過修改源碼編譯出自己想要的應(yīng)用程序。

在今年 10 月 29 日，開放源代碼促進(jìn)會（Open Source Initiative，OSI）發(fā)布了關(guān)于 “開源 AI 定義（OSAID）”1.0 版本，其規(guī)定了 AI 大模型若要被視為開源必須具備三個三個：訓(xùn)練數(shù)據(jù)透明性、完整代碼、模型參數(shù)。雖然對比目前市面上的 “開源模型”，少有能力較高的模型能完全符合，但這種聲明本身就是一種開源開放態(tài)度的彰顯。

我相信，在更加透明的數(shù)據(jù)集和算法的支持下，模型將在可控性上獲得更好的發(fā)展機(jī)遇，相關(guān)的技術(shù)社區(qū)也將迎來更大的發(fā)展。

挑戰(zhàn)

當(dāng)然，大模型訓(xùn)練中的開源數(shù)據(jù)和算法也伴隨著一定的風(fēng)險(xiǎn)和挑戰(zhàn)，這些風(fēng)險(xiǎn)需要在模型開發(fā)和應(yīng)用的過程中被認(rèn)真對待和解決。例如前文提到的 “偏見” 問題，以及數(shù)據(jù)質(zhì)量問題，可能是最顯著的風(fēng)險(xiǎn)。由于開源數(shù)據(jù)集質(zhì)量參差不齊，雖然一些廣泛使用的數(shù)據(jù)集如開頭介紹的 ImageNet 和 COCO 被認(rèn)為是高質(zhì)量的數(shù)據(jù)集，但其他開源數(shù)據(jù)集可能包含噪聲、錯誤標(biāo)簽和不完整的信息。這種數(shù)據(jù)質(zhì)量問題會直接影響模型的訓(xùn)練效果，導(dǎo)致模型性能的下降，甚至可能產(chǎn)生錯誤的預(yù)測結(jié)果。

除此以外，在 GPT 爆火之后，由于相關(guān)法律和政策的滯后，已經(jīng)有大量大模型生成的文字、圖像、視頻、音頻內(nèi)容被發(fā)布于互聯(lián)網(wǎng)，當(dāng)這些內(nèi)容再次被作為開放數(shù)據(jù)被采集，并再次進(jìn)行訓(xùn)練，可能會帶來更大的數(shù)據(jù)質(zhì)量問題。因此，筆者認(rèn)為對 AI 生成的觀點(diǎn)進(jìn)行標(biāo)注再發(fā)布是一種更加負(fù)責(zé)任的做法，當(dāng)然，在實(shí)際操作過程中，要實(shí)現(xiàn)仍然有極大的難度。

開源數(shù)據(jù)集的版權(quán)問題也是一個需要重視的風(fēng)險(xiǎn)。盡管開源數(shù)據(jù)集通常是公開的，但其使用仍然受版權(quán)法的約束。未經(jīng)授權(quán)使用受版權(quán)保護(hù)的數(shù)據(jù)，可能會導(dǎo)致法律糾紛。此外，某些數(shù)據(jù)集可能包含敏感信息，涉及個人隱私甚至危害公共安全。

在使用這些數(shù)據(jù)時，必須遵守相關(guān)的隱私保護(hù)法規(guī)，如歐盟的《通用數(shù)據(jù)保護(hù)條例》（GDPR）和美國的《健康保險(xiǎn)可攜性和責(zé)任法案》（HIPAA）。在實(shí)際操作過程中，出于成本、工藝、能力、時間的制約，數(shù)據(jù)集的篩選和正確使用仍然將會是一個持久的挑戰(zhàn)。對于這個問題，閉源的數(shù)據(jù)集以及方法并不是不存在，只是更加隱蔽了。

也可能會有人擔(dān)心，所有的數(shù)據(jù)集和算法開放后，模型是否會面臨更多被操控的風(fēng)險(xiǎn)？筆者認(rèn)為，這確實(shí)是一個很大的問題，例如模型可能會更容易被 “越獄”，從而被操控或輸出原本不應(yīng)輸出的內(nèi)容，這是一個需要尤其重點(diǎn)關(guān)注的風(fēng)險(xiǎn)點(diǎn)。

在應(yīng)對策略方面，這場攻防戰(zhàn)的 “藍(lán)方” 同時也獲得了更多的信息，可以再次加固相關(guān)能力，在這個過程中，模型得以進(jìn)行更加充沛的發(fā)展，就如同當(dāng)下的互聯(lián)網(wǎng)一樣。只有黑暗才能隱藏更多風(fēng)險(xiǎn)尤其中心化的控制風(fēng)險(xiǎn)，只有讓核心數(shù)據(jù)和算法經(jīng)受陽光的洗禮，并在所有人的監(jiān)督下不斷完善，才能讓模型在更多場景中被更深入地使用（即便如此，訓(xùn)練完的模型本身對人類來說也仍然是一個 “黑盒”）。目前我們已經(jīng)看到的大量開源的模型在各行各業(yè)中展現(xiàn)出強(qiáng)大的生命力和生產(chǎn)力，相關(guān)的開源社區(qū)也正在迎來新的繁榮期，長期來看，大模型將繼續(xù)在各種風(fēng)險(xiǎn)、機(jī)遇、挑戰(zhàn)、倫理等復(fù)雜環(huán)境中不斷發(fā)展。

結(jié)論

開源數(shù)據(jù)和算法在大模型訓(xùn)練中的重要性不言而喻，它們?yōu)?AI 研究和應(yīng)用帶來了前所未有的機(jī)遇。然而，這些機(jī)遇也伴隨著一定的風(fēng)險(xiǎn)和挑戰(zhàn)，需要在模型開發(fā)和應(yīng)用的過程中被認(rèn)真對待和解決。通過采取適當(dāng)?shù)膽?yīng)對策略，我們可以在充分利用開源數(shù)據(jù)和算法的同時，盡量減少其潛在的風(fēng)險(xiǎn)，推動 AI 技術(shù)的健康發(fā)展。

相信在未來，隨著技術(shù)的不斷進(jìn)步和相關(guān)政策的完善，開源數(shù)據(jù)和算法將在大模型訓(xùn)練中發(fā)揮更加重要的作用，為 AI 及大模型的研究和應(yīng)用帶來更多的創(chuàng)新和機(jī)遇。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

算法

算法

+關(guān)注

關(guān)注
23

文章
4710

瀏覽量
95376
開源

開源

+關(guān)注

關(guān)注
3

文章
3688

瀏覽量
43826
大模型

大模型

+關(guān)注

關(guān)注
2

文章
3141

瀏覽量
4066

原文標(biāo)題：大模型訓(xùn)練中的開源數(shù)據(jù)和算法：機(jī)遇及挑戰(zhàn)

文章出處：【微信號：OSC開源社區(qū)，微信公眾號：OSC開源社區(qū)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

大模型訓(xùn)練:開源數(shù)據(jù)與算法的機(jī)遇與挑戰(zhàn)分析

評論