一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度學(xué)習(xí)Pytorch翻車記錄:單卡改多卡踩坑記

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:喲林小平 ? 2021-01-18 17:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

先說明一下背景,目前正在魔改以下這篇論文的代碼:

https://github.com/QipengGuo/GraphWriter-DGLgithub.com

由于每次完成實(shí)驗(yàn)需要5個(gè)小時(shí)(baseline),自己的模型需要更久(2倍),非常不利于調(diào)參和發(fā)現(xiàn)問題,所以開始嘗試使用多卡加速。

torch.nn.DataParallel ==> 簡稱 DP

torch.nn.parallel.DistributedDataParallel ==> 簡稱DDP

一開始采用dp試圖加速,結(jié)果因?yàn)閐gl的實(shí)現(xiàn)(每個(gè)batch的點(diǎn)都會(huì)打包進(jìn)一個(gè)batch,從而不可分割),而torch.nn.DataParallel的實(shí)現(xiàn)是把一個(gè)batch切分成更小,再加上他的加速性能也不如ddp,所以我開始嘗試魔改成ddp。

另外,作者在實(shí)現(xiàn)Sampler的時(shí)候是繼承了torch.utils.data.Sampler這個(gè)類的,目的在于agenda數(shù)據(jù)集的文本長度嚴(yán)重不均衡,如下:

68176276-58b2-11eb-8b86-12bb97331649.jpg

為了讓模型更快train完,把長度相近的文本打包成一個(gè)batch(溫馨提醒,torchtext也有相關(guān)的類 bucketiterator[1],大概形式如下:

class BucketSampler(torch.utils.data.Sampler):
    def __init__(self, data_source, batch_size=32):
        self.data_source = data_source
        self.batch_size = batch_size 

    def __iter__(self):
        idxs, lens, batch, middle_batch_size, long_batch_size = basesampler(self.data_source , self.batch_size)
        for idx in idxs:
            batch.append(idx)
            mlen = max([0]+[lens[x] for x in batch])
            #if (mlen<100 and len(batch) == 32) or (mlen>100 and mlen<220 and len(batch) >= 24) or (mlen>220 and len(batch)>=8) or len(batch)==32:
            if (mlen<100 and len(batch) == self.batch_size) or (mlen>100 and mlen<220 and len(batch) >= middle_batch_size) or (mlen>220 and len(batch)>=long_batch_size) or len(batch)==self.batch_size:
                yield batch
                batch = []
        if len(batch) > 0:
            yield batch

    def __len__(self):
        return (len(self.data_source)+self.batch_size-1)//self.batch_size

這是背景。

寫bug第一步:繼承DistributedSampler的漏洞百出

我一開始理想當(dāng)然的把作者的sampler源碼crtl-cv下來,唯獨(dú)只改動(dòng)了這里:

class DDPBaseBucketSampler(torch.utils.data.distributed.DistributedSampler):

隨后就發(fā)現(xiàn)了幾個(gè)問題:

  • dataloader不會(huì)發(fā)包;
  • dataloader給每個(gè)進(jìn)程發(fā)的是完整的數(shù)據(jù),按武德來說,應(yīng)該是1/n的數(shù)據(jù),n為你設(shè)置的gpu數(shù)量;

然后我就開始看起了源碼[2],很快?。?/p>

 def __iter__(self) -> Iterator[T_co]:
        if self.shuffle:
            # deterministically shuffle based on epoch and seed
            g = torch.Generator()
            g.manual_seed(self.seed + self.epoch)
            indices = torch.randperm(len(self.dataset), generator=g).tolist()  # type: ignore
        else:
            indices = list(range(len(self.dataset)))  # type: ignore

        if not self.drop_last:
            # add extra samples to make it evenly divisible
            padding_size = self.total_size - len(indices)
            if padding_size <= len(indices):
                indices += indices[:padding_size]
            else:
                indices += (indices * math.ceil(padding_size / len(indices)))[:padding_size]
        else:
            # remove tail of data to make it evenly divisible.
            indices = indices[:self.total_size]
        assert len(indices) == self.total_size

        # subsample
        indices = indices[self.rankself.num_replicas] # 這一步保證每個(gè)進(jìn)程拿到的數(shù)據(jù)不同
        assert len(indices) == self.num_samples

        return iter(indices)

這里最關(guān)鍵的問題是是什么呢?首先在torch.utils.data.distributed.DistributedSampler里面,數(shù)據(jù)集的變量叫self.dataset而不是data_source;其次和torch.utils.data.Sampler要求你_重寫__iter__函數(shù)不同:

def __iter__(self) -> Iterator[T_co]:
        raise NotImplementedError

DistributedSampler這個(gè)父類里有部分實(shí)現(xiàn),如果你沒有考慮到這部分,就自然會(huì)出現(xiàn)每個(gè)進(jìn)程拿到的數(shù)據(jù)都是all的情況。

于是我重寫了我的DDPBaseBucketSampler類:

def basesampler(lens, indices, batch_size):
    # the magic number comes from the author's code
    t1 = []
    t2 = []
    t3 = []
    for i, l in enumerate(lens):
        if (l<100):
            t1.append(indices[i])
        elif (l>100 and l<220):
            t2.append(indices[i])
        else:
            t3.append(indices[i])
    datas = [t1,t2,t3]
    random.shuffle(datas)
    idxs = sum(datas, [])
    batch = []

    #為了保證不爆卡,我們給不同長度的數(shù)據(jù)上保護(hù)鎖
    middle_batch_size = min(int(batch_size * 0.75) , 32)
    long_batch_size = min(int(batch_size * 0.5) , 24)

    return idxs, batch, middle_batch_size, long_batch_size

class DDPBaseBucketSampler(torch.utils.data.distributed.DistributedSampler):
    '''
    這里要注意和單GPU的sampler類同步
    '''
    def __init__(self, dataset, num_replicas, rank, shuffle=True, batch_size=32):
        super(DDPBaseBucketSampler, self).__init__(dataset, num_replicas, rank, shuffle)
        self.batch_size = batch_size

    def __iter__(self):
        # deterministically shuffle based on epoch
        g = torch.Generator()
        g.manual_seed(self.epoch)
        #print('here is pytorch code and you can delete it in the /home/lzk/anaconda3/lib/python3.7/site-packages/torch/utils/data')
        if self.shuffle:
            indices = torch.randperm(len(self.dataset), generator=g).tolist()
        else:
            indices = list(range(len(self.dataset)))
        # add extra samples to make it evenly divisible
        indices += indices[:(self.total_size - len(indices))]
        assert len(indices) == self.total_size

        indices = indices[self.rankself.num_replicas]
        assert len(indices) == self.num_samples

        # 然后我也要拿到每個(gè)數(shù)據(jù)的長度 (每個(gè)rank不同)
        lens = torch.Tensor([len(x) for x in self.dataset])

        idxs, batch, middle_batch_size, long_batch_size = basesampler(lens[indices], indices, self.batch_size)
        
        for idx in idxs:
            batch.append(idx)
            mlen = max([0]+[lens[x] for x in batch])
            #if (mlen<100 and len(batch) == 32) or (mlen>100 and mlen<220 and len(batch) >= 24) or (mlen>220 and len(batch)>=8) or len(batch)==32:
            if (mlen<100 and len(batch) == self.batch_size) or (mlen>100 and mlen<220 and len(batch) >= middle_batch_size) or (mlen>220 and len(batch)>=long_batch_size) or len(batch)==self.batch_size:
                yield batch
                batch = []
        # print('應(yīng)該出現(xiàn)2次如果是2個(gè)進(jìn)程的話')
        if len(batch) > 0:
            yield batch

    def __len__(self):
        return (len(self.dataset)+self.batch_size-1)//self.batch_size

后面每個(gè)進(jìn)程終于可以跑屬于自己的數(shù)據(jù)了(1/n,n=進(jìn)程數(shù)量=GPU數(shù)量,單機(jī))

緊接著問題又來了,我發(fā)現(xiàn)訓(xùn)練過程正常結(jié)束后,主進(jìn)程無法退出mp.spawn()函數(shù)。

寫bug第二步,master進(jìn)程無法正常結(jié)束

number workers ddp pytorch下無法正常結(jié)束。具體表現(xiàn)為,mp.spawn傳遞的函數(shù)參數(shù)可以順利運(yùn)行完,但是master進(jìn)程一直占著卡,不退出。一開始我懷疑是sampler函數(shù)的分發(fā)batch的機(jī)制導(dǎo)致的,什么意思呢?就是由于每個(gè)進(jìn)程拿到的數(shù)據(jù)不一樣,各自進(jìn)程執(zhí)行sampler類的時(shí)候,由于我規(guī)定了長度接近的文本打包在一起,所以可能master進(jìn)程有一百個(gè)iter,slave只有80個(gè),然后我馬上試了一下,很快?。?/p>

68655972-58b2-11eb-8b86-12bb97331649.jpg

▲DDPBucketSampler(torch.utils.data.distributed.DistributedSampler)類迭代函數(shù)__iter__

6897a242-58b2-11eb-8b86-12bb97331649.jpg

▲都能夠正常打印,證明__iter__函數(shù)沒有問題

發(fā)現(xiàn)只有細(xì)微的差別,并且,程序最后都越過了這些print,應(yīng)該不會(huì)是batch數(shù)量不一致導(dǎo)致的問題。(順便指的一提的是,sampler在很早的時(shí)候就把batch打包好了)

加了摧毀進(jìn)程,也于事無補(bǔ)

if args.is_ddp:
     dist.destroy_process_group()
     print('rank destroy_process_group: ' , rank)

然后只能點(diǎn)擊強(qiáng)制退出

File "train.py", line 322, in 
    main(args.gpu, args)
  File "/home/lzk/anaconda3/lib/python3.7/site-packages/torch/multiprocessing/spawn.py", line 171, in spawn
    while not spawn_context.join():
  File "/home/lzk/anaconda3/lib/python3.7/site-packages/torch/multiprocessing/spawn.py", line 77, in join
    timeout=timeout,
  File "/home/lzk/anaconda3/lib/python3.7/multiprocessing/connection.py", line 920, in wait
    ready = selector.select(timeout)
  File "/home/lzk/anaconda3/lib/python3.7/selectors.py", line 415, in select
    fd_event_list = self._selector.poll(timeout)
TypeError: keyboard_interrupt_handler() takes 1 positional argument but 2 were given
^CError in atexit._run_exitfuncs:
Traceback (most recent call last):
  File "/home/lzk/anaconda3/lib/python3.7/multiprocessing/popen_fork.py", line 28, in poll
    pid, sts = os.waitpid(self.pid, flag)
TypeError: keyboard_interrupt_handler() takes 1 positional argument but 2 were given

代碼參考:基于Python初探Linux下的僵尸進(jìn)程和孤兒進(jìn)程(三)[3]、Multiprocessing in python blocked[4]

很顯然是pytorch master進(jìn)程產(chǎn)生死鎖了,變成了僵尸進(jìn)程。

再探究,發(fā)現(xiàn)當(dāng)我把dataloader的number workers設(shè)為0的時(shí)候,程序可以正常結(jié)束。經(jīng)過我的注釋大法后我發(fā)現(xiàn),哪怕我把for _i , batch in enumerate(dataloader)內(nèi)的代碼全部注釋改為pass,程序還是會(huì)出現(xiàn)master無法正常結(jié)束的情況。所以問題鎖定在dataloader身上。參考:nero:PyTorch DataLoader初探[5]

另外一種想法是,mp.spawn出現(xiàn)了問題。使用此方式啟動(dòng)的進(jìn)程,只會(huì)執(zhí)行和 target 參數(shù)或者 run() 方法相關(guān)的代碼。Windows 平臺(tái)只能使用此方法,事實(shí)上該平臺(tái)默認(rèn)使用的也是該啟動(dòng)方式。相比其他兩種方式,此方式啟動(dòng)進(jìn)程的效率最低。參考:Python設(shè)置進(jìn)程啟動(dòng)的3種方式[6]

現(xiàn)在試一下,繞開mp.spawn函數(shù),用shell腳本實(shí)現(xiàn)ddp,能不能不報(bào)錯(cuò):

python -m torch.distributed.launch --nproc_per_node=2 --nnodes=1 --node_rank=0 --master_addr="192.168.1.201" --master_port=23456 我的文件.py

參數(shù)解釋:

  • nnodes:因?yàn)槭菃螜C(jī)多卡,所以設(shè)為1,顯然node_rank 只能是0了
  • local_rank:進(jìn)程在運(yùn)行的時(shí)候,會(huì)利用args插入local_rank這個(gè)參數(shù)標(biāo)識(shí)進(jìn)程序號(hào)

一番改動(dòng)后,發(fā)現(xiàn)問題有所好轉(zhuǎn),最直觀的感受是速度快了非常多??!現(xiàn)在我沒有父進(jìn)程的問題了,但還是在運(yùn)行完所有的程序后,無法正常結(jié)束:

68c16578-58b2-11eb-8b86-12bb97331649.jpg

此時(shí)我的代碼運(yùn)行到:

692dbfc0-58b2-11eb-8b86-12bb97331649.jpg

上面的代碼是main函數(shù),2個(gè)進(jìn)程(master,salve)都可以越過barrier,其中slave順利結(jié)束,但是master卻遲遲不見蹤影:

6968adba-58b2-11eb-8b86-12bb97331649.jpg

這個(gè)時(shí)候ctrl+c終止,發(fā)現(xiàn):

69a049e6-58b2-11eb-8b86-12bb97331649.jpg

順著報(bào)錯(cuò)路徑去torch/distributed/launch.py, line 239找代碼:

def main():
    args = parse_args()

    # world size in terms of number of processes
    dist_world_size = args.nproc_per_node * args.nnodes

    # set PyTorch distributed related environmental variables
    current_env = os.environ.copy()
    current_env["MASTER_ADDR"] = args.master_addr
    current_env["MASTER_PORT"] = str(args.master_port)
    current_env["WORLD_SIZE"] = str(dist_world_size)

    processes = []

    if 'OMP_NUM_THREADS' not in os.environ and args.nproc_per_node > 1:
        current_env["OMP_NUM_THREADS"] = str(1)
        print("*****************************************
"
              "Setting OMP_NUM_THREADS environment variable for each process "
              "to be {} in default, to avoid your system being overloaded, "
              "please further tune the variable for optimal performance in "
              "your application as needed. 
"
              "*****************************************".format(current_env["OMP_NUM_THREADS"]))

    for local_rank in range(0, args.nproc_per_node):
        # each process's rank
        dist_rank = args.nproc_per_node * args.node_rank + local_rank
        current_env["RANK"] = str(dist_rank)
        current_env["LOCAL_RANK"] = str(local_rank)

        # spawn the processes
        if args.use_env:
            cmd = [sys.executable, "-u",
                   args.training_script] + args.training_script_args
        else:
            cmd = [sys.executable,
                   "-u",
                   args.training_script,
                   "--local_rank={}".format(local_rank)] + args.training_script_args

        process = subprocess.Popen(cmd, env=current_env)
        processes.append(process)

    for process in processes:
        process.wait() # 等待運(yùn)行結(jié)束
        if process.returncode != 0:
            raise subprocess.CalledProcessError(returncode=process.returncode,
                                                cmd=cmd)

可惡,master和dataloader到底有什么關(guān)系哇。。

這個(gè)問題終于在昨天(2020/12/22)被解決了,說來也好笑,左手是graphwriter的ddp實(shí)現(xiàn),無法正常退出,右手是minst的ddp最小例程,可以正常退出,于是我開始了刪減大法。替換了數(shù)據(jù)集,model,然后讓dataloader空轉(zhuǎn),都沒有發(fā)現(xiàn)問題,最后一步步逼近,知道我把自己的代碼這一行注釋掉以后,終于可以正常結(jié)束了:

def main(args):
    ############################################################
    print('local_rank : ' , args.local_rank )
    if args.is_ddp:
        dist.init_process_group(
        backend='nccl',
       init_method='env://',
        world_size=args.world_size,
        rank=args.local_rank
        )
    ############################################################
    # torch.multiprocessing.set_sharing_strategy('file_system')  萬惡之源

    os.environ["CUDA_VISIBLE_DEVICES"] = os.environ["CUDA_VISIBLE_DEVICES"].split(',')[args.local_rank]
    args.device = torch.device(0) 
    ...

為什么我當(dāng)時(shí)會(huì)加上這句話呢?因?yàn)楫?dāng)時(shí)在調(diào)試number worker的時(shí)候(當(dāng)時(shí)年輕,以為越大越好,所以設(shè)置成了number workers = cpu.count()),發(fā)現(xiàn)系統(tǒng)報(bào)錯(cuò),說超出了打開文件的最大數(shù)量限制。在torch.multiprocessing的設(shè)定里,共享策略(參考pytorch中文文檔[7])默認(rèn)是File descriptor,此策略將使用文件描述符作為共享內(nèi)存句柄。當(dāng)存儲(chǔ)被移動(dòng)到共享內(nèi)存中,一個(gè)由shm_open獲得的文件描述符被緩存。當(dāng)時(shí),文檔還提到:

如果你的系統(tǒng)對(duì)打開的文件描述符數(shù)量有限制,并且無法提高,你應(yīng)該使用file_system策略。

所以我換成了torch.multiprocessing.set_sharing_strategy('file_system'),但是卻忽略文檔里的共享內(nèi)存泄露警告。顯然,或許這不是嚴(yán)重的問題,文檔里提到:

69eb6b92-58b2-11eb-8b86-12bb97331649.jpg

也有可能我所說的master進(jìn)程就是這個(gè)torch_shm_manager,因?yàn)閐estory進(jìn)程組始終無法結(jié)束0號(hào)進(jìn)程:

6a35e19a-58b2-11eb-8b86-12bb97331649.jpg

這個(gè)BUG結(jié)束了,真開心,期待下一個(gè)BUG快快到來。

責(zé)任編輯:xj

原文標(biāo)題:Pytorch翻車記錄:單卡改多卡踩坑記!

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8503

    瀏覽量

    134612
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5561

    瀏覽量

    122794
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    809

    瀏覽量

    13960

原文標(biāo)題:Pytorch翻車記錄:單卡改多卡踩坑記!

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    PLC工業(yè)智能網(wǎng)關(guān):功能解析、場景落地與選型避攻略

    如何避免選型?本文從技術(shù)原理、核心價(jià)值、典型場景、避指南四大維度,結(jié)合真實(shí)案例與行業(yè)趨勢,為您徹底拆解PLC工業(yè)智能網(wǎng)關(guān)的“真面目”。
    的頭像 發(fā)表于 07-16 13:21 ?18次閱讀
    PLC工業(yè)智能網(wǎng)關(guān):功能解析、場景落地與選型避<b class='flag-5'>坑</b>攻略

    使用Word/Excel管理需求的10個(gè)痛點(diǎn)及解決方案Perforce ALM

    還在用Word/Excel做需求管理?10個(gè)“翻車信號(hào)”,都是小伙伴們過的~來看看你過哪些?是不是也該升級(jí)到更專業(yè)的ALM工具了~
    的頭像 發(fā)表于 07-10 15:59 ?134次閱讀
    使用Word/Excel管理需求的10個(gè)痛點(diǎn)及解決方案Perforce ALM

    當(dāng)CCLink IE遇上DeviceNet,數(shù)據(jù)記錄儀秒變\"卷王\"?

    \"協(xié)議不兼容\"\"數(shù)據(jù)延遲\"痛點(diǎn)。對(duì)工程師來說,不用硬件、不啃協(xié)議文檔,用網(wǎng)關(guān)讓記錄儀\"自動(dòng)卷\"——現(xiàn)場少,才有空研究真·效率秘籍,這是打工人的終極浪漫。
    發(fā)表于 06-11 14:48

    HarmonyOS:路由跳轉(zhuǎn)

    背景 ** 隨著華為純血版HarmonyOS NEXT的推出,鴻蒙系統(tǒng)脫離安卓的日子越來越近了。作為車企大廠的我們當(dāng)然要第一時(shí)間學(xué)習(xí)鴻蒙開發(fā),提前做好技術(shù)儲(chǔ)備,為日后鴻蒙應(yīng)用的開發(fā)做好準(zhǔn)備工作。于是
    的頭像 發(fā)表于 06-09 15:29 ?155次閱讀

    利用Arm Kleidi技術(shù)實(shí)現(xiàn)PyTorch優(yōu)化

    PyTorch 是一個(gè)廣泛應(yīng)用的開源機(jī)器學(xué)習(xí) (ML) 庫。近年來,Arm 與合作伙伴通力協(xié)作,持續(xù)改進(jìn) PyTorch 的推理性能。本文將詳細(xì)介紹如何利用 Arm Kleidi 技術(shù)提升 Arm
    的頭像 發(fā)表于 12-23 09:19 ?1058次閱讀
    利用Arm Kleidi技術(shù)實(shí)現(xiàn)<b class='flag-5'>PyTorch</b>優(yōu)化

    PyTorch 2.5.1: Bugs修復(fù)版發(fā)布

    ? 一,前言 在深度學(xué)習(xí)框架的不斷迭代中,PyTorch 社區(qū)始終致力于提供更穩(wěn)定、更高效的工具。最近,PyTorch 2.5.1 版本正式發(fā)布,這個(gè)版本主要針對(duì) 2.5.0 中發(fā)現(xiàn)的
    的頭像 發(fā)表于 12-03 16:11 ?1618次閱讀
    <b class='flag-5'>PyTorch</b> 2.5.1: Bugs修復(fù)版發(fā)布

    ADC高速采樣電路設(shè)計(jì)詳解之STM32

    一、過程 最近用STM32F334做數(shù)字電源,用到了高速ADC采集電壓電流。設(shè)計(jì)的參考電壓VREF為3.3V,輸入信號(hào)經(jīng)運(yùn)放跟隨后直接接入單片機(jī)的采樣通道。一開始測試一切正常,但隨著輸入信號(hào)
    的頭像 發(fā)表于 12-02 09:27 ?2876次閱讀
    ADC高速采樣電路設(shè)計(jì)詳解之STM32<b class='flag-5'>踩</b><b class='flag-5'>坑</b>

    4G模組SD接口編程:深度學(xué)習(xí)

    今天我們需要深度學(xué)習(xí)的是4G模組SD接口編程,以我常用的模組Air724UG為例,分享給大家。
    的頭像 發(fā)表于 11-20 23:14 ?692次閱讀
    4G模組SD<b class='flag-5'>卡</b>接口編程:<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>

    學(xué)習(xí)go語言的過程過的

    作為一個(gè)5年的phper,這兩年公司和個(gè)人都在順應(yīng)技術(shù)趨勢,新項(xiàng)目慢慢從php轉(zhuǎn)向了go語言,從2021年到現(xiàn)在,筆者手上也先后開發(fā)了兩個(gè)go項(xiàng)目。在學(xué)習(xí)go語言的過程中也學(xué)習(xí)并總結(jié)了一些相關(guān)的東西,這篇文章就分享下自己過的一
    的頭像 發(fā)表于 11-11 09:22 ?471次閱讀

    PyTorch 數(shù)據(jù)加載與處理方法

    PyTorch 是一個(gè)流行的開源機(jī)器學(xué)習(xí)庫,它提供了強(qiáng)大的工具來構(gòu)建和訓(xùn)練深度學(xué)習(xí)模型。在構(gòu)建模型之前,一個(gè)重要的步驟是加載和處理數(shù)據(jù)。 1. Py
    的頭像 發(fā)表于 11-05 17:37 ?931次閱讀

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是一種機(jī)器學(xué)習(xí)方法,它通過與環(huán)境的交互來學(xué)習(xí)如何做出決策,以最大化累積獎(jiǎng)勵(lì)。PyTorch 是一個(gè)流行的開源機(jī)器
    的頭像 發(fā)表于 11-05 17:34 ?1042次閱讀

    Pytorch深度學(xué)習(xí)訓(xùn)練的方法

    掌握這 17 種方法,用最省力的方式,加速你的 Pytorch 深度學(xué)習(xí)訓(xùn)練。
    的頭像 發(fā)表于 10-28 14:05 ?656次閱讀
    <b class='flag-5'>Pytorch</b><b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>訓(xùn)練的方法

    pytorch怎么在pycharm中運(yùn)行

    第一部分:PyTorch和PyCharm的安裝 1.1 安裝PyTorch PyTorch是一個(gè)開源的機(jī)器學(xué)習(xí)庫,用于構(gòu)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò)。要在PyCharm中使用
    的頭像 發(fā)表于 08-01 16:22 ?2536次閱讀

    pytorch環(huán)境搭建詳細(xì)步驟

    PyTorch作為一個(gè)廣泛使用的深度學(xué)習(xí)框架,其環(huán)境搭建對(duì)于從事機(jī)器學(xué)習(xí)深度學(xué)習(xí)研究及開發(fā)的人
    的頭像 發(fā)表于 08-01 15:38 ?1869次閱讀

    pytorch和python的關(guān)系是什么

    PyTorch已經(jīng)成為了一個(gè)非常受歡迎的框架。本文將介紹PyTorch和Python之間的關(guān)系,以及它們在深度學(xué)習(xí)領(lǐng)域的應(yīng)用。 Python簡介 Python是一種高級(jí)、解釋型、通用
    的頭像 發(fā)表于 08-01 15:27 ?3282次閱讀