大模型Reward Model的trick應(yīng)用技巧

引入

在大家搞RLHF中經(jīng)常遇到的一個核心的問題是，RM的水平不夠好沒法訓(xùn)練得到想要的效果，其背后兩大類基本的原因是：1.數(shù)據(jù)質(zhì)量低。2.模型泛化能力差。

復(fù)旦MOSS這篇技術(shù)報告，從這兩個問題入手，提出了一系列方法優(yōu)化和提升。

核心問題

展開來講的話，關(guān)于1.數(shù)據(jù)質(zhì)量低 2.模型泛化能力差這兩個問題具體指的是：

一、數(shù)據(jù)質(zhì)量低：數(shù)據(jù)集中的錯誤和模糊的偏好對(pairs)，可能導(dǎo)致獎勵模型（RM）無法準確捕捉人類的偏好。你通過數(shù)據(jù)透傳給你的模型，一會兒向左，一會兒向右，模型也要學(xué)懵。

二、泛化能力差：獎勵模型在特定分布上訓(xùn)練后，很難泛化到該分布之外的例子，且不適合迭代式的RLHF訓(xùn)練（提升RLHF的重要路徑之一）。你的模型訓(xùn)練得到了一個二極管，對于自己相信的東西表現(xiàn)的非常極端，對于沒見過的東西就傻眼了。

針對這兩類問題，作者提出了兩個視角的方法，分別從數(shù)據(jù)角度和算法角度出發(fā)。

一、數(shù)據(jù)角度：使用多個獎勵模型的輸出，增加數(shù)據(jù)度量的信息源，用這種方法來量化數(shù)據(jù)中偏好的強度信息，并通過這種方法來識別和糾正錯誤或模糊的偏好對。對于不同質(zhì)量水平，模糊度水平的數(shù)據(jù)，采取了不一樣的措施，有翻轉(zhuǎn)，軟標簽，適應(yīng)性margin等具體方法，后面具體展開講解。

二、算法角度：借助對比學(xué)習和元學(xué)習的方法。增加對比學(xué)習的loss，對比學(xué)習通過增強模型區(qū)分能力，來增強RM的對好壞的區(qū)分水平。元學(xué)習則使獎勵模型能夠維持區(qū)分分布外樣本的細微差異，這種方法可以用于迭代式的RLHF優(yōu)化。

數(shù)據(jù)視角

在論文中，"Measuring the Strength of Preferences"（測量偏好強度）部分提出了一種基于多獎勵模型投票的方法來量化數(shù)據(jù)中偏好的強度。這種方法的具體步驟如下：

1.訓(xùn)練多個獎勵模型：使用相同的偏好數(shù)據(jù)集，隨機化訓(xùn)練順序，訓(xùn)練多個獎勵模型。這些模型可以是相同的結(jié)構(gòu)，但初始化權(quán)重不同，以增加多樣性。

2.計算偏好強度：對于每一個pair，例如，兩個由SFT模型生成的輸出和，使用這些獎勵模型計算每個模型對這兩個輸出的獎勵分數(shù) 和。然后，計算每個比較對的偏好強度，其中是被選擇的輸出，是被拒絕的輸出。

計算平均值和標準差：使用所有獎勵模型的分數(shù)來計算偏好強度的平均值和標準差。這些統(tǒng)計量可以幫助評估偏好的一致性和強度。

分析偏好強度分布：通過觀察偏好強度的平均值和標準差的分布，可以識別出數(shù)據(jù)集中可能存在的錯誤或模糊偏好。例如，如果偏好強度的平均值接近0，可能表明偏好標簽不正確；如果標準差很大，可能表明偏好差異不明顯，模型在這些數(shù)據(jù)上可能不夠魯棒。

作者給了一個分布分析的例子，分別是前面提到的這個度量的均值和方差通過10個模型得到的分布。

可以看出數(shù)據(jù)的區(qū)分性比較強，并且隨著的上升，和GPT4標注結(jié)果的一致性也在上升。

通過如上的方法就可以把數(shù)據(jù)大概分開，我們劃分為3類進行分析。

1.低強度的偏好數(shù)據(jù)的負面影響：研究發(fā)現(xiàn)，數(shù)據(jù)集中偏好強度最低的20%的數(shù)據(jù)對模型在驗證集上的性能有負面影響。這些數(shù)據(jù)的偏好強度平均值小于0，表明這些數(shù)據(jù)可能包含錯誤的偏好標簽。

2.中等強度偏好數(shù)據(jù)的中立影響：偏好強度在20%到40%之間的數(shù)據(jù)，在訓(xùn)練后，模型在驗證集上的預(yù)測準確率大約為0.5。這些數(shù)據(jù)的偏好強度平均值接近0，表明這些數(shù)據(jù)的偏好差異不大，模型在這些數(shù)據(jù)上的學(xué)習效果一般。

3.高強度的偏好數(shù)據(jù)的積極影響：剩余的數(shù)據(jù)（偏好強度最高的60%）顯著提高了模型的性能。然而，僅使用偏好強度最高的10%的數(shù)據(jù)訓(xùn)練模型時，并沒有達到最佳性能。這可能是因為這些數(shù)據(jù)過于強烈，導(dǎo)致模型可能過度擬合這些數(shù)據(jù)。

歸納出偏好強度信息后，我們可以根據(jù)偏好強度的測量結(jié)果，可以對數(shù)據(jù)集進行分類，并對不同類別的數(shù)據(jù)采取不同的處理策略。

對于低強度的偏好數(shù)據(jù)，隱含標簽錯誤的可能性，通過翻轉(zhuǎn)偏好對的標簽可以有效地提高模型性能。對于中強度的，比較模糊的偏好數(shù)據(jù)，應(yīng)用軟標簽和適應(yīng)性邊距可以避免模型過度擬合。對于高強度的偏好數(shù)據(jù)，使用軟標簽和適應(yīng)性邊距的組合特別有效。

具體的三個手段：反轉(zhuǎn)，即為標簽倒置，軟標簽是不使用0和1的hard lable，用度量偏好差異的作為軟標簽，就是來回歸，并且增加了這樣的自適應(yīng)參數(shù)。

adaptive margin

一種讓同類聚集，異類區(qū)分度增大的經(jīng)典方法，來自于人臉識別的經(jīng)典方法。

作者給了這幾種方法的詳細實驗過程：包含了reward，loss，ppl，輸出len等角度的度量。

整體看起來，軟標簽適用在中上強度的偏好數(shù)據(jù)，margin方法在所有強度數(shù)據(jù)都適用。

算法視角

在論文的 "Preference Generalization and Iterated RLHF"（偏好泛化和迭代RLHF）部分，作者們提出了兩種主要的方法來提高獎勵模型（Reward Model, RM）的泛化能力，使其能夠在分布變化的情況下仍然能夠有效地區(qū)分不同的響應(yīng)。具體做法如下：

一、對比學(xué)習（Contrastive Learning）：

選擇正負樣本：在模型上接入對比學(xué)習損失。

形式很簡單，其核心就是如何構(gòu)造對比學(xué)習的學(xué)習方法。有兩種方法：1.直接學(xué)習偏好對（Preference Pairs）的表征，也就是最普通的對比學(xué)習。2.學(xué)習前文提到的偏好差異（Preference Difference），，這種差異本質(zhì)上也是一種對比的度量。

作者選取兩種對比學(xué)習swAV和simcse，交叉了兩種學(xué)習方式，得到了如下的實驗結(jié)果。

二、MetaRM（Meta Reward Model）

提出了一種名為MetaRM的方法，通過元學(xué)習來對齊原始偏好對與分布變化。MetaRM的關(guān)鍵思想是在訓(xùn)練階段最小化原始偏好對的損失，同時最大化對從新分布中采樣的響應(yīng)的區(qū)分能力。

訓(xùn)練過程：MetaRM的訓(xùn)練過程包括四個步驟：計算從新分布中采樣的響應(yīng)的差異損失，計算損失相對于RM參數(shù)的梯度并更新參數(shù)，計算原始偏好對的損失，以及計算損失相對于更新后的參數(shù)的梯度并優(yōu)化原始參數(shù)。

具體，MetaRM 的算法包括以下步驟：

1.從偏好對數(shù)據(jù)集中采樣一個batch 。

2.從元數(shù)據(jù)集中采樣一個batch 。

3.在上計算差異損失。

4.使用元學(xué)習更新獎勵模型的參數(shù) 。

5.在上計算原始損失。

6.使用原始損失的梯度更新獎勵模型的參數(shù) θt。

其優(yōu)化目標是通過最大化差異損失函數(shù) 和最小化原始損失函數(shù) 來訓(xùn)練獎勵模型。這樣，獎勵模型既能學(xué)習到原始偏好對，又能適應(yīng)策略模型輸出分布的變化。

通過這些方法，獎勵模型能夠更好地捕捉數(shù)據(jù)中細微的偏好差異，從而在面對新分布的數(shù)據(jù)時保持其區(qū)分能力。這使得獎勵模型能夠在迭代的RLHF過程中更穩(wěn)定地優(yōu)化語言模型，即使在模型輸出分布發(fā)生變化時也能保持其指導(dǎo)優(yōu)化的能力。

主要實驗結(jié)果如圖所示：MetaRM 在分布內(nèi)和分布外任務(wù)評估中都顯示出了優(yōu)越的性能。在分布內(nèi)任務(wù)中，MetaRM 在多個回合的 PPO 訓(xùn)練后，其性能顯著優(yōu)于基線模型。

另外在OOD上的表現(xiàn)做了單獨的分析,在分布外任務(wù)中，MetaRM 繼續(xù)優(yōu)于基線模型，表明其方法能夠有效地在新領(lǐng)域?qū)崿F(xiàn)對齊，而無需對一組query進行成本高昂的重新標注。

總結(jié)

總結(jié)來說，作者們在報告中提出了一系列方法來解決開頭提到的核心問題，如何增加RM的泛化能力，從數(shù)據(jù)和算法角度，分別提出了兩個問題核心問題和對應(yīng)的解決方法，旨在提高獎勵模型在處理錯誤偏好數(shù)據(jù)和泛化到新分布數(shù)據(jù)時的性能。

審核編輯：黃飛

閱讀全文

二極管(160838) 二極管(160838)
大模型(810) 大模型(810)

拆解大語言模型RLHF中的PPO算法

由于本文以大語言模型 RLHF 的 PPO 算法為主，所以希望你在閱讀前先弄明白大語言模型 RLHF 的前兩步，即 SFT Model 和 Reward Model 的訓(xùn)練過程。另外因為本文不是純講強化學(xué)習的文章，所以我在敘述的時候不會假設(shè)你已經(jīng)非常了解強化學(xué)習了。

2023-12-11 18:30:49

1151

三極管的Pspice模型參數(shù)

三極管的Pspice模型參數(shù) Model <model name> NPN(PNP、LPNP) [model parameters]

2008-05-12 22:23:55

14894

Model3電機是什么

特斯拉的Model S、Model X都采用感應(yīng)電機，而Model 3首次采用嵌入式永磁同步電機，今天我們就通過下面的視頻帶大家了解一下Model 3的心臟。特斯拉加入永磁同步電機陣營

2021-08-26 09:12:51

模型優(yōu)化器中張量流保存模型運行失敗

嗨，我試圖為我的tensorflow保存的模型運行模型優(yōu)化器，但失敗了。以下是我保存的模型。（基數(shù)）D：\ tmp \ export \ 1536028618> saved_model

2018-11-12 14:13:30

模型提取

我試圖在500 MHz的HARBEC中模擬一個放大器電路，但我只有S參數(shù)并且沒有設(shè)備的非線性模型參數(shù)（Agilent AT-41533）。可以從S param中提取這些所需的參數(shù)。數(shù)據(jù)？以上

2018-08-29 16:51:47

模型預(yù)測控制介紹

是model-based。有人會問，我這個系統(tǒng)的模型怎么來呢？我想到兩點解決方法：1. 文獻上去找別人已經(jīng)建好的，公認的模型；2. 首先進行系統(tǒng)辨識，再進行建模。（難度太大，不建議）下面給上經(jīng)...

2021-08-18 06:21:11

BJT GP MODEL 雙極性晶體管模型

為大家奉上GP,multisim對雙極性晶體管模型進行模擬分析是基于GP模型的。

2016-01-16 09:13:21

Cycle Model Studio 9.2版用戶手冊

Cycle Model Studio提供了一個集成環(huán)境，將系統(tǒng)驗證與硬件開發(fā)流程并行。Cycle Model Stu dio中的Cycle Model Compiler采用RTL硬件模型，并創(chuàng)建一個

2023-08-12 06:26:27

HarmonyOS：使用MindSpore Lite引擎進行模型推理

的通用開發(fā)流程中涉及的一些接口，具體請見下列表格。 Context 相關(guān)接口 Model 相關(guān)接口 Tensor 相關(guān)接口開發(fā)步驟使用 MindSpore Lite 進行模型推理的開發(fā)流程

2023-12-14 11:41:13

IBIS 模型

），通過使用IBIS 模型，從而得出interconnect 對于電路的影響。在目前一些使用ibis model 仿真的軟件中，在Cadence 里面，ibis 模型是轉(zhuǎn)換為dml 格式，在

2008-07-30 23:07:19

IC設(shè)計基礎(chǔ)：說說wire load model

微米項目都使用拓撲模式而不是wireload模式？現(xiàn)在還有必要了解wire load model么？其實wire load model是十分經(jīng)典基礎(chǔ)的模型，除了DC，許多EDA工具依然采用這一模型

2018-05-21 18:30:33

ISSI公司的sram verilog model使用

現(xiàn)在正在進行用fpga來讀寫sram的小項目，為了驗證讀寫時序，我特地到ISSI公司官網(wǎng)聯(lián)系他們的技術(shù)人員給我發(fā)來了一個sram芯片的verilog model，我將其加入到我的工程中，然后再將其在

2016-11-07 13:34:16

LogP簡化模型參數(shù)估計

的LogP模型; 參數(shù)模擬; 經(jīng)驗公式; 網(wǎng)絡(luò)通信Abstract The LogP model has more parameters and more complicated

2009-06-17 09:52:21

NNStreamer是否只適用于YOLO5模型？

NNStreamer 演示的視覺管道。我可以看到人員檢測演示工作正常。現(xiàn)在我想使用我自己使用 YOLOV3 創(chuàng)建的模型運行人員檢測我使用 Python 腳本將 my_model.h5 文件轉(zhuǎn)換

2023-05-11 06:28:13

ORCAD 17.0 PSpice Model Editor 模型編輯器無法使用

我在用PSpice Model Editor 模型編輯器來生成OLB文件的時候，軟件顯示了如下的界面，我是在不知道這到底是什么問題，求助各位大神，麻煩幫忙看看！非常感謝！

2016-03-16 22:06:55

PSPICE使用model editor建立二極管模型問題

在PSPICE庫中沒有我需要的二極管型號，我就在datasheet下載了我所需要的二極管型號：快恢復(fù)二極管。在model editor中根據(jù)參數(shù)表建立的我所需要的二極管，建立完才發(fā)現(xiàn)里面的參數(shù)沒有

2018-04-04 09:08:27

PSpice如何利用Model Editor建立模擬用的Model

PSpice 提供Model Editor 建立組件的Model，從組件供貨商那邊拿該組件的Datasheet，透過描點的方式就可以簡單的建立組件的Model，來做電路的模擬。PSpice 如何利用

2009-03-31 11:38:38

TFllite模型的格式簡介

(mnist_model.tflite)，下面分析其格式：方法1： Netron查看tflite模型 Netron 是一款常見的可視化工具，支持網(wǎng)頁查看常見的AI模型，支持非常豐富的格式（ONNX, Tensorflow

2023-08-18 07:01:53

Veristand，創(chuàng)建導(dǎo)入labview模型

輸入輸出端口，注意輸入端口配置時，選擇接線端類型為必須，否則在Veristand中模型無輸入 3) 保存文件 4) 選擇工具》NI Veistand》Generate model from vi 5

2018-08-27 19:43:39

Vl6180x 官方蓋玻片模型的使用

本帖最后由 yppc 于 2019-12-31 12:09 編輯我最近在使用Vl6180x芯片，因為應(yīng)用環(huán)境，我準備增加蓋玻片防塵，我在ST官網(wǎng)上查詢到Vl6180芯片的蓋玻片模型，我想咨詢

2019-12-31 11:41:52

keras順序模型與函數(shù)式模型

model.evaluate(x_valid, y_valid) ? # save model model.save(\'keras_mnist.h5\')由這個例子可見：函數(shù)式API可以搭建順序模型

2023-08-18 06:01:56

labview arima model的模型怎么建立

誰有幾個好一點的簡單例子關(guān)于arima model time series

2013-02-18 17:25:31

labview建立veristand模型

terminals specified as required inputs are model inports, and recommended and optional inputs

2018-07-14 11:02:26

mos模型的迭代計算找不到

您好，我使用的是“IC-CAP”軟件，因此我可以訪問我的MOS晶體管的VerilogA模型。外部電壓和流動電流由IC-CAP存儲。另外，我在每次調(diào)用我的模型時，在一個單獨的文件中保存自己的計算值

2018-12-19 16:29:13

pspice 邏輯門怎么樣修改模型參數(shù)？

請問大家，pspice的邏輯門模型，比如說與門7408，該怎樣修改其參數(shù)？我想修改7408的延遲時間，輸出電平等等，怎么弄？關(guān)于右鍵點擊然后edit pspice model的方法，我試過，只是出來

2014-06-24 10:09:17

pspice模型建立

請教各位大俠，從元器件生產(chǎn)商官網(wǎng)上下載下來的模型后綴為.cir，怎么在模型編輯器pspice model editor下生成.lib和.olb?

2011-08-18 16:45:49

pspice場效應(yīng)管模型如何修改

model后發(fā)現(xiàn)模型的描述看不太懂，不太明白怎么修改，還請達人幫忙啊!模型表述如下：*POLYFET RF DEVICES*FEB 15 1994*PHONE805)484-4210; FAX805

2011-09-06 15:52:54

pytorch模型轉(zhuǎn)換需要注意的事項有哪些？

）。如何得到JIT模型？答：在已有PyTorch的Python模型（基類為torch.nn.Module）的情況下，通過torch.jit.trace得到；traced_model

2023-09-18 08:05:13

【NanoPi K1 Plus試用體驗】深度學(xué)習---快速開始序貫（Sequential）模型

('relu'),Dense(10),Activation('softmax'),])也可以通過.add()方法一個個的將layer加入模型中：model = Sequential()model

2018-07-20 15:55:35

【大聯(lián)大世平Intel?神經(jīng)計算棒NCS2試用體驗】使用Intel模型優(yōu)化器（Model Optimizer）的機器學(xué)習理解和測評思路

由一個xml文件和一個bin文件組成，分別表示網(wǎng)絡(luò)拓撲關(guān)系和加權(quán)數(shù)據(jù)以及偏移量。建立在這個理解的基礎(chǔ)上，ModelOptimizer的開發(fā)分為以下幾個步驟：1 配置模型優(yōu)化器（Model

2020-07-22 22:56:39

【源碼】風力發(fā)電機模型version 2.5.0.0 精選資料分享

本文件包含一個風力發(fā)電機模型。This file contains a wind turbine model.該模型包括塔架、機艙和葉片的三維力學(xué)模型（用Simscape Multibody建模

2021-07-12 06:57:35

為什么沒有模型呢

ERROR(ORPSIM-15113): Model D1N753 used by D_D2 is undefinedERROR(ORPSIM-15113): Model TIS74 used

2013-05-08 09:57:18

為什么量化caffe模型完，模型的input_shape被output_shape替換了？

使用model_transform.py和model_deploy把caffe模型bf16量化成cvimodel，原模型的輸入shape是3*112*112，輸出是2*1*1，量化完測試的時候，輸入shape變成2*1*1了，而用該模型的onnx形式量化成cvimodel就是正常的

2023-09-18 07:19:54

使用MATLAB7.0學(xué)習simulink電機模型仿真設(shè)計

model.You need to add one of the follwing blocks in your ciercuit.”錯誤，下圖所示電機模型仿真設(shè)計如下：在這個電機模型仿真設(shè)計中，

2021-09-06 08:00:25

使用bmpaddle轉(zhuǎn)換模型時應(yīng)該如何參數(shù)填寫方式

,608,609]\" –model參數(shù)到模型所在文件夾那一級；paddle模型有2種：組合式(combined model)和非復(fù)合式(uncombined model)；組合式就是__model

2023-09-19 07:05:28

光伏系統(tǒng)的數(shù)學(xué)模型的Simulink仿真

該仿真模型的主要目標是建立光伏系統(tǒng)的數(shù)學(xué)模型，然后利用MPPT控制器進行MATLAB仿真，以達到最大發(fā)電量。The main objective of this simulation model

2021-11-15 08:51:14

全志V853 在 NPU 轉(zhuǎn)換 YOLO V3 模型

圖片。模型的轉(zhuǎn)換導(dǎo)入模型首先我們導(dǎo)入模型pegasus import darknet --model yolov3.cfg --weights yolov3.weights --output-model

2022-12-19 10:36:26

分布式物模型開發(fā)實戰(zhàn)過程

（例如通過APP等），需要在云端定義IoT設(shè)備的物模型。另一方面，我們知道，在BLE Mesh網(wǎng)絡(luò)中，網(wǎng)關(guān)對子設(shè)備的各種狀態(tài)設(shè)置及狀態(tài)獲取，都是通過既定的mesh model來實現(xiàn)的，網(wǎng)關(guān)和子設(shè)備根據(jù)

2022-03-08 08:53:11

哪里可以找到IBIS模型？

嗨，IBIS型號不適用于此部件號。 L9663-1我在哪里可以找到IBIS模型？我可以使用這個部件號的I / O型號嗎？感謝致敬Arunkumar K. ＃l9663-1以上來自于谷歌翻譯以下為原文

2019-07-19 06:05:56

基于模型設(shè)計（Model-Based Design）在物聯(lián)網(wǎng)中的應(yīng)用

本文討論了基于模型設(shè)計的物聯(lián)網(wǎng)系統(tǒng)中的相關(guān)技術(shù)，包括如何建立物聯(lián)網(wǎng)的模型，圖數(shù)據(jù)庫，時序數(shù)據(jù)庫。如何在物聯(lián)網(wǎng)系統(tǒng)中采納OPC UA 信息模型等問題。

2021-07-02 06:35:58

基于Fast Model的加速器軟件開發(fā)

方法高效地解決加速器配套驅(qū)動，框架，應(yīng)用軟件開發(fā)的問題呢？Fast Model！在Fast Model的例子系統(tǒng)中，arm給出了一系列arm核，相關(guān)IP組合的子系統(tǒng)模型，以及相應(yīng)OS，開發(fā)工具DS-5

2022-07-29 15:38:43

基于OpenGL 的汽車轉(zhuǎn)向三維模型設(shè)計

words】OpenGL; Automobile Steering; Track Model; 3D Model汽車模型設(shè)計有著廣泛的應(yīng)用。汽車電子控制系統(tǒng)如ABS、ESP 等性能測試平臺需要建立

2009-05-17 11:53:23

如何向Advanced Design System導(dǎo)入spice模型？？？

請大神，指導(dǎo)如何向Advanced Design System導(dǎo)入spice模型，spice模型我是在官網(wǎng)下載的spi格式的模型文件，導(dǎo)入后顯示：Netlist Translator

2014-12-14 16:23:18

如何在ADS中添加晶體管的spice模型

大家好，我在ADS非常新，如果有人可以通過我遇到的一些問題幫助我，我真的很感激。我使用ADS中的可用BSIM4_model制作了FlipFlop。我需要將晶體管的模型更改為我已經(jīng)（下載）的spice

2018-11-07 10:28:07

如何在最新版本的Genesys中使用ADS模型？

我正在開發(fā)一個新項目，我需要一個LDMOS晶體管的非線性模型。我確信最新的Genesys軟件支持大多數(shù)（或所有）晶體管模型。因此，如果像NXP或Freescale這樣的公司為其設(shè)備發(fā)布ADS模型，我

2019-10-17 10:32:19

如何才能獲得PSpice模型？

你好all1 我正在尋找VN5050 PSpice型號。我看到該IC的Orcad庫可用。我怎樣才能獲得PSpice模型？＃vn5050以上來自于谷歌翻譯以下為原文 Hello all1 I

2019-06-28 10:25:09

如何能將這些模型結(jié)合使用？

我從您的站點下載了1136軟件包（ff1136_5vlx110_ibis.pkg）的ibis-model virtex5.ibs和pkg-model。我想將這些模型用于HyperLinx模擬器

2019-04-04 11:02:26

將pytorch模型轉(zhuǎn)化為onxx模型的步驟有哪些

首先pytorch模型要先轉(zhuǎn)化為onxx模型，然后從onxx模型轉(zhuǎn)化為rknn模型直接轉(zhuǎn)化會出現(xiàn)如下問題，環(huán)境都是正確的，論壇詢問后也沒給出準確答案說是版本問題--&gt

2022-05-09 16:36:55

怎樣使用4端口的AmazonBasics模型

In Intel’s multiple camera white paper, they use the 4-port AmazonBasics model in the link below:在英特爾的多相機白皮書中，他們在下面的鏈接中使用4端口AmazonBasics模型：

2021-12-28 08:33:16

抽象控制模型請求（FX2LP）

（FX2LP）USB CDC（通信設(shè)備類）對FPGA控制模型，抽象控制模型的要求。一類抽象控制模型一個模型是一個模型。抽象控制模型請求FPGAα~（0）FIFO一種新的方法。FPGA抽象控制模型請求S.

2018-09-26 17:13:33

無法將自定義EfficientNetB0模型轉(zhuǎn)換為中間表示（IR）格式怎么處理？

該模型是通過使用此代碼生成的：model=tf.keras.applications.EfficientNetB0( include_top=True, weights=None

2023-08-15 07:01:38

是否需要澄清線性和非線性器件模型？

親愛的先生，我設(shè)計了1.3 GHz的低噪聲放大器，使用線性晶體管模型，使用ADS2009獲得增益，噪聲系數(shù)和穩(wěn)定性（晶體管型號為AVAGO ATF 54143，Vds = 3V，Id = 60 mA

2019-01-18 09:01:26

用于快速模型的模型調(diào)試器11.20版用戶指南

用于快速模型的模型調(diào)試器是用于可擴展集群軟件開發(fā)的完全可重定目標的調(diào)試器。它旨在滿足SoC軟件開發(fā)人員的需求。 Model Debugger具有易于使用的GUI前端，并支持： ?源代碼級調(diào)試

2023-08-10 06:33:37

用于快速模型的模型調(diào)試器11.21版用戶指南

2023-08-09 07:57:45

請問AD8000 spice model仿真子電路模型哪里可以下載？

我在使用AD8000 的spice model時候，pspice提示缺少子電路.SUBCKT SWHYSTE2和.subckt Rvar，請問應(yīng)該到哪下載這兩個仿真子電路模型？謝謝！

2018-10-19 09:43:44

適用于快速模型的模型調(diào)試器用戶指南

2023-08-08 06:28:56

防止AI大模型被黑客病毒入侵控制（原創(chuàng)）聆思大模型AI開發(fā)套件評測4

，觸發(fā)了\"on_modified\"這個技能（方法）。 if event.src_path.endswith(\'.model\'):# 檢查是不是模型文件被改了，就像檢查是不是

2024-03-19 11:18:16

Model Inspector — 軟件模型靜態(tài)規(guī)范檢查工具

Model Inspector （MI）原廠商是韓國 Suresoft，是 KOLAS 公認測評機構(gòu)，旨在提升安全關(guān)鍵領(lǐng)域軟件可信度。 MI 用于開發(fā)過程中模型

2022-04-22 13:54:15

Model Inspector—軟件模型靜態(tài)規(guī)范檢查工具

產(chǎn)品概述 Model Inspector（MI）原廠商是韓國Suresoft，是KOLAS國際公認測評機構(gòu)，旨在提升安全關(guān)鍵領(lǐng)域軟件可信度。MI

2024-03-01 11:29:03

擊落模型定位器電路 (Downed Model Locato

擊落模型定位器電路 (Downed Model Locator) If you know

2010-01-09 08:44:32

792

擊落模型定位器電路 (Downed Model Locato

擊落模型定位器電路 (Downed Model Locator II) Here is another de

2010-01-13 17:14:10

860

擊落模型定位器電路 (Downed Model Locato

擊落模型定位器電路 (Downed Model Locator) If you know people who fly slope gliders frequently, you probably

2010-01-09 08:27:52

527

Java開發(fā)：Web開發(fā)模式——ModelⅠ#Java

JAVAModel

學(xué)習硬聲知識發(fā)布于 2022-11-16 13:25:45

安捷倫發(fā)布業(yè)界領(lǐng)先新版SPICE模型提取和模型驗證工具

安捷倫科技日前發(fā)布業(yè)界領(lǐng)先的 SPICE 模型提取工具Model Builder Program和SPICE 模型驗證工具Model Quality Assurance 的最新版本。

2013-03-18 09:41:14

2307

【英文教程】Simple Instrument Model簡單的工具模型

【英文教程】Simple Instrument Model簡單的工具模型，測控技術(shù)與儀器專業(yè)英語，感興趣的小伙伴們可以瞧一瞧。

2016-11-18 16:05:02

特斯拉Model S和Model 3怎么選？特斯拉為你解惑，直接買Model S

企業(yè)犯傻，給產(chǎn)品取一個愚蠢的名字，這種事情時有發(fā)生，特斯拉Model 3就是一個好例子，只是現(xiàn)在想修改太晚了。今天，特斯拉發(fā)布一篇博文，名為“Model S或者Model 3”。

2017-04-13 11:12:36

12150

TensorFlow模型詳解與應(yīng)用

了通用的模型訓(xùn)練以及評測的函數(shù)接口（train_model， evaluate_model， infer_model），Estimator 類中用一個統(tǒng)一函數(shù) call_model_fn 來實現(xiàn)

2017-09-28 14:28:41

多階段劃分的MapReduce模型

針對已有的MapReduce模型階段劃分粒度不合理導(dǎo)致模型精度和復(fù)雜度存在的問題，提出了階段劃分粒度為5的多階段MapReduce模型（MR-Model）。首先綜述了MapReduce模型的研究現(xiàn)狀

2017-12-27 11:48:35

TMS320VC5510 GGW IBIS Model DSP IBIS行為模型的詳細資料概述

本文檔介紹的主要內(nèi)容是TI的產(chǎn)品TMS320VC5510 GGW IBIS Model DSP IBIS行為模型的詳細資料概述

2018-05-03 17:42:43

TMS320C5502 GZZ BSDL Model DSP邊界掃描模型的詳細概述

本文的主要內(nèi)容概述的是TI的產(chǎn)品TMS320C5502 GZZ BSDL Model DSP邊界掃描模型的詳細資料

2018-05-04 16:48:02

TMS320C5504 ZCH IBIS Model DSP行為模型的詳細資料概述

本文檔的主要內(nèi)容介紹的是TI的產(chǎn)品TMS320C5504 ZCH IBIS Model DSP的行為模型的詳細資料概述

2018-05-04 16:52:21

TMS320VC5507 GHH BSDL Model DSP邊界掃描模型的詳細資料概述

本文檔的主要內(nèi)容介紹的是TI的產(chǎn)品TMS320VC5507 GHH BSDL Model DSP的邊界掃描模型的詳細資料概述

2018-05-04 16:58:31

TMS320C5515 ZCH BSDL Model DSP邊界掃描模型的詳細資料概述

本文檔的主要內(nèi)容介紹的是TI的產(chǎn)品TMS320C5515 ZCH BSDL Model DSP的邊界掃描模型的詳細資料概述

2018-05-04 17:05:02

一款基于模型的設(shè)計工具—Model Composer

Model Composer 是一款基于模型的設(shè)計工具，不僅能夠在 MathWorks Simulink? 環(huán)境中進行快速設(shè)計探索，而且還可通過自動代碼生成加速基于 Xilinx 全可編程器件的生產(chǎn)

2018-06-13 16:37:00

2671

關(guān)于Linux內(nèi)存模型的介紹

在linux內(nèi)核中支持3中內(nèi)存模型，分別是flat memory model，Discontiguous memory model和sparse memory model。

2018-07-18 16:26:06

3991

伯克利那個會“18般武藝”的DeepMimic模型開源了！

整個DeepMimic所需要的input分為三部分：一個被稱為Character的Agent模型；希望Agent學(xué)習的參考動作（reference motion）；希望Agent完成的任務(wù)（task）所定義的reward function。

2018-10-19 09:06:28

4638

了解并學(xué)習Linux內(nèi)存模型

在linux內(nèi)核中支持3中內(nèi)存模型，分別是flat memory model，Discontiguous memory model和sparse memory model。所謂memory

2019-05-12 09:44:00

566

關(guān)于基于模型的設(shè)計加快NASA GNC算法開發(fā)教程和應(yīng)用

閉環(huán)仿真采用嵌入Trick的生成代碼，執(zhí)行速度比實時快大約10倍。因此，整整 10 天的 Orion 任務(wù)可以在短短一天內(nèi)仿真。工程師通過兩種方法進行入門級仿真：使用 Simulink 模型驅(qū)動 Trick ；將生成的代碼嵌入 Trick。比較發(fā)現(xiàn)，兩種仿真的結(jié)果完全相同。

2019-09-18 17:10:57

2936

周易AIPU Model Zoo模型list

繼周易AIPU SDK 公測版開放以來，很多AIoT工程師們積極申請仿真評測。為了讓大家充分利用周易AIPU SDK來開發(fā)AI應(yīng)用，AIPU技術(shù)團隊開放了AI模型庫Model-Zoo，含檢測，分類

2021-08-14 17:42:46

1894

Cortex-M4 存儲模型（Memory Model）與MPU（Memory Protection Unit）

Cortex-M4 存儲模型（Memory Model）與MPU（Memory Protection Unit）

2021-12-04 13:21:09

Imagination攜手飛槳共同發(fā)布新建Model Zoo模型庫

為支持此次發(fā)布，雙方將于 9 月 28 日為希望使用 Model Zoo 資源的開發(fā)人員和系統(tǒng)應(yīng)用廠商舉辦“PowerVR+飛槳Model Zoo模型部署實戰(zhàn)”研討會。

2022-09-27 11:32:47

364

文本分類中處理樣本不均衡和提升模型魯棒性的trick

文本分類看似簡單，但實則里面有好多門道。作者水平有限，只能將平時用到的方法和trick在此做個記錄和分享，并且盡可能提供給出簡潔、清晰的代碼實現(xiàn)。希望各位看官都能有所收獲。

2022-10-11 09:47:25

723

電子電路仿真基礎(chǔ)：熱模型（Thermal Model）

SPICE模型中還包括用來進行熱仿真的“熱模型（Thermal Model）”和“熱動態(tài)模型（Thermal Dynamic Model）”。首先介紹一下熱模型。希望通過以下的介紹能夠大致了解熱模型。

2023-02-14 09:26:29

2088

電子電路仿真基礎(chǔ)：什么是熱動態(tài)模型（Thermal Dynamic Model）

上一篇文章中，簡單介紹了SPICE模型中的熱模型（Thermal Model），它是用來進行熱仿真的SPICE模型之一。本文將簡單介紹另一個熱仿真用的SPICE模型，即熱動態(tài)模型（Thermal Dynamic Model）。

2023-02-14 09:26:29

885

大模型微調(diào)樣本構(gòu)造的trick

現(xiàn)在chatglm2的代碼針對這兩個問題已經(jīng)進行了改善，可以認為他就是典型的decoder-only模型了，具體表現(xiàn)為推斷時候attention 是casual attention的形式，position id也退化為token次序增長。

2023-07-10 11:32:44

493

初識MBD及MBD模型管理

基于模型的設(shè)計（ **Model-Based Design，MBD** ）是一種圍繞模型搭建展開的一種項目開發(fā)方法。

2023-07-13 09:16:29

904

TorchScript model與eager model的性能區(qū)別

JIT Trace torch.jit.trace使用eager model和一個dummy input作為輸入，tracer會根據(jù)提供的model和input記錄數(shù)據(jù)在模型中的流動過程，然后將整個

2023-11-08 17:08:04

283

一文解析PPO算法原理

Reward Model的初始化：6B的GPT-3模型在多個公開數(shù)據(jù)（(ARC, BoolQ, CoQA, DROP, MultiNLI, OpenBookQA, QuAC, RACE, and Winogrande）上fintune。不過Paper中提到其實從預(yù)訓(xùn)練模型或者SFT模型開始訓(xùn)練結(jié)果也差不多。

2024-01-09 12:12:53

931

2023年LLM大模型研究進展

作為做LLM應(yīng)用的副產(chǎn)品，我們提出了RLCD[11]，通過同時使用正例和負例prompt，自動生成帶標簽的生成樣本不需人工標注，然后可以接大模型微調(diào)，或者用于訓(xùn)練reward models

2024-01-19 13:55:33

178

已全部加載完成

搜索歷史

大模型Reward Model的trick應(yīng)用技巧

評論