五月婷婷欧美中文字幕,亚洲免费人妻网站

NumPy是Python中用于數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、科學(xué)計算的重要軟件包。它極大地簡化了向量和矩陣的操作及處理。python的不少數(shù)據(jù)處理軟件包依賴于NumPy作為其基礎(chǔ)架構(gòu)的核心部分（例如scikit-learn、SciPy、pandas和tensorflow）。除了數(shù)據(jù)切片和數(shù)據(jù)切塊的功能之外，掌握numpy也使得開發(fā)者在使用各數(shù)據(jù)處理庫調(diào)試和處理復(fù)雜用例時更具優(yōu)勢。

在本文中，將介紹NumPy的主要用法，以及它如何呈現(xiàn)不同類型的數(shù)據(jù)（表格，圖像，文本等），這些經(jīng)Numpy處理后的數(shù)據(jù)將成為機(jī)器學(xué)習(xí)模型的輸入。

NumPy中的數(shù)組操作

創(chuàng)建數(shù)組

我們可以通過將python列表傳入np.array（）來創(chuàng)建一個NumPy數(shù)組（也就是強(qiáng)大的ndarray）。在下面的例子里，創(chuàng)建出的數(shù)組如右邊所示，通常情況下，我們希望NumPy為我們初始化數(shù)組的值，為此NumPy提供了諸如ones（），zeros（）和random.random（）之類的方法。我們只需傳入元素個數(shù)即可：

一旦我們創(chuàng)建了數(shù)組，我們就可以用其做點(diǎn)有趣的應(yīng)用了，文摘菌將在下文展開說明。

數(shù)組的算術(shù)運(yùn)算

讓我們創(chuàng)建兩個NumPy數(shù)組，分別稱作data和ones：

若要計算兩個數(shù)組的加法，只需簡單地敲入data + ones，就可以實(shí)現(xiàn)對應(yīng)位置上的數(shù)據(jù)相加的操作（即每行數(shù)據(jù)進(jìn)行相加），這種操作比循環(huán)讀取數(shù)組的方法代碼實(shí)現(xiàn)更加簡潔。

當(dāng)然，在此基礎(chǔ)上舉一反三，也可以實(shí)現(xiàn)減法、乘法和除法等操作：

許多情況下，我們希望進(jìn)行數(shù)組和單個數(shù)值的操作（也稱作向量和標(biāo)量之間的操作）。比如：如果數(shù)組表示的是以英里為單位的距離，我們的目標(biāo)是將其轉(zhuǎn)換為公里數(shù)?？梢院唵蔚膶懽鱠ata * 1.6：

NumPy通過數(shù)組廣播（broadcasting）知道這種操作需要和數(shù)組的每個元素相乘。

數(shù)組的切片操作

我們可以像python列表操作那樣對NumPy數(shù)組進(jìn)行索引和切片，如下圖所示：

聚合函數(shù)

NumPy為我們帶來的便利還有聚合函數(shù)，聚合函數(shù)可以將數(shù)據(jù)進(jìn)行壓縮，統(tǒng)計數(shù)組中的一些特征值：

除了min，max和sum等函數(shù)，還有mean（均值），prod（數(shù)據(jù)乘法）計算所有元素的乘積，std（標(biāo)準(zhǔn)差），等等。上面的所有例子都在一個維度上處理向量。除此之外，NumPy之美的一個關(guān)鍵之處是它能夠?qū)⒅八吹降乃泻瘮?shù)應(yīng)用到任意維度上。

NumPy中的矩陣操作

創(chuàng)建矩陣

我們可以通過將二維列表傳給Numpy來創(chuàng)建矩陣。

np.array（［［1，2］，［3，4］］）

除此外，也可以使用上文提到的ones（）、zeros（）和random.random（）來創(chuàng)建矩陣，只需傳入一個元組來描述矩陣的維度：

矩陣的算術(shù)運(yùn)算

對于大小相同的兩個矩陣，我們可以使用算術(shù)運(yùn)算符（+-*/）將其相加或者相乘。NumPy對這類運(yùn)算采用對應(yīng)位置（position-wise）操作處理：

對于不同大小的矩陣，只有兩個矩陣的維度同為1時（例如矩陣只有一列或一行），我們才能進(jìn)行這些算術(shù)運(yùn)算，在這種情況下，NumPy使用廣播規(guī)則（broadcast）進(jìn)行操作處理：

與算術(shù)運(yùn)算有很大區(qū)別是使用點(diǎn)積的矩陣乘法。NumPy提供了dot（）方法，可用于矩陣之間進(jìn)行點(diǎn)積運(yùn)算：

上圖的底部添加了矩陣尺寸，以強(qiáng)調(diào)運(yùn)算的兩個矩陣在列和行必須相等。可以將此操作圖解為如下所示：

矩陣的切片和聚合

索引和切片功能在操作矩陣時變得更加有用。可以在不同維度上使用索引操作來對數(shù)據(jù)進(jìn)行切片。

我們可以像聚合向量一樣聚合矩陣。

不僅可以聚合矩陣中的所有值，還可以使用axis參數(shù)指定行和列的聚合。

矩陣的轉(zhuǎn)置和重構(gòu)

處理矩陣時經(jīng)常需要對矩陣進(jìn)行轉(zhuǎn)置操作，常見的情況如計算兩個矩陣的點(diǎn)積。NumPy數(shù)組的屬性T可用于獲取矩陣的轉(zhuǎn)置。

在較為復(fù)雜的用例中，你可能會發(fā)現(xiàn)自己需要改變某個矩陣的維度。這在機(jī)器學(xué)習(xí)應(yīng)用中很常見，例如模型的輸入矩陣形狀與數(shù)據(jù)集不同，可以使用NumPy的reshape（）方法。只需將矩陣所需的新維度傳入即可。也可以傳入-1，NumPy可以根據(jù)你的矩陣推斷出正確的維度。

上文中的所有功能都適用于多維數(shù)據(jù)，其中心數(shù)據(jù)結(jié)構(gòu)稱為ndarray（N維數(shù)組）。

很多時候，改變維度只需在NumPy函數(shù)的參數(shù)中添加一個逗號，如下圖所示：

NumPy中的公式應(yīng)用示例

NumPy的關(guān)鍵用例是實(shí)現(xiàn)適用于矩陣和向量的數(shù)學(xué)公式。這也Python中常用NumPy的原因。例如，均方誤差是監(jiān)督機(jī)器學(xué)習(xí)模型處理回歸問題的核心：

在NumPy中可以很容易地實(shí)現(xiàn)均方誤差：

這樣做的好處是，numpy無需考慮predictions與labels具體包含的值。文摘菌將通過一個示例來逐步執(zhí)行上面代碼行中的四個操作：

預(yù)測（predictions）和標(biāo)簽（labels）向量都包含三個值。這意味著n的值為3。在我們執(zhí)行減法后，我們最終得到如下值：

然后我們可以計算向量中各值的平方：

現(xiàn)在我們對這些值求和：

最終得到該預(yù)測的誤差值和模型質(zhì)量分?jǐn)?shù)。

用NumPy表示日常數(shù)據(jù)

日常接觸到的數(shù)據(jù)類型，如電子表格，圖像，音頻。。.。。.等，如何表示呢？Numpy可以解決這個問題。

表和電子表格

電子表格或數(shù)據(jù)表都是二維矩陣。電子表格中的每個工作表都可以是自己的變量。python中類似的結(jié)構(gòu)是pandas數(shù)據(jù)幀（dataframe），它實(shí)際上使用NumPy來構(gòu)建的。

音頻和時間序列

音頻文件是一維樣本數(shù)組。每個樣本都是代表一小段音頻信號的數(shù)字。CD質(zhì)量的音頻每秒可能有44，100個采樣樣本，每個樣本是一個-65535到65536之間的整數(shù)。這意味著如果你有一個10秒的CD質(zhì)量的WAVE文件，你可以將它加載到長度為10 * 44，100 = 441，000個樣本的NumPy數(shù)組中。想要提取音頻的第一秒？只需將文件加載到我們稱之為audio的NumPy數(shù)組中，然后截取audio［：44100］。

時間序列數(shù)據(jù)也是如此（例如，股票價格隨時間變化的序列）。

圖像

圖像是大小為（高度×寬度）的像素矩陣。如果圖像是黑白圖像（也稱為灰度圖像），則每個像素可以由單個數(shù)字表示（通常在0（黑色）和255（白色）之間）。如果對圖像做處理，裁剪圖像的左上角10 x 10大小的一塊像素區(qū)域，用NumPy中的image［：10，：10］就可以實(shí)現(xiàn)。

如果圖像是彩色的，則每個像素由三個數(shù)字表示：紅色，綠色和藍(lán)色。在這種情況下，我們需要第三維（因?yàn)槊總€單元格只能包含一個數(shù)字）。因此彩色圖像由尺寸為（高x寬x 3）的ndarray表示。

語言

如果我們處理文本，情況就會有所不同。用數(shù)字表示文本需要兩個步驟，構(gòu)建詞匯表（模型知道的所有唯一單詞的清單）和嵌入（embedding）。讓我們看看用數(shù)字表示這個（翻譯的）古語引用的步驟：“Have the bards who preceded me left any theme unsung？”

模型需要先訓(xùn)練大量文本才能用數(shù)字表示這位戰(zhàn)場詩人的詩句。我們可以讓模型處理一個小數(shù)據(jù)集，并使用這個數(shù)據(jù)集來構(gòu)建一個詞匯表（71，290個單詞）。

然后可以將句子劃分成一系列“詞”token（基于通用規(guī)則的單詞或單詞部分）。

然后我們用詞匯表中的id替換每個單詞。

這些ID仍然不能為模型提供有價值的信息。因此，在將一系列單詞送入模型之前，需要使用嵌入（embedding）來替換token/單詞（在本例子中使用50維度的word2vec嵌入）。

你可以看到此NumPy數(shù)組的維度為［embedding_dimension x sequence_length］。

在實(shí)踐中，這些數(shù)值不一定是這樣的，但我以這種方式呈現(xiàn)它是為了視覺上的一致。出于性能原因，深度學(xué)習(xí)模型傾向于保留批數(shù)據(jù)大小的第一維（因?yàn)槿绻⑿杏?xùn)練多個示例，則可以更快地訓(xùn)練模型）。很明顯，這里非常適合使用reshape（）。例如，像BERT這樣的模型會期望其輸入矩陣的形狀為：［batch_size，sequence_length，embedding_size］。

這是一個數(shù)字合集，模型可以處理并執(zhí)行各種有用的操作。我留空了許多行，可以用其他示例填充以供模型訓(xùn)練（或預(yù)測）。

事實(shí)證明，在我們的例子中，那位詩人的話語比其他詩人的詩句更加名垂千古。盡管生而為奴，詩人安塔拉（Antarah）的英勇和語言能力使他獲得了自由和神話般的地位，他的詩是伊斯蘭教以前的阿拉伯半島《懸詩》的七首詩之一。

轉(zhuǎn)自：大數(shù)據(jù)文摘

原文鏈接：https://jalammar.github.io/visual-numpy/

編輯：jq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴