Spark應(yīng)用HanLP對(duì)中文語(yǔ)料進(jìn)行文本挖掘--聚類詳解教程

軟件：IDEA2014、Maven、HanLP、JDK；

用到的知識(shí)：HanLP、Spark TF-IDF、Spark kmeans、Spark mapPartition;

用到的數(shù)據(jù)集：http://www.threedweb.cn/thread-1288-1-1.html（不需要下載，已經(jīng)包含在工程里面）；

工程下載：https://github.com/fansy1990/hanlp-test 。

1、問(wèn)題描述

現(xiàn)在有一個(gè)中文文本數(shù)據(jù)集，這個(gè)數(shù)據(jù)集已經(jīng)對(duì)其中的文本做了分類，如下：

其中每個(gè)文件夾中含有個(gè)數(shù)不等的文件，比如環(huán)境有200個(gè)，藝術(shù)有248個(gè)；同時(shí)，每個(gè)文件的內(nèi)容基本上就是一些新聞報(bào)道或者中文描述，如下：

現(xiàn)在需要做的就是，把這些文檔進(jìn)行聚類，看其和原始給定的類別的重合度有多少，這樣也可以反過(guò)來(lái)驗(yàn)證我們聚類算法的正確度。

2.、解決思路：

2.1 文本預(yù)處理：

1. 由于文件的編碼是GBK的，讀取到Spark中全部是亂碼，所以先使用Java把代碼轉(zhuǎn)為UTF8編碼； ?

2. 由于文本存在多個(gè)文件中（大概2k多），使用Spark的wholeTextFile讀取速度太慢，所以考慮把這些文件全部合并為一個(gè)文件，這時(shí)又結(jié)合1.的轉(zhuǎn)變編碼，所以在轉(zhuǎn)變編碼的時(shí)候就直接把所有的數(shù)據(jù)存入同一個(gè)文件中；

其存儲(chǔ)的格式為：每行：文件名.txt\t文件內(nèi)容

如： ?41.txt 【日 ?期】199601....

這樣子的話，就可以通過(guò).txt\t 來(lái)對(duì)每行文本進(jìn)行分割，得到其文件名以及文件內(nèi)容，這里每行其實(shí)就是一個(gè)文件了。

2.2 分詞

分詞直接采用HanLP的分詞來(lái)做，HanLP這里選擇兩種：Standard和NLP(還有一種就是HighSpeed，但是這個(gè)木有用戶自定義詞典，所以前期考慮先用兩種)，具體參考：https://github.com/hankcs/HanLP ;

2.3 詞轉(zhuǎn)換為詞向量

在Kmeans算法中，一個(gè)樣本需要使用數(shù)值類型，所以需要把文本轉(zhuǎn)為數(shù)值向量形式，這里在Spark中有兩種方式。其一，是使用TF-IDF；其二，使用Word2Vec。這里暫時(shí)使用了TF-IDF算法來(lái)進(jìn)行，這個(gè)算法需要提供一個(gè)numFeatures，這個(gè)值越大其效果也越好，但是相應(yīng)的計(jì)算時(shí)間也越長(zhǎng)，后面也可以通過(guò)實(shí)驗(yàn)驗(yàn)證。

2.4 使用每個(gè)文檔的詞向量進(jìn)行聚類建模

在進(jìn)行聚類建模的時(shí)候，需要提供一個(gè)初始的聚類個(gè)數(shù)，這里面設(shè)置為10，因?yàn)槲覀兊臄?shù)據(jù)是有10個(gè)分組的。但是在實(shí)際的情況下，一般這個(gè)值是需要通過(guò)實(shí)驗(yàn)來(lái)驗(yàn)證得到的。

2.5 對(duì)聚類后的結(jié)果進(jìn)行評(píng)估

這里面采用的思路是：

1. 得到聚類模型后，對(duì)原始數(shù)據(jù)進(jìn)行分類，得到原始文件名和預(yù)測(cè)的分類id的二元組(fileName,predictId)；

2. 針對(duì)（fileName，predictId），得到（fileNameFirstChar ,fileNameFirstChar.toInt - predictId）的值，這里需要注意的是fileNameFirstChar其實(shí)就是代表這個(gè)文件的原始所屬類別了。

3. 這里有一個(gè)一般假設(shè)，就是使用kmeans模型預(yù)測(cè)得到的結(jié)果大多數(shù)是正確的，所以fileNameFirstChar.toInt-predictId得到的眾數(shù)其實(shí)就是分類的正確的個(gè)數(shù)了（這里可能比較難以理解，后面會(huì)有個(gè)小李子來(lái)說(shuō)明這個(gè)問(wèn)題）；

4. 得到每個(gè)實(shí)際類別的預(yù)測(cè)的正確率后就可以去平均預(yù)測(cè)率了。

5. 改變numFeatuers的值，看下是否numFeatures設(shè)置的比較大，其正確率也會(huì)比較大？

3、具體步驟：

3.1 開(kāi)發(fā)環(huán)境--Maven

首先第一步，當(dāng)然是開(kāi)發(fā)環(huán)境了，因?yàn)橛玫搅?/span>Spark和HanLP，所以需要在pom.xml中加入這兩個(gè)依賴：

3.com.hankcs

4.hanlp

5.${hanlp.version}

9.org.apache.spark

10.spark-core_2.10

11.${spark.version}

12.

13.

14.org.apache.spark

15.spark-mllib_2.10

16.${spark.version}

17.

其版本為：

portable-1.3.4、 1.6.0-cdh5.7.3。

3.2 文件轉(zhuǎn)為UTF-8編碼及存儲(chǔ)到一個(gè)文件

這部分內(nèi)容可以直接參考：src/main/java/demo02_transform_encoding.TransformEncodingToOne 這里的實(shí)現(xiàn)，因?yàn)槭?/span>Java基本的操作，這里就不加以分析了。

3.3 Scala調(diào)用HanLP進(jìn)行中文分詞

Scala調(diào)用HanLP進(jìn)行分詞和Java的是一樣的，同時(shí)，因?yàn)檫@里有些詞語(yǔ)格式不正常，所以把這些特殊的詞語(yǔ)添加到自定義詞典中，其示例如下：

1.import com.hankcs.hanlp.dictionary.CustomDictionary

2.import com.hankcs.hanlp.dictionary.stopword.CoreStopWordDictionary

3.import com.hankcs.hanlp.tokenizer.StandardTokenizer

4.import scala.collection.JavaConversions._

5./**

6.* Scala 分詞測(cè)試

7.* Created by fansy on 2017/8/25.

?8.*/

9.object SegmentDemo {

10.def main(args: Array[String]) {

11.val sentense = "41,【日期】19960104 【版號(hào) 】1 【標(biāo) 題】合巢蕪高速公路巢蕪段竣工【作者】彭建中【正文】安徽合（肥）巢（湖）蕪（湖）高速公路巢蕪段日前竣工通車并投入營(yíng)運(yùn)。合巢蕪高速公路是國(guó)家規(guī)劃的京福綜合運(yùn)輸網(wǎng)的重要干線路段，是交通部確定１９９５年建成的全國(guó)１０條重點(diǎn)公路之一。該條高速公路正線長(zhǎng)８８公里。（彭建中）"

12.CustomDictionary.add("日期")

13.CustomDictionary.add("版號(hào)")

14.CustomDictionary.add("標(biāo) 題")

15.CustomDictionary.add("作者")

16.CustomDictionary.add("正文")

17.val list = StandardTokenizer.segment(sentense)

18.CoreStopWordDictionary.apply(list)

19.println(list.map(x => x.word.replaceAll(" ","")).mkString(","))

20.}

21.}

運(yùn)行完成后，即可得到分詞的結(jié)果，如下：

圖3.png

考慮到使用方便，這里把分詞封裝成一個(gè)函數(shù)：

1./**

2.* String 分詞

3.* @param sentense

4.* @return

5.*/

6.def transform(sentense:String):List[String] ={

7.val list = StandardTokenizer.segment(sentense)

8.CoreStopWordDictionary.apply(list)

9.list.map(x => x.word.replaceAll(" ","")).toList

10.}

11.}

輸入即是一個(gè)中文的文本，輸出就是分詞的結(jié)果，同時(shí)去掉了一些常用的停用詞。

3.4 求TF-IDF

在Spark里面求TF-IDF，可以直接調(diào)用Spark內(nèi)置的算法模塊即可，同時(shí)在Spark的該算法模塊中還對(duì)求得的結(jié)果進(jìn)行了維度變換（可以理解為特征選擇或“降維”，當(dāng)然這里的降維可能是提升維度）。代碼如下：

1.val docs = sc.textFile(input_data).map{x => val t = x.split(".txt\t");(t(0),transform(t(1)))}

2..toDF("fileName", "sentence_words")

4.// 3. 求TF

5.println("calculating TF ...")

6.val hashingTF = new HashingTF()

7..setInputCol("sentence_words").setOutputCol("rawFeatures").setNumFeatures(numFeatures)

8.val featurizedData = hashingTF.transform(docs)

10.// 4. 求IDF

11.println("calculating IDF ...")

12.val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")

13.val idfModel = idf.fit(featurizedData)

14.val rescaledData = idfModel.transform(featurizedData).cache()

變量docs是一個(gè)DataFrame[fileName, sentence_words] ,經(jīng)過(guò)HashingTF后，變成了變量 featurizedData ,同樣是一個(gè)DataFrame[fileName,sentence_words, rawFeatures]。這里通過(guò)setInputCol以及SetOutputCol可以設(shè)置輸入以及輸出列名（列名是針對(duì)DataFrame來(lái)說(shuō)的，不知道的可以看下DataFrame的API）。

接著，經(jīng)過(guò)IDF模型，得到變量 rescaledData ，其DataFrame[fileName,sentence_words, rawFeatures, features] 。

執(zhí)行結(jié)果為：

圖4.png

3.5 建立KMeans模型

直接參考官網(wǎng)給定例子即可：

1.println("creating kmeans model ...")

2.val kmeans = new KMeans().setK(k).setSeed(1L)

3.val model = kmeans.fit(rescaledData)

4.// Evaluate clustering by computing Within Set Sum of Squared Errors.

5.println("calculating wssse ...")

6.val WSSSE = model.computeCost(rescaledData)

7.println(s"Within Set Sum of Squared Errors = $WSSSE")

這里有計(jì)算cost值的，但是這個(gè)值評(píng)估不是很準(zhǔn)確，比如我numFeature設(shè)置為2000的話，那么這個(gè)值就很大，但是其實(shí)其正確率會(huì)比較大的。

3.6 模型評(píng)估

這里的模型評(píng)估直接使用一個(gè)小李子來(lái)說(shuō)明：比如，現(xiàn)在有這樣的數(shù)據(jù)：

圖5.png

其中，1開(kāi)頭，2開(kāi)頭和4開(kāi)頭的屬于同一類文檔，后面的0,3,2,1等，代表這個(gè)文檔被模型分類的結(jié)果，那么可以很容易的看出針對(duì)1開(kāi)頭的文檔，

其分類正確的有4個(gè)，其中("123.txt",3)以及（“126.txt”,1）是分類錯(cuò)誤的結(jié)果，這是因?yàn)?，在這個(gè)類別中預(yù)測(cè)的結(jié)果中0是最多的，所以0是和1開(kāi)頭的文檔對(duì)應(yīng)起來(lái)的，這也就是前面的假設(shè)。

1. 把同一類文檔分到同一個(gè)partition中；

1.val data = sc.parallelize(t)

2.val file_index = data.map(_._1.charAt(0)).distinct.zipWithIndex().collect().toMap

3.println(file_index)

4.val partitionData = data.partitionBy(MyPartitioner(file_index))

這里的file_index，是對(duì)不同類的文檔進(jìn)行編號(hào)，這個(gè)編號(hào)就對(duì)應(yīng)每個(gè)partition，看MyPartitioner的實(shí)現(xiàn)：

1.case class MyPartitioner(file_index:Map[Char,Long]) extends Partitioner

2.override def getPartition(key: Any): Int = key match {

3.case _ => file_index.getOrElse(key.toString.charAt(0),0L).toInt

4.}

5..override def numPartitions: Int = file_index.size

6.}

2. 針對(duì)每個(gè)partition進(jìn)行整合操作：

在整合每個(gè)partition之前，我們先看下我們自定義的MyPartitioner是否在正常工作，可以打印下結(jié)果：

1.val tt = partitionData.mapPartitionsWithIndex((index: Int, it: Iterator[(String,Int)]) => it.toList.map(x => (index,x)).toIterator)

2.tt.collect().foreach(println(_))

運(yùn)行如下：

圖6.png

其中第一列代表每個(gè)partition的id，第二列是數(shù)據(jù)，發(fā)現(xiàn)其數(shù)據(jù)確實(shí)是按照預(yù)期進(jìn)行處理的；接著可以針對(duì)每個(gè)partition進(jìn)行數(shù)據(jù)整合：

1.// firstCharInFileName , firstCharInFileName - predictType

2.val combined = partitionData.map(x =>( (x._1.charAt(0), Integer.parseInt(x._1.charAt(0)+"") - x._2),1) )

3..mapPartitions{f => var aMap = Map[(Char,Int),Int]();

4.for(t <- f){

5.if (aMap.contains(t._1)){

6.aMap = aMap.updated(t._1,aMap.getOrElse(t._1,0)+1)

7.}else{

8.aMap = aMap + t

9.}

10.}

11.val aList = aMap.toList

12.val total= aList.map(_._2).sum

13.val total_right = aList.map(_._2).max

14.List((aList.head._1._1,total,total_right)).toIterator

15.// aMap.toIterator //打印各個(gè)partition的總結(jié)

16. }

在整合之前先執(zhí)行一個(gè)map操作，把數(shù)據(jù)變成（(fileNameFirstChar, fileNameFirstChar.toInt - predictId), 1），其中fileNameFirstChar代表文件的第一個(gè)字符，其實(shí)也就是文件的所屬實(shí)際類別，后面的fileNameFirstChar.toInt-predictId 其實(shí)就是判斷預(yù)測(cè)的結(jié)果是否對(duì)了，這個(gè)值的眾數(shù)就是預(yù)測(cè)對(duì)的；最后一個(gè)值代碼前面的這個(gè)鍵值對(duì)出現(xiàn)的次數(shù)，其實(shí)就是統(tǒng)計(jì)屬于某個(gè)類別的實(shí)際文件個(gè)數(shù)以及預(yù)測(cè)對(duì)的文件個(gè)數(shù)，分別對(duì)應(yīng)上面的total和total_right變量；輸出結(jié)果為：

(4,6,3)

(1,6,4)

(2,6,4)

發(fā)現(xiàn)其打印的結(jié)果是正確的，第一列代表文件名開(kāi)頭，第二個(gè)代表屬于這個(gè)文件的個(gè)數(shù)，第三列代表預(yù)測(cè)正確的個(gè)數(shù)

這里需要注意的是，這里因?yàn)槲谋镜膶?shí)際類別和文件名是一致的，所以才可以這樣處理，如果實(shí)際數(shù)據(jù)的話，那么mapPartitions函數(shù)需要更改。

3. 針對(duì)數(shù)據(jù)結(jié)果進(jìn)行統(tǒng)計(jì)：

最后只需要進(jìn)行簡(jiǎn)單的計(jì)算即可：

1.for(re <- result ){

2.println("文檔"+re._1+"開(kāi)頭的文檔總數(shù)："+ re._2+",分類正確的有："+re._3+",分類正確率是："+(re._3*100.0/re._2)+"%")

3.}

4.val averageRate = result.map(_._3).sum *100.0 / result.map(_._2).sum

5.println("平均正確率為："+averageRate+"%")

輸出結(jié)果為：

圖7.png

4. 實(shí)驗(yàn)

??設(shè)置不同的numFeature，比如使用200和2000，其對(duì)比結(jié)果為：

圖8.png

圖9.png

所以設(shè)置numFeatures值越大，其準(zhǔn)確率也越高，不過(guò)計(jì)算也比較復(fù)雜。

?5. 總結(jié)

1. HanLP的使用相對(duì)比較簡(jiǎn)單，這里只使用了分詞及停用詞，感謝開(kāi)源；

2. Spark里面的TF-IDF以及Word2Vector使用比較簡(jiǎn)單，不過(guò)使用這個(gè)需要先分詞；

3. 這里是在IDEA里面運(yùn)行的，如果使用Spark-submit的提交方式，那么需要把hanpl的jar包加入，這個(gè)有待驗(yàn)證

閱讀全文

SPARK(19705) SPARK(19705)

評(píng)論

相關(guān)推薦

數(shù)據(jù)語(yǔ)料庫(kù)、算法框架和算力芯片在AI大模型中的作用和影響

數(shù)據(jù)語(yǔ)料庫(kù)、算法框架和算力芯片的確是影響AI大模型發(fā)展的三大重要因素。

2024-03-01 09:42:41

172

挖掘機(jī)生產(chǎn)裝配線無(wú)線通訊應(yīng)用

一、應(yīng)用背景山東某挖掘機(jī)機(jī)械有限公司主要產(chǎn)品有裝載機(jī)、挖掘機(jī)、道路機(jī)械及核心關(guān)鍵零部件等系列工程機(jī)械產(chǎn)品。為加速新舊動(dòng)能轉(zhuǎn)換，全新挖掘機(jī)整機(jī)裝配線配合勞動(dòng)組合的調(diào)整，提高裝配水平和生產(chǎn)效率；可集中

2024-02-22 09:44:15

數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域,并舉例說(shuō)明

數(shù)據(jù)挖掘（Data Mining）是一種從大量數(shù)據(jù)中提取出有意義的信息和模式的技術(shù)。它結(jié)合了數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和人工智能等領(lǐng)域的理論和方法，通過(guò)高效的算法和工具，對(duì)大數(shù)據(jù)進(jìn)行分析和挖掘，從而

2024-02-03 14:19:55

331

鴻蒙原生應(yīng)用/元服務(wù)開(kāi)發(fā)-發(fā)布基礎(chǔ)類型通知開(kāi)發(fā)步驟

(`[ANS] publish success`); }); 運(yùn)行效果如下圖所示。 3.多行文本類型通知繼承了普通文本類型的字段，同時(shí)新增了多行文本內(nèi)容、內(nèi)容概要和通知展開(kāi)時(shí)的標(biāo)題。通知默認(rèn)顯示與普通

2024-01-02 15:03:51

一文詳解pcb的組成和作用

2023-12-18 10:48:21

363

人工智能中文本分類的基本原理和關(guān)鍵技術(shù)

在本文中，我們?nèi)嫣接懥?b class="flag-6" style="color: red">文本分類技術(shù)的發(fā)展歷程、基本原理、關(guān)鍵技術(shù)、深度學(xué)習(xí)的應(yīng)用，以及從RNN到Transformer的技術(shù)演進(jìn)。文章詳細(xì)介紹了各種模型的原理和實(shí)戰(zhàn)應(yīng)用，旨在提供對(duì)文本分類技術(shù)深入理解的全面視角。

2023-12-16 11:37:31

433

一文帶你詳解門電路

【科普】詳解門電路

2023-12-15 10:41:01

457

一文詳解pcb微帶線設(shè)計(jì)

2023-12-14 10:38:39

543

一文詳解pcb的msl等級(jí)

2023-12-13 16:52:54

1677

充分挖掘SiC FET的性能

2023-12-07 09:30:21

152

一文詳解smt鋼網(wǎng)開(kāi)口要求

2023-12-04 15:51:23

564

詳解汽車LED的應(yīng)用和封裝

2023-12-04 10:04:54

220

LabVIEW在不同操作系統(tǒng)上使VI、可執(zhí)行文件或安裝程序

、Windows 8、Windows 10）可能無(wú)法正常工作。VI可以重新編譯，因?yàn)閂I包含源代碼。然而，可執(zhí)行文件包含預(yù)編譯的代碼，不能進(jìn)行轉(zhuǎn)換。此外，如果你使用.NET框架開(kāi)發(fā)代碼，請(qǐng)確保在開(kāi)發(fā)PC和部署

2023-12-02 21:47:52

vlookup函數(shù)能匹配文本嗎

，第三個(gè)參數(shù)是返回的列數(shù)，第四個(gè)參數(shù)是是否進(jìn)行近似匹配。 VLOOKUP函數(shù)可以用來(lái)匹配文本。在使用VLOOKUP函數(shù)時(shí)，要確保文本類型的數(shù)據(jù)與查找范圍中的數(shù)據(jù)類型一致，否則可能會(huì)出現(xiàn)匹配不到的情況。當(dāng)文本類型的數(shù)據(jù)在查找范圍中找到匹配項(xiàng)時(shí)，VLOOKUP函數(shù)會(huì)返

2023-12-01 10:36:37

4601

基于文本的對(duì)不同電路進(jìn)行批量仿真

方法是普通的，但探索的過(guò)程還是有點(diǎn)曲折的，還好沒(méi)有卡住太久。這種方法第四步的建立可執(zhí)行文件的作為最關(guān)鍵的一步，可以說(shuō)是一個(gè)巧合，還好結(jié)果是好的。

2023-11-30 12:20:52

189

input標(biāo)簽中type的屬性值有哪些

在HTML中，input標(biāo)簽中的type屬性用于指定表單輸入字段的類型。下面是一些常見(jiàn)的type屬性值及其對(duì)應(yīng)的輸入字段類型： text：用于輸入單行文本的文本框。 password：用于輸入密碼

2023-11-30 10:10:36

1151

一文詳解pcb不良分析

2023-11-29 17:12:17

374

一文詳解TVS二極管

2023-11-29 15:10:13

557

小模型也能進(jìn)行上下文學(xué)習(xí)！字節(jié)&華東師大聯(lián)合提出自進(jìn)化文本識(shí)別器

場(chǎng)景文本識(shí)別（Scene Text Recognition）的目標(biāo)是將圖像中的文本內(nèi)容提取出來(lái)。實(shí)際應(yīng)用場(chǎng)景中，場(chǎng)景文本識(shí)別面臨著多種挑戰(zhàn)：不同的場(chǎng)景、文字排版、形變、光照變化、字跡模糊、字體多樣性等，

2023-11-27 16:28:52

432

Blaze: 用Rust重寫(xiě)Spark執(zhí)行層，平均提升30%算力

隨著機(jī)器硬件的發(fā)展，RAM的價(jià)格也大幅降低，這時(shí)Spark提出了彈性分布式數(shù)據(jù)集（RDD），這是一種分布式內(nèi)存抽象，可以讓程序員以容錯(cuò)的方式在大型集群上執(zhí)行內(nèi)存計(jì)算。

2023-11-22 17:46:58

367

python窗口文本框怎么限制行數(shù)

在 Python 中，你可以使用 Tkinter 模塊來(lái)創(chuàng)建窗口和文本框。要限制文本框的行數(shù)，可以使用 Text 組件的相關(guān)方法和屬性。下面是一個(gè)示例代碼，詳細(xì)說(shuō)明如何限制文本框的行數(shù)

2023-11-22 10:32:55

255

FoolNLTK：簡(jiǎn)單好用的中文NLP工具包

典，可訓(xùn)練自己的模型及批量處理文本。 1.準(zhǔn)備開(kāi)始之前，你要確保Python和pip已經(jīng)成功安裝在電腦上，如果沒(méi)有，可以訪問(wèn)這篇文章：超詳細(xì)Python安裝指南 進(jìn)行安裝。如果你用Python的目的是數(shù)據(jù)分析，可以直接安裝Anaconda： Python數(shù)據(jù)分析與挖掘好幫手—Anaconda ，

2023-11-01 10:41:16

212

一文詳解pcb地孔的作用

2023-10-30 16:02:22

484

詳解pcb走線電流

2023-10-30 15:59:23

1123

FoolNLTK：簡(jiǎn)單好用的中文NLP工具包

2023-10-30 09:40:50

604

easyocr：超級(jí)簡(jiǎn)單且強(qiáng)大的OCR文本識(shí)別工具

今天給大家介紹一個(gè)超級(jí)簡(jiǎn)單且強(qiáng)大的OCR文本識(shí)別工具： easyocr . 這個(gè)模塊支持70多種語(yǔ)言的即用型OCR，包括中文，日文，韓文和泰文等。下面是這個(gè)模塊的實(shí)戰(zhàn)教程。 1.準(zhǔn)備開(kāi)始之前

2023-10-30 09:30:22

1019

在英特爾開(kāi)發(fā)套件上用OpenVIN實(shí)現(xiàn)中文圖文檢索

本文演示了使用 OpenVINO 與 Chinese-Clip 進(jìn)行中文圖文相似性匹配任務(wù)：CLIP 模型以自監(jiān)督的方式在數(shù)億或數(shù)十億（圖像，文本）對(duì)上進(jìn)行訓(xùn)練，它從輸入圖像和文本中提取特征向量

2023-10-27 11:06:33

278

kafka相關(guān)命令詳解

kafka常用命令詳解

2023-10-20 11:34:05

302

港中文賈佳亞團(tuán)隊(duì)聯(lián)手MIT發(fā)布超長(zhǎng)文本擴(kuò)展技術(shù)，打破LLM遺忘魔咒

它代表著業(yè)界對(duì)長(zhǎng)文本大語(yǔ)言模型的重新思考和關(guān)注，有效擴(kuò)展了大語(yǔ)言模型的上下文窗口，允許模型考慮和處理較長(zhǎng)的文本序列，是大語(yǔ)言模型的革新性發(fā)明。

2023-10-18 15:54:53

281

廣州大彩VisualTFT組態(tài)控件教程(二)文本控件

電子發(fā)燒友網(wǎng)站提供《廣州大彩VisualTFT組態(tài)控件教程(二)文本控件.pdf》資料免費(fèi)下載

2023-10-13 17:39:28

詳解pcb光學(xué)點(diǎn)是什么

2023-10-12 10:36:14

609

一文詳解pcb和smt的區(qū)別

2023-10-08 09:31:56

1269

IAR中UTF-8中文字符串不顯示怎么解決？

字符串后，中文根本就沒(méi)讀取顯示。想全部使用UTF-8的編碼做界面文本顯示。各位大佬有沒(méi)有遇到這種情況，有什么好的解決方法呢？

2023-10-07 07:11:52

MDK是否能使用中文進(jìn)行宏定義？

有些傳感器的的寄存器太多了，能不能用中文來(lái)對(duì)寄存器進(jìn)行宏定義

2023-09-28 07:34:39

QT4的中文手冊(cè)

”。第三行：是 main 函數(shù)的標(biāo)準(zhǔn)寫(xiě)法第五行：創(chuàng)建一個(gè) QApplication 對(duì)象，管理應(yīng)用程序的資源。第六行：QLabel 對(duì)象，QLabel 是一個(gè) Qt 提供的小控件，顯示一行文本。第七

2023-09-28 06:29:37

【KV260視覺(jué)入門套件試用體驗(yàn)】七、VITis AI字符和文本檢測(cè)（OCR&Textmountain）

sample_ocr.jpg OCR 該網(wǎng)絡(luò)用于光學(xué)字符識(shí)別，包括文本檢測(cè)和文本識(shí)別。該網(wǎng)絡(luò)由 ResNet-FPN 特征提取器、檢測(cè)分支和識(shí)別分支構(gòu)成。此模型由 ICDAR-2017 數(shù)據(jù)集進(jìn)行訓(xùn)練。輸入為包含

2023-09-26 16:31:59

機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘方法和應(yīng)用

機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘方法和應(yīng)用（經(jīng)典）

2023-09-26 07:56:49

HFSS電磁仿真設(shè)計(jì)應(yīng)用詳解

HFSS電磁仿真設(shè)計(jì)應(yīng)用詳解》隨書(shū)hfss仿真模型

2023-09-26 07:36:36

基于Json格式的文本視圖驗(yàn)證工具

2023-09-19 09:15:28

關(guān)于數(shù)據(jù)挖掘的十種算法原理講解

數(shù)據(jù)挖掘主要分為三類：分類算法、聚類算法和相關(guān)規(guī)則，基本涵蓋了當(dāng)前商業(yè)市場(chǎng)對(duì)算法的所有需求。這三類包含了許多經(jīng)典算法。市面上很多關(guān)于數(shù)據(jù)挖掘算法的介紹都是深?yuàn)W難懂的。今天我就用我的理解給大家介紹一下數(shù)據(jù)挖掘十大經(jīng)典算法的原理，幫助大家快速理解。

2023-09-18 15:00:10

604

一文弄懂?dāng)?shù)據(jù)挖掘的十大算法，數(shù)據(jù)挖掘算法原理講解

2023-09-14 15:56:25

496

什么是VIM？VIM文本編輯器的三種工作模式

Vim (Vi improved)是從 Vi 發(fā)展出來(lái)的一個(gè)文本編輯器，簡(jiǎn)單的來(lái)說(shuō)，Vi 是老式的文本處理器，功能已經(jīng)很齊全了，但還是有可以進(jìn)步的地方。

2023-09-06 16:04:35

1188

華為盤古大模型與ChatGPT的技術(shù)優(yōu)勢(shì)

大規(guī)模預(yù)訓(xùn)練：華為盤古大模型采用了大規(guī)模預(yù)訓(xùn)練的方法，通過(guò)對(duì)大量的中文語(yǔ)料進(jìn)行預(yù)訓(xùn)練，使模型具有更強(qiáng)的泛化能力和適應(yīng)能力。

2023-09-05 09:58:32

1424

纜索挖掘機(jī)維護(hù)—小傳感器，大作用！

機(jī)器部件，并允許上部部件旋轉(zhuǎn)。在進(jìn)行維護(hù)工作時(shí)，必須將上部結(jié)構(gòu)從底盤上抬起，這需要借助液壓裝置。在圖中所示的纜索挖掘機(jī)上的應(yīng)用中，虹科Dimetix激光測(cè)

2023-09-04 16:05:50

283

虹科案例|纜索挖掘機(jī)維護(hù)—小傳感器，大作用！

纜索挖掘機(jī)的特點(diǎn)是具有堅(jiān)固的部件，如上部結(jié)構(gòu)、回轉(zhuǎn)環(huán)和底盤。底盤是用于移動(dòng)挖掘機(jī)的下部機(jī)械部件，根據(jù)尺寸和型號(hào)的不同，由輪子或履帶引導(dǎo)，并承載可轉(zhuǎn)動(dòng)的上部車廂?；剞D(zhuǎn)環(huán)連接上部和下部機(jī)器部件，并允許上部部件旋轉(zhuǎn)。在進(jìn)行維護(hù)工作時(shí)，必須將上部結(jié)構(gòu)從底盤上抬起，這需要借助液壓裝置。

2023-09-04 11:42:33

224

聚類問(wèn)題的提出#Python

電源電路python

未來(lái)加油dz發(fā)布于 2023-09-03 16:58:25

K均值聚類#Python

嵌入式編程python

未來(lái)加油dz發(fā)布于 2023-09-03 16:44:12

NVIDIA 攜手騰訊開(kāi)發(fā)和優(yōu)化 Spark UCX 實(shí)現(xiàn)性能躍升

騰訊網(wǎng)絡(luò)平臺(tái)部與數(shù)據(jù)平臺(tái)部，聯(lián)合 NVIDIA 合作開(kāi)發(fā)和優(yōu)化 Spark UCX，最終實(shí)現(xiàn) Spark Shuffle 穩(wěn)定加速 15% - 20%，平均降低現(xiàn)網(wǎng) Spark 任務(wù)

2023-08-25 20:50:02

391

機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的區(qū)別機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的關(guān)系

機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的區(qū)別，機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的關(guān)系機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘是如今熱門的領(lǐng)域。隨著數(shù)據(jù)規(guī)模的不斷擴(kuò)大，越來(lái)越多的人們認(rèn)識(shí)到數(shù)據(jù)分析的重要性。但是，機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘在實(shí)踐中常常被混淆

2023-08-17 16:30:00

1368

數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)之間的關(guān)系

數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)之間的關(guān)系數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)是兩個(gè)非常相關(guān)的領(lǐng)域，但是在很多情況下它們被誤解為是同一種東西。事實(shí)上，數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)有很多的不同之處，但也有很多的相似之處。在本文中，我們將探討

2023-08-17 16:29:54

2003

數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)有什么關(guān)系

數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)有什么關(guān)系數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)是兩個(gè)不同的概念，但它們有一些重要的相似之處。這篇文章將詳細(xì)介紹數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)之間的關(guān)系以及它們?cè)诂F(xiàn)代數(shù)據(jù)科學(xué)中的作用。一、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)

2023-08-17 16:29:50

1821

數(shù)據(jù)挖掘十大算法

數(shù)據(jù)挖掘十大算法數(shù)據(jù)挖掘是目前最熱門的技術(shù)和概念之一。數(shù)據(jù)挖掘是一種利用現(xiàn)代數(shù)據(jù)分析技術(shù)發(fā)現(xiàn)、提取和分析數(shù)據(jù)中有價(jià)值信息的過(guò)程。數(shù)據(jù)挖掘可以幫助人們發(fā)現(xiàn)數(shù)據(jù)背后的規(guī)律和趨勢(shì)，從而為業(yè)務(wù)決策和優(yōu)化

2023-08-17 16:29:48

1591

python數(shù)據(jù)挖掘案例

python數(shù)據(jù)挖掘案例 Python數(shù)據(jù)挖掘在各個(gè)領(lǐng)域中應(yīng)用非常廣泛。它可以幫助我們從大量的數(shù)據(jù)中挖掘出有價(jià)值的信息，從而為決策和優(yōu)化提供依據(jù)。本文將介紹一些Python數(shù)據(jù)挖掘的案例，以展示

2023-08-17 16:29:45

710

python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)

python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí) Python是一個(gè)非常流行的編程語(yǔ)言，被廣泛用于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域。在本篇文章中，我們將探討Python在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中的應(yīng)用，并介紹一些Python中常

2023-08-17 16:29:38

818

機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的對(duì)比與區(qū)別

機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的對(duì)比與區(qū)別? 機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘是當(dāng)前互聯(lián)網(wǎng)行業(yè)中最熱門的領(lǐng)域之一。雖然它們之間存在一些對(duì)比和區(qū)別，但它們的共同點(diǎn)是研究如何有效地從海量數(shù)據(jù)中提取信息和洞察，并用于支持業(yè)務(wù)決策

2023-08-17 16:11:33

1013

HarmonyOS/OpenHarmony應(yīng)用開(kāi)發(fā)-ArkTSAPI組件總體分類與說(shuō)明（下）

多行文本輸入框組件，當(dāng)輸入的文本內(nèi)容超過(guò)組件寬度時(shí)會(huì)自動(dòng)換行顯示。 TextInput 單行文本輸入框組件。 PatternLock 圖案密碼鎖組件，以九宮格圖案的方式輸入密碼，用于密碼驗(yàn)證場(chǎng)景

2023-08-17 09:56:07

ide如何設(shè)置中文？

ide不知如何設(shè)置中文，版本是1.9.0。有沒(méi)有大神指教一下，謝謝

2023-08-07 15:05:18

一種基于STM32F407-RT-SPARK開(kāi)發(fā)板的智能花盆設(shè)計(jì)案例

該項(xiàng)目是基于STM32F407-RT-SPARK開(kāi)發(fā)板的智能花盆。通過(guò)溫濕度傳感器和光照傳感器，它能夠監(jiān)測(cè)花盆土壤當(dāng)前的溫濕度和附近的光照強(qiáng)度，并將這三項(xiàng)數(shù)據(jù)實(shí)時(shí)顯示在LCD屏上。

2023-07-28 17:06:37

1799

118.118 聚類的基本邏輯

代碼程序開(kāi)發(fā)

充八萬(wàn)發(fā)布于 2023-07-20 01:18:11

-NLP應(yīng)用分析1-文本分類與聚類、情感分析(2)#人工智能

人工智能

未來(lái)加油dz發(fā)布于 2023-07-19 11:14:54

-NLP應(yīng)用分析1-文本分類與聚類、情感分析(1)#人工智能

人工智能

未來(lái)加油dz發(fā)布于 2023-07-19 11:14:18

數(shù)據(jù)挖掘定義及方法數(shù)據(jù)挖掘在微電子領(lǐng)域的應(yīng)用

制造中的數(shù)據(jù)挖掘流程示意圖，并用主成分分析法分析產(chǎn)生異常的原因，最后得出合理的結(jié)論?！　?shù)據(jù)挖掘及相關(guān)技術(shù)　　1、數(shù)據(jù)挖掘的定義和特點(diǎn)　　數(shù)據(jù)挖掘DM（Data Mining）是對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行一定的處理，從大量的、不完

2023-07-18 15:43:20

WAT技術(shù)詳解

2023-07-17 11:40:44

627

聚類#機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

未來(lái)加油dz發(fā)布于 2023-07-14 16:59:15

5G切換信令流程詳解

2023-07-13 10:49:48

4055

4原型聚類層次聚類(2)#大數(shù)據(jù)機(jī)器人

機(jī)器人

未來(lái)加油dz發(fā)布于 2023-07-10 20:26:51

4原型聚類層次聚類(1)#大數(shù)據(jù)機(jī)器人

機(jī)器人

未來(lái)加油dz發(fā)布于 2023-07-10 20:26:17

3 原型聚類密度聚類(2)#大數(shù)據(jù)機(jī)器人

機(jī)器人

未來(lái)加油dz發(fā)布于 2023-07-10 20:25:46

3 原型聚類密度聚類(1)#大數(shù)據(jù)機(jī)器人

機(jī)器人

未來(lái)加油dz發(fā)布于 2023-07-10 20:25:09

使用Amazon Echo發(fā)送Twilio語(yǔ)音或文本消息

電子發(fā)燒友網(wǎng)站提供《使用Amazon Echo發(fā)送Twilio語(yǔ)音或文本消息.zip》資料免費(fèi)下載

2023-07-10 10:54:18

物理設(shè)計(jì)中的問(wèn)題詳解

2023-07-05 16:56:53

486

為Spark ML算法提供GPU加速度

新的 GPU 庫(kù)降低了 Apache Spark ML 的計(jì)算成本

2023-07-05 16:30:31

532

Spark 3.4用于分布式模型訓(xùn)練和大規(guī)模模型推理

使用 Spark 3.4 簡(jiǎn)化分布式深度學(xué)習(xí)

2023-07-05 16:30:28

711

面向結(jié)構(gòu)化數(shù)據(jù)的文本生成技術(shù)研究

今天我們要講的文本生成是現(xiàn)在最流行的研究領(lǐng)域之一。文本生成的目標(biāo)是讓計(jì)算機(jī)像人類一樣學(xué)會(huì)表達(dá)，目前看基本上接近實(shí)現(xiàn)。這些突然的技術(shù)涌現(xiàn)，使得計(jì)算機(jī)能夠撰寫(xiě)出高質(zhì)量的自然文本，滿足特定的需求。

2023-06-26 14:39:03

308

Linux系統(tǒng)中的10個(gè)常用的文本查看命令

當(dāng)你需要查看Linux系統(tǒng)中的文本文件時(shí)，使用文本編輯器可能會(huì)比較繁瑣，特別是當(dāng)你只需要查看文件的內(nèi)容時(shí)。這時(shí)，你可以使用Linux命令行下的文本查看工具來(lái)快速準(zhǔn)確地查看文件。下面介紹了10個(gè)常用

2023-06-24 11:44:59

8994

如何使用Visuino在M5StickC ESP32上顯示文本

電子發(fā)燒友網(wǎng)站提供《如何使用Visuino在M5StickC ESP32上顯示文本.zip》資料免費(fèi)下載

2023-06-16 15:22:23

基于文本到圖像模型的可控文本到視頻生成

1. 論文信息 2. 引言 ? 大規(guī)模擴(kuò)散模型在文本到圖像合成方面取得了巨大的突破，并在創(chuàng)意應(yīng)用方面取得了成功。一些工作試圖在視頻領(lǐng)域復(fù)制這個(gè)成功，即在野外世界建模高維復(fù)雜視頻分布。然而，訓(xùn)練這樣

2023-06-14 10:39:14

536

NLP中的遷移學(xué)習(xí)：利用預(yù)訓(xùn)練模型進(jìn)行文本分類

遷移學(xué)習(xí)徹底改變了自然語(yǔ)言處理（NLP）領(lǐng)域，允許從業(yè)者利用預(yù)先訓(xùn)練的模型來(lái)完成自己的任務(wù)，從而大大減少了訓(xùn)練時(shí)間和計(jì)算資源。在本文中，我們將討論遷移學(xué)習(xí)的概念，探索一些流行的預(yù)訓(xùn)練模型，并通過(guò)實(shí)際示例演示如何使用這些模型進(jìn)行文本分類。我們將使用擁抱面轉(zhuǎn)換器庫(kù)來(lái)實(shí)現(xiàn)。

2023-06-14 09:30:14

293

博途V15-多語(yǔ)言文本的管理

只能編輯淺灰色存放的文本。

2023-06-10 11:32:04

1008

在適用Arduino的Adafruit NeoPixel Shield上顯示文本

電子發(fā)燒友網(wǎng)站提供《在適用Arduino的Adafruit NeoPixel Shield上顯示文本.zip》資料免費(fèi)下載

2023-06-09 10:24:16

使用Arduino的LCD I2C閃爍文本

電子發(fā)燒友網(wǎng)站提供《使用Arduino的LCD I2C閃爍文本.zip》資料免費(fèi)下載

2023-06-09 10:04:39

[源代碼]Python算法詳解

[源代碼]Python算法詳解[源代碼]Python算法詳解

2023-06-06 17:50:17

sp-12f中使用wifimanager進(jìn)行wifi配置，連接時(shí)如何在wifimanager中自定義文本？

大家好，我在我的 esp-12f 中使用 wifimanager 進(jìn)行 wifi 配置，想知道有沒(méi)有一種方法可以自定義文本，上面寫(xiě)著“保存憑據(jù)..嘗試將 esp 連接到網(wǎng)絡(luò)” 附件是圖像

2023-06-01 12:01:11

PFC電路詳解教程

2023-05-31 18:12:07

智慧挖掘機(jī)三維可視化遠(yuǎn)程遙控運(yùn)維

挖掘機(jī)

阿梨是蘋果發(fā)布于 2023-05-29 09:22:57

PDF專業(yè)版密文使用指南

1、標(biāo)記為密文修改功能允許您在將文檔提供給其他人之前從文檔中刪除敏感信息。以下選項(xiàng)將允許您標(biāo)記文本或圖形以進(jìn)行修改：要標(biāo)記文本或圖形進(jìn)行修改，請(qǐng)執(zhí)行以下操作：選擇“保護(hù)”>“標(biāo)記密文”按鈕

2023-05-23 11:39:15

699

某CMS的命令執(zhí)行漏洞通用挖掘思路分享

大概是在上半年提交了某個(gè)CMS的命令執(zhí)行漏洞，現(xiàn)在過(guò)了那么久，也想通過(guò)這次挖掘通用型漏洞，整理一下挖掘思路，分享給大家。

2023-05-18 17:18:58

2147

如何用PyQt5做圖形界面（二）

今天介紹文本相關(guān)的三個(gè)組件：QLabel、QLineEdit、QTextEdit。三者的區(qū)別是：QLabel一般用來(lái)顯示提示性的文本或者說(shuō)明，用戶不可以直接修改內(nèi)容。QLineEdit用來(lái)收集用戶輸入（單行文本，不能換行）。而QTextEdit用來(lái)收集用戶輸入的一大段文字。

2023-05-05 14:44:27

361

“伶荔”(Linly) 開(kāi)源大規(guī)模中文語(yǔ)言模型

Linly-Chinese-LLaMA：中文基礎(chǔ)模型，基于 LLaMA 在高質(zhì)量中文語(yǔ)料上增量訓(xùn)練強(qiáng)化中文語(yǔ)言能力，現(xiàn)已開(kāi)放 7B、13B 和 33B 量級(jí)，65B 正在訓(xùn)練中。

2023-05-04 10:29:07

705

如何從arduino發(fā)送文本到arduino？

從arduino發(fā)送文本到arduino

2023-05-04 07:45:43

Linux中g(shù)rep、sed和awk命令詳解

今天給大家聊一聊Linux中文本操作的`三劍客:awk、grep、sed`，因其功能強(qiáng)大、使用頻繁，且是Linux下文本處理的得力利器，常被稱之為`文本三劍客`。`grep`常用于查找，`sed`常用于取行和替換，而`awk`常用于運(yùn)算。

2023-04-26 17:20:58

1791

什么是AI計(jì)算？

首先，用戶（通常是數(shù)據(jù)科學(xué)家）需要整理和準(zhǔn)備數(shù)據(jù)集，這個(gè)階段稱為提取/轉(zhuǎn)換/加載（ETL）。這項(xiàng)工作現(xiàn)在可以通過(guò) Apache Spark 3.0 在 NVIDIA GPU 上加速進(jìn)行。Apache Spark 是目前最流行的開(kāi)源大數(shù)據(jù)挖掘引擎之一。

2023-04-12 09:46:50

1166

分析Hive與Spark分區(qū)策略的異同點(diǎn)

隨著技術(shù)的不斷的發(fā)展，大數(shù)據(jù)領(lǐng)域?qū)τ诤Ａ繑?shù)據(jù)的存儲(chǔ)和處理的技術(shù)框架越來(lái)越多。在離線數(shù)據(jù)處理生態(tài)系統(tǒng)最具代表性的分布式處理引擎當(dāng)屬Hive和Spark，它們?cè)诜謪^(qū)策略方面有著一些相似之處，但也存在一些不同之處。

2023-04-11 09:03:07

443

挖掘機(jī)工作狀態(tài)遠(yuǎn)程監(jiān)控物聯(lián)網(wǎng)解決方案

挖掘機(jī)作為一種工程施工的大型機(jī)械設(shè)備，是鐵路、建筑、水利、石油天然氣管道以及采礦等行業(yè)中必不可少的存在。由于挖掘機(jī)長(zhǎng)期在戶外工作，同時(shí)涉及范圍遍布全國(guó)，導(dǎo)致其工作監(jiān)控十分困難，對(duì)其進(jìn)行智能管理、維護(hù)

2023-04-04 17:30:50

633