欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

python sklearn CountVectorizer的使用及相關說明

系統 2196 0

最近想用python對數據集進行數據預處理,想要分析系統調用之間的關系。初步想法是利用n-gram方法,因此查詢到了python的sklearn中有一個CountVectorizer方法可以使用,在這里介紹一下這個函數的使用方法,以及其輸出的相關含義。

0x01 輸入及輸出

            
              from sklearn.feature_extraction.text import CountVectorizer
# from sklearn.feature_extraction.text import TfidfTransformer
import pandas as pd

data = ['I love you', 'you are my angle are']


vecl = CountVectorizer(ngram_range=(1, 1), binary=False, token_pattern='\w{1,}')
xl = vecl.fit_transform(data)
print(vecl.get_feature_names())  # 特征名稱
print(vecl.vocabulary_)             # 特征在列表中的索引位置
X = vecl.fit_transform(data)
print(X)
df = pd.DataFrame(X.toarray(), columns=vecl.get_feature_names()) # to DataFrame
print(df.head())
            
          

首先調用CountVectorizer方法,其中的幾個參數意義如下:

ngram_range:(1,1)表示1-gram (2,2)表示2-gram? ?(1,2)表示1-gram + 2-gram

binary:FALSE表示不將文本進行二進制表示

token_pattern:通過正則表達式來確定哪些數據被過濾掉,默認情況下單個英文字母會被過濾掉,代碼中的\w{1,}可以避免這種情況

            fit_transform(data) 用來對數據進行處理,表示成n-gram的形式
          
            get_feature_names()來獲取都獲取了哪特征
          
            vocabulary_用來表示特征在get_feature_names()中的列表中的位置
          

調用pandas庫主要用于將特征以及生成的稀疏矩陣用表的形式展現出來

以下為輸出結果:

python sklearn CountVectorizer的使用及相關說明_第1張圖片

圖中第一行為獲取的特征

第二行為各個特征的索引號,例如‘i’:2 表示字符i在特征表中的索引為2

第三部分為稀疏矩陣 正常的輸出矩陣如下面的一部分所示, (0,2) 1? 表示在全部矩陣的第0行第2列有數據1 在稀疏矩陣中沒有表示的索引全部為0

第四部分為全部矩陣 最左側的一列表示文本的索引號,0表示第一個文本 'I love you'? ?1表示'you are my angle are'

再看第二列 angle在0行值為0,在1行值為1 表示angle在一個文本中沒有出現,在第二個文本中出現了一次

同理 第二列表示are在第一個文本中沒有出現,在第二個文本中出現了兩次。

?


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 国产小视频在线观看www | 拍拍拍无遮挡高清视频在线网站 | 久久一区二区三区免费播放 | 91精品国产一区二区三区蜜臀 | 国产成人小视频在线观看 | 精品一区二区三区四区 | 色噜噜影院 | 色视频在线免费观看 | 99精品一区二区免费视频 | 欧美日韩在线免费观看 | 国产成人微拍精品 | 久久久久久久免费看 | 色偷偷精品视频在线播放放 | 日韩欧美一区二区三区免费观看 | 大毛片 | 夜夜夜夜猛噜噜噜噜噜 | 日本高清不卡在线 | 四虎免费在线视频 | 琪琪色在线视频 | 久久久久成人免费 | 日韩高清在线亚洲专区vr | 国产精品福利视频手机免费观看 | 国产福利在线观看永久免费 | 夜夜爽夜夜叫夜夜高潮漏水 | 黄免费在线 | 7777精品伊人久久久大香线蕉 | 鲁丝片一区二区三区免费 | 久久综合亚洲一区二区三区 | 瑟瑟综合 | 国产高清在线精品一区二区三区 | 日本一级特黄视频 | 久久亚洲日本不卡一区二区 | 99视频在线观看精品 | 在线a视频网站 | 黑人精品欧美一区二区蜜桃 | 999精品嫩草久久久久久99 | 亚欧乱色一区二区三区 | 草久久免费视频 | 奇米影视四色7777 | 九九久久精品 | 成人片网址|