黄色网页视频 I 影音先锋日日狠狠久久 I 秋霞午夜毛片 I 秋霞一二三区 I 国产成人片无码视频 I 国产 精品 自在自线 I av免费观看网站 I 日本精品久久久久中文字幕5 I 91看视频 I 看全色黄大色黄女片18 I 精品不卡一区 I 亚洲最新精品 I 欧美 激情 在线 I 人妻少妇精品久久 I 国产99视频精品免费专区 I 欧美影院 I 欧美精品在欧美一区二区少妇 I av大片网站 I 国产精品黄色片 I 888久久 I 狠狠干最新 I 看看黄色一级片 I 黄色精品久久 I 三级av在线 I 69色综合 I 国产日韩欧美91 I 亚洲精品偷拍 I 激情小说亚洲图片 I 久久国产视频精品 I 国产综合精品一区二区三区 I 色婷婷国产 I 最新成人av在线 I 国产私拍精品 I 日韩成人影音 I 日日夜夜天天综合

python實現(xiàn)中文文本分句的例子

系統(tǒng) 2187 0

對于英文文本分句比較簡單,只要根據(jù)終結(jié)符"."劃分就好,中文文本分句看似很簡單,但是實現(xiàn)時會遇到很多麻煩,尤其是處理社交媒體數(shù)據(jù)時,會遇到文本格式不規(guī)范等問題。

下面代碼針對一段一段的短文本組成了文檔分句

            
import re
def cut_sent(infile, outfile):
  cutLineFlag = ["?", "!", "。","…"] #本文使用的終結(jié)符,可以修改
  sentenceList = []
  with open(infile, "r", encoding="UTF-8") as file:
    oneSentence = ""
    for line in file:
      if len(oneSentence)!=0:
        sentenceList.append(oneSentence.strip() + "\r")
        oneSentence=""
      # oneSentence = ""
      for word in words:
        if word not in cutLineFlag:
          oneSentence = oneSentence + word
        else:
          oneSentence = oneSentence + word
          if oneSentence.__len__() > 4:
            sentenceList.append(oneSentence.strip() + "\r")
          oneSentence = ""
  with open(outfile, "w", encoding="UTF-8") as resultFile:
    print(sentenceList.__len__())
    resultFile.writelines(sentenceList)

          

如果段尾3沒有終結(jié)符但是換行了,這句話可能會丟失,所有加入如下代碼:

            
   if len(oneSentence)!=0:
   sentenceList.append(oneSentence.strip() + "\r")
     oneSentence=""
          

會得到比較好的處理結(jié)果

要處理的文本:

            
自從微信出了三天可見功能,我的朋友圈就越來越冷清越來越冷清越來越冷清,點(diǎn)開都沒什么可看的了。今天我把屏蔽的代購一個一個一個都放出來了,快過年了,熱鬧點(diǎn)
一女性,想DIY矯正門牙縫隙,在家自己制取模型,結(jié)果悲劇了,因為用的是石膏,自己無法取出,來我院求助,醫(yī)生廢了九牛二虎之力才搞定……DIY有風(fēng)險,操作需謹(jǐn)慎!
閨女同學(xué)家養(yǎng)了一只鸚鵡,兩只珍珠鳥,一只貓,兩只倉鼠。鸚鵡是老大,珍珠鳥怕它,貓是后進(jìn)家的,也怕鸚鵡。倉鼠經(jīng)常溜出籠子,據(jù)說貓會把它逮住塞回籠子。

          

處理后的文本:

            
自從微信出了三天可見功能,我的朋友圈就越來越冷清越來越冷清越來越冷清,點(diǎn)開都沒什么可看的了。
今天我把屏蔽的代購一個一個一個都放出來了,快過年了,熱鬧點(diǎn)
一女性,想DIY矯正門牙縫隙,在家自己制取模型,結(jié)果悲劇了,因為用的是石膏,自己無法取出,來我院求助,醫(yī)生廢了九牛二虎之力才搞定…
DIY有風(fēng)險,操作需謹(jǐn)慎!
閨女同學(xué)家養(yǎng)了一只鸚鵡,兩只珍珠鳥,一只貓,兩只倉鼠。
鸚鵡是老大,珍珠鳥怕它,貓是后進(jìn)家的,也怕鸚鵡。
倉鼠經(jīng)常溜出籠子,據(jù)說貓會把它逮住塞回籠子。

          

得到了比較好的分句結(jié)果,也不會丟失信息。

以上這篇python實現(xiàn)中文文本分句的例子就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯(lián)系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發(fā)表我的評論
最新評論 總共0條評論