黄色网页视频 I 影音先锋日日狠狠久久 I 秋霞午夜毛片 I 秋霞一二三区 I 国产成人片无码视频 I 国产 精品 自在自线 I av免费观看网站 I 日本精品久久久久中文字幕5 I 91看视频 I 看全色黄大色黄女片18 I 精品不卡一区 I 亚洲最新精品 I 欧美 激情 在线 I 人妻少妇精品久久 I 国产99视频精品免费专区 I 欧美影院 I 欧美精品在欧美一区二区少妇 I av大片网站 I 国产精品黄色片 I 888久久 I 狠狠干最新 I 看看黄色一级片 I 黄色精品久久 I 三级av在线 I 69色综合 I 国产日韩欧美91 I 亚洲精品偷拍 I 激情小说亚洲图片 I 久久国产视频精品 I 国产综合精品一区二区三区 I 色婷婷国产 I 最新成人av在线 I 国产私拍精品 I 日韩成人影音 I 日日夜夜天天综合

Python - 常用庫 - OpenCC(中文繁簡體轉(zhuǎn)換)

系統(tǒng) 3878 0

1. OpenCC介紹

Open Chinese Convert(OpenCC)是一個開源的中文簡繁轉(zhuǎn)換項目,致力于制作高質(zhì)量的基于統(tǒng)計預(yù)料的簡繁轉(zhuǎn)換詞庫。還提供函數(shù)庫(libopencc)、命令行簡繁轉(zhuǎn)換工具、人工校對工具、詞典生成程序、在線轉(zhuǎn)換服務(wù)及圖形用戶界面。

OpenCC具體如下特點

  • 嚴(yán)格區(qū)分「一簡對多繁」、「一簡對多異」和「地域用詞差別」。
  • 支持異體字轉(zhuǎn)換,兼容陸港澳臺等不同地區(qū)用字差別。
  • 嚴(yán)格審校一簡對多繁詞條,原則為「能分則不合」,用戶可自定義合并。
    支持中國大陸、臺灣、香港異體字和地區(qū)習(xí)慣用詞轉(zhuǎn)換,如「裏」「裡」、「鼠標(biāo)」「滑鼠」。
  • 詞庫和函數(shù)庫完全分離,可以自由修改、導(dǎo)入、擴(kuò)展。
  • 支持C、C++、Python、PHP、Node.js等多種語言API,提供命令行直接調(diào)用,以及圖形界面。
  • 兼容Windows、Linux、Mac等多種平臺。

2. OpenCC-python

用法請詳細(xì)參考OpenCC-python in pypi

2.1 安裝

            
              pip install opencc-python

            
          

2.2 使用示例

            
              #!/usr/bin/env python 
#-*- coding: utf8 -*-
import opencc
cc = opencc.OpenCC('t2s')
print cc.convert(u'Open Chinese Convert(OpenCC)「開放中文轉(zhuǎn)換」,是一個致力於中文簡繁轉(zhuǎn)換的項目,提供高質(zhì)量詞庫和函數(shù)庫(libopencc)。')

            
          

OpenCC有4種轉(zhuǎn)換模式

  • t2s - 繁體轉(zhuǎn)簡體
  • s2t - 簡體轉(zhuǎn)繁體
  • mix2t - 混合體轉(zhuǎn)繁體
  • mix2s - 混合體轉(zhuǎn)簡體

3. Shell用法

opencc-python的文本處理效率很低。另外一種提高轉(zhuǎn)換效率的方式是直接在linux下安裝OpenCC,處理效率會有飛一般的提升。

3.1 OpenCC安裝

安裝過程及問題主要參考: CentOS安裝OpenCC

3.1.1 檢查下linux環(huán)境下是否已經(jīng)安裝cmake以及git,如果沒有,那就通過yum安裝好。
            
              $ yum install cmake
$ yum install git

            
          
3.1.2 克隆下OpennCC開源項目OpennCC開源項目。
            
              git clone https://github.com/BYVoid/OpenCC

            
          
3.1.3 編譯OpenCC
            
              $ cd OpenCC
$ make
$ make install

            
          
3.1.4 創(chuàng)建libopencc.so.2鏈接

如果不知道libopencc.so.2的路徑,可以通過find / -name libopencc.so.2查找。

            
              $ ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2

            
          
3.1.5 通過查看 OpenCC 版本,檢查OpenCC是否已經(jīng)安裝成功
            
              $ opencc --version

            
          

3.2 OpenCC使用

            
              #繁體轉(zhuǎn)簡體
$ echo '歐幾里得 西元前三世紀(jì)的希臘數(shù)學(xué)家' | opencc -c t2s
歐幾里得 西元前三世紀(jì)的希臘數(shù)學(xué)家
#簡體轉(zhuǎn)繁體
$ echo '歐幾里得 西元前三世紀(jì)的希臘數(shù)學(xué)家' | opencc -c s2t
歐幾里得 西元前三世紀(jì)的希臘數(shù)學(xué)家
#可以通過以下方式直接對文件進(jìn)行繁簡轉(zhuǎn)換
$ opencc -i zhwiki_raw.txt -o zhwiki_t2s.txt -c t2s.json

            
          

更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯(lián)系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發(fā)表我的評論
最新評論 總共0條評論