Oracle字符集問題
一.引言
?
??? ORACLE數(shù)據(jù)庫字符集,即Oracle全球化支持(Globalization Support),或即國家語言支持(NLS)其作用是用本國語言和格式來存儲、處理和檢索數(shù)據(jù)。利用全球化支持,ORACLE為用戶提供自己熟悉的數(shù)據(jù) 庫母語環(huán)境,諸如日期格式、數(shù)字格式和存儲序列等。Oracle可以支持多種語言及字符集,其中oracle8i支持48種語言、76個國家地域、229 種字符集,而oracle9i則支持57種語言、88個國家地域、235種字符集。由于oracle字符集種類多,且在存儲、檢索、遷移oracle數(shù)據(jù) 時多個環(huán)節(jié)與字符集的設(shè)置密切相關(guān),因此在實(shí)際的應(yīng)用中,數(shù)據(jù)庫開發(fā)和管理人員經(jīng)常會遇到有關(guān)oracle字符集方面的問題。本文通過以下幾個方面闡述, 對oracle字符集做簡要分析
?
二.字符集基本知識
?
2.1字符集
??? 實(shí)質(zhì)就是按照一定的字符編碼方案,對一組特定的符號,分別賦予不同數(shù)值編碼的集合。Oracle數(shù)據(jù)庫最早支持的編碼方案是US7ASCII。
??? Oracle的字符集命名遵循以下命名規(guī)則:
??? <Language><bit size><encoding>
??? 即:? <語言><比特位數(shù)><編碼>
??? 比如: ZHS16GBK表示采用GBK編碼格式、16位(兩個字節(jié))簡體中文字符集
?
2.2字符編碼方案
2.2.1 單字節(jié)編碼
??? (1)單字節(jié)7位字符集,可以定義128個字符,最常用的字符集為US7ASCII
??? (2)單字節(jié)8位字符集,可以定義256個字符,適合于歐洲大部分國家
????????????? 例如:WE8ISO8859P1(西歐、8位、ISO標(biāo)準(zhǔn)8859P1編碼),iso8859-1 都應(yīng)用于英文系列.
2.2.2 多字節(jié)編碼
??? (1)變長多字節(jié)編碼
????????????? 某些字符用一個字節(jié)表示,其它字符用兩個或多個字符表示,變長多字節(jié)編碼常用于對亞洲語言的支持,?? 例如日語、漢語、印地語等
????????????? 例如:AL32UTF8(其中AL代表ALL,指適用于所有語言)、zhs16cgb231280
??? (2)定長多字節(jié)編碼
????????????? 每一個字符都使用固定長度字節(jié)的編碼方案,目前oracle唯一支持的定長多字節(jié)編碼是AF16UTF16,也僅用于國家字符集2.2.3 unicode編碼
????????????? Unicode是一個涵蓋了目前全世界使用的所有已知字符的單一編碼方案,也就是說Unicode為每一個字符提供唯一的編碼。UTF-16是 unicode的16位編碼方式,是一種定長多字節(jié)編碼,用2個字節(jié)表示一個unicode字符,AF16UTF16是UTF-16編碼字符集。
????????????? UTF-8是unicode的8位編碼方式,是一種變長多字節(jié)編碼,這種編碼可以用1、2、3個字節(jié)表示一個unicode字符,AL32UTF8,UTF8、UTFE是UTF-8編碼字符集。
下面介紹幾鐘常用的字符編碼集 :
iso8859-1
屬于單字節(jié)編碼,最多能表示的字符范圍是0-255,應(yīng)用于英文系列。比如,字母'a'的編碼為0x61=97。很明顯,iso8859-1編 碼表示的字符范圍很窄,無法表示中文字符。但是,由于是單字節(jié)編碼,和計(jì)算機(jī)最基礎(chǔ)的表示單位一致,所以很多時候,仍舊使用iso8859-1編碼來表 示。而且在很多協(xié)議上,默認(rèn)使用該編碼。比如,雖然"中文"兩個字不存在iso8859-1編碼,以gb2312編碼為例,應(yīng)該是"d6d0 cec4"兩個字符,使用iso8859-1編碼的時候則將它拆開為4個字節(jié)來表示:"d6 d0 ce c4"(事實(shí)上,在進(jìn)行存儲的時候,也是以字節(jié)為單位處理的)。而如果是UTF編碼,則是6個字節(jié)"e4 b8 ad e6 96 87"。很明顯,這種表示方法還需要以另一種編碼為基礎(chǔ)。
GB2312/GBK
這就是漢字的國標(biāo)碼,專門用來表示漢字,是雙字節(jié)編碼,而英文字母和iso8859-1一致(兼容iso8859-1編碼)。其中g(shù)bk編碼能夠用來同時表示繁體字和簡體字,而gb2312只能表示簡體字,gbk是兼容gb2312編碼的。
???????? unicode
??????? 這是最統(tǒng)一的編碼,可以用來表示所有語言的字符,而且是定長雙字節(jié)(也有四字節(jié)的)編碼,包括英文字母在內(nèi)。所以可以說它是不兼iso8859-1編碼 的,也不兼容任何編碼。不過,相對于iso8859-1編碼來說,uniocode編碼只是在前面增加了一個0字節(jié),比如字母'a'為"00 61"。需要說明的是,定長編碼便于計(jì)算機(jī)處理(注意GB2312/GBK不是定長編碼),而unicode又可以用來表示所有字符,所以在很多軟件內(nèi)部 是使用unicode編碼來處理的,比如java。
???????? UTF
???????? 考慮到unicode編碼不兼容iso8859-1編碼,而且容易占用更多的空間:因?yàn)閷τ谟⑽淖帜福瑄nicode也需要兩個字節(jié)來表示。所以 unicode不便于傳輸和存儲。因此而產(chǎn)生了utf編碼,utf編碼兼容iso8859-1編碼,同時也可以用來表示所有語言的字符,不過,utf編碼 是不定長編碼,每一個字符的長度從1-6個字節(jié)不等。另外,utf編碼自帶簡單的校驗(yàn)功能。一般來講,英文字母都是用一個字節(jié)表示,而漢字使用三個字節(jié)。 注意,雖然說utf是為了使用更少的空間而使用的,但那只是相對于unicode編碼來說,如果已經(jīng)知道是漢字,則使用GB2312/GBK無疑是最節(jié)省 的。不過另一方面,值得說明的是,雖然utf編碼對漢字使用3個字節(jié),但即使對于漢字網(wǎng)頁,utf編碼也會比unicode編碼節(jié)省,因?yàn)榫W(wǎng)頁中包含了很 多的英文字符。
?
2.3 字符集超級
????????????? 當(dāng)一種字符集(字符集A)的編碼數(shù)值包含所有另一種字符集(字符集B)的編碼數(shù)值,并且兩種字符集相同編碼數(shù)值代表相同的字符時,則字符集A是字符集B的超級,或稱字符集B是字符集A的子集。
????????????? Oracle8i和oracle9i官方文檔資料中備有子集-超級對照表(subset-superset pairs),例如:WE8ISO8859P1是WE8MSWIN1252的子集。由于US7ASCII是最早的Oracle數(shù)據(jù)庫編碼格式,因此有許多 字符集是US7ASCII的超集,例如WE8ISO8859P1、ZHS16CGB231280、ZHS16GBK都是US7ASCII的超集。
?
2.4 數(shù)據(jù)庫字符集(oracle服務(wù)器端字符集)
???? 數(shù)據(jù)庫字符集在創(chuàng)建數(shù)據(jù)庫時指定,在創(chuàng)建后通常不能更改。在創(chuàng)建數(shù)據(jù)庫時,可以指定字符集(CHARACTER SET)和國家字符集(NATIONAL CHARACTER SET)。
2.4.1字符集
??? (1)用來存儲CHAR, VARCHAR2, CLOB, LONG等類型數(shù)據(jù)
??? (2)用來標(biāo)示諸如表名、列名以及PL/SQL變量等
??? (3)用來存儲SQL和PL/SQL程序單元等
2.4.2國家字符集:
??? (1)用以存儲NCHAR, NVARCHAR2, NCLOB等類型數(shù)據(jù)
??? (2)國家字符集實(shí)質(zhì)上是為oracle選擇的附加字符集,主要作用是為了增強(qiáng)oracle的字符處理能力,因?yàn)镹CHAR數(shù)據(jù)類型可以提供對亞洲使用定 長多字節(jié)編碼的支持,而數(shù)據(jù)庫字符集則不能。國家字符集在oracle9i中進(jìn)行了重新定義,只能在unicode編碼中的AF16UTF16和UTF8 中選擇,默認(rèn)值是AF16UTF16
2.4.3查詢字符集參數(shù)
??? 可以查詢以下數(shù)據(jù)字典或視圖查看字符集設(shè)置情況
??? nls_database_parameters、props$、v$nls_parameters
??? 查詢結(jié)果中NLS_CHARACTERSET表示字符集,NLS_NCHAR_CHARACTERSET表示國家字符集
2.4.4修改數(shù)據(jù)庫字符集
??? 按照上文所說,數(shù)據(jù)庫字符集在創(chuàng)建后原則上不能更改。如果需要修改字符集,通常需要導(dǎo)出數(shù)據(jù)庫數(shù)據(jù),重建數(shù)據(jù)庫,再導(dǎo)入數(shù)據(jù)庫數(shù)據(jù)的方式來轉(zhuǎn)換,或通過 ALTER DATABASE CHARACTER SET語句修改字符集,但創(chuàng)建數(shù)據(jù)庫后修改字符集是有限制的,只有新的字符集是當(dāng)前字符集的超集時才能修改數(shù)據(jù)庫字符集,例如UTF8是US7ASCII 的超集,修改數(shù)據(jù)庫字符集可使用ALTER DATABASE CHARACTER SET UTF8。
2.4.5查詢Oracle Server端字符集
????
SQL>select userenv(‘language’) from dual;
?
2.5 客戶端字符集(NLS_LANG參數(shù))
2.5.1客戶端字符集含義
??? 客戶端字符集定義了客戶端字符數(shù)據(jù)的編碼方式,任何發(fā)自或發(fā)往客戶端的字符數(shù)據(jù)均使用客戶端定義的字符集編碼,客戶端可以看作是能與數(shù)據(jù)庫直接連接的各種應(yīng)用,例如sqlplus,exp/imp等。客戶端字符集是通過設(shè)置NLS_LANG參數(shù)來設(shè)定的。
2.5.2 NLS_LANG參數(shù)格式
??? NLS_LANG=<language>_<territory>.<client character set>
??? Language:顯示oracle消息,校驗(yàn),日期命名
??? Territory:指定默認(rèn)日期、數(shù)字、貨幣等格式
??? Client character set:指定客戶端將使用的字符集
??? 例如:NLS_LANG=AMERICAN_AMERICA.US7ASCII?
??? AMERICAN是語言,AMERICA是地區(qū),US7ASCII是客戶端字符集
2.5.3客戶端字符集設(shè)置方法
???? 1)UNIX環(huán)境
???????? $NLS_LANG=“simplified chinese”_china.zhs16gbk
???????? $export NLS_LANG
???????? 編輯oracle用戶的profile文件
??? 2)Windows環(huán)境
???????? 編輯注冊表
???????? Regedit.exe---HKEY_LOCAL_MACHINE---SOFTWARE---ORACLE—HOME0
2.5.4 NLS參數(shù)查詢
??? Oracle提供若干NLS參數(shù)定制數(shù)據(jù)庫和用戶機(jī)以適應(yīng)本地格式,例如有NLS_LANGUAGE,NLS_DATE_FORMAT,NLS_CALENDER等,可以通過查詢以下數(shù)據(jù)字典或v$視圖查看。
??? NLS_DATABASE_PARAMETERS--顯示數(shù)據(jù)庫當(dāng)前NLS參數(shù)取值,包括數(shù)據(jù)庫字符集取值
??? NLS_SESSION_PARAMETERS--顯示由NLS_LANG 設(shè)置的參數(shù),或經(jīng)過alter session 改變后的參數(shù)值(不包括由NLS_LANG 設(shè)置的客戶端字符集)
??? NLS_INSTANCE_PARAMETE--顯示由參數(shù)文件init<SID>.ora 定義的參數(shù)V$NLS_PARAMETERS--顯示數(shù)據(jù)庫當(dāng)前NLS參數(shù)取值
2.5.5修改NLS參數(shù)
??? 使用下列方法可以修改NLS參數(shù)
??? (1)修改實(shí)例啟動時使用的初始化參數(shù)文件
??? (2)修改環(huán)境變量NLS_LANG
??? (3)使用ALTER SESSION語句,在oracle會話中修改
??? (4)使用某些SQL函數(shù)
??? NLS作用優(yōu)先級別:Sql function>alter session>環(huán)境變量或注冊表>參數(shù)文件>數(shù)據(jù)庫默認(rèn)參數(shù)
?
三.導(dǎo)入/導(dǎo)出與字符集轉(zhuǎn)換
?
3.1 EXP/IMP
??? Export 和 Import 是一對讀寫Oracle數(shù)據(jù)的工具。Export 將 Oracle 數(shù)據(jù)庫中的數(shù)據(jù)輸出到操作系統(tǒng)文件中, Import 把這些文件中的數(shù)據(jù)讀到Oracle 數(shù)據(jù)庫中,由于使用exp/imp進(jìn)行數(shù)據(jù)遷移時,數(shù)據(jù)從源數(shù)據(jù)庫到目標(biāo)數(shù)據(jù)庫的過程中有四個環(huán)節(jié)涉及到字符集,如果這四個環(huán)節(jié)的字符集不一致,將會發(fā)生 字符集轉(zhuǎn)換。
?
????? EXP???????????????????????
????? IMP???????????????????????
?
??? 四個字符集是
?? (1)源數(shù)據(jù)庫字符集
?? (2)Export過程中用戶會話字符集(通過NLS_LANG設(shè)定)
?? (3)Import過程中用戶會話字符集(通過NLS_LANG設(shè)定)
?? (4)目標(biāo)數(shù)據(jù)庫字符集
?
3.2導(dǎo)出的轉(zhuǎn)換過程
??? 在Export過程中,如果源數(shù)據(jù)庫字符集與Export用戶會話字符集不一致,會發(fā)生字符集轉(zhuǎn)換,并在導(dǎo)出文件的頭部幾個字節(jié)中存儲Export用戶會話字符集的ID號。在這個轉(zhuǎn)換過程中可能發(fā)生數(shù)據(jù)的丟失。
例:如果源數(shù)據(jù)庫使用ZHS16GBK,而Export用戶會話字符集使用US7ASCII,由于ZHS16GBK是16位字符集,而US7ASCII是 7位字符集,這個轉(zhuǎn)換過程中,中文字符在US7ASCII中不能夠找到對等的字符,所以所有中文字符都會丟失而變成“?? ”形式,這樣轉(zhuǎn)換后生成的Dmp文件已經(jīng)發(fā)生了數(shù)據(jù)丟失。
因此如果想正確導(dǎo)出源數(shù)據(jù)庫數(shù)據(jù),則Export過程中用戶會話字符集應(yīng)等于源數(shù)據(jù)庫字符集或是源數(shù)據(jù)庫字符集的超集。
?
3.3導(dǎo)入的轉(zhuǎn)換過程
??? (1)確定導(dǎo)出數(shù)據(jù)庫字符集環(huán)境
??? 通過讀取導(dǎo)出文件頭,可以獲得導(dǎo)出文件的字符集設(shè)置
??? (2)確定導(dǎo)入session的字符集,即導(dǎo)入Session使用的NLS_LANG環(huán)境變量
??? (3)IMP讀取導(dǎo)出文件
??? 讀取導(dǎo)出文件字符集ID,和導(dǎo)入進(jìn)程的NLS_LANG進(jìn)行比較
??? (4)如果導(dǎo)出文件字符集和導(dǎo)入Session字符集相同,那么在這一步驟內(nèi)就不需要轉(zhuǎn)換,如果不同,就需要把數(shù)據(jù)轉(zhuǎn)換為導(dǎo)入Session使用的字符集??梢钥闯觯瑢?dǎo)入數(shù)據(jù)到數(shù)據(jù)庫過程中發(fā)生兩次字符集轉(zhuǎn)換
??? 第一次:導(dǎo)入文件字符集與導(dǎo)入Session使用的字符集之間的轉(zhuǎn)換,如果這個轉(zhuǎn)換過程不能正確完成,Import向目標(biāo)數(shù)據(jù)庫的導(dǎo)入過程也就不能完成。
??? 第二次:導(dǎo)入Session字符集與數(shù)據(jù)庫字符集之間的轉(zhuǎn)換。
??? 然而,oracle8i的這種轉(zhuǎn)換只能在單字節(jié)字符集之間進(jìn)行,oracle8i導(dǎo)入Session不支持多字節(jié)字符集之間的轉(zhuǎn)換,因此為了避免第一次轉(zhuǎn) 換,導(dǎo)入Session使用的NLS_LANG與導(dǎo)出文件字符集相同,第二次轉(zhuǎn)換(通過SQL*Net)支持任何兩種字符集。以上情況在Oracle9i 中略有不同。
3.4?查詢dmp文件的字符集
???? 用Oracle的exp工具導(dǎo)出的dmp文件也包含了字符集信息,dmp文件的第2和第3個字節(jié)記錄了dmp文件的字符集。如果dmp文件不大,比如只有 幾M或幾十M,可以用UltraEdit打開(16進(jìn)制方式),看第2第3個字節(jié)的內(nèi)容,如0354,然后用以下SQL查出它對應(yīng)的字符集:
????
SQL> select nls_charset_name(to_number('0354','xxxx')) from dual;
???? ZHS16GBK
????
???? 如果dmp文件很大,比如有2G以上(這也是最常見的情況),用文本編輯器打開很慢或者完全打不開,可以用以下命令(在unix主機(jī)上):?
???? cat exp.dmp |od -x|head -1|awk '{print $2 $3}'|cut -c 3-6? ,然后用上述SQL也可以得到它對應(yīng)的字符集
???
3.5 修改dmp文件字符集
????? dmp文件的第2第3字節(jié)記錄了字符集信息,因此直接修改dmp文件的第2第3字節(jié)的內(nèi)容就可以‘騙’過oracle的檢查。這樣做理論上也僅是從子集到 超集可以修改,但很多情況下在沒有子集和超集關(guān)系的情況下也可以修改,我們常用的一些字符集,如 US7ASCII,WE8ISO8859P1,ZHS16CGB231280,ZHS16GBK基本都可以改。因?yàn)楦牡闹皇莇mp文件,所以影響不大。
具體的修改方法比較多,最簡單的就是直接用UltraEdit修改dmp文件的第2和第3個字節(jié)。比如想將dmp文件的字符集改為ZHS16GBK,可以用以下SQL查出該種字符集對應(yīng)的16進(jìn)制代碼:
SQL> select to_char(nls_charset_id('ZHS16GBK'), 'xxxx') from dual;
0354
然后將dmp文件的2、3字節(jié)修改為0354即可。
四.亂碼問題
?
??? oracle在數(shù)據(jù)存儲、遷移過程中經(jīng)常發(fā)生字符亂碼問題,歸根到底是由于字符集使用不當(dāng)引起。下面以使用客戶端sqlplus向數(shù)據(jù)庫插入數(shù)據(jù)和導(dǎo)入/導(dǎo)出(EXP/IMP)過程為例,說明亂碼產(chǎn)生的原因。
?
4.1使用客戶端sqlplus向數(shù)據(jù)庫存儲數(shù)據(jù)
??? 這個過程存在3個字符集設(shè)置
??? (1)客戶端應(yīng)用字符集
??? (2)客戶端NLS_LANG參數(shù)設(shè)置
??? (3)服務(wù)器端數(shù)據(jù)庫字符集(Character Set)設(shè)置
??? 客戶端應(yīng)用sqlplus中能夠顯示什么樣的字符取決于客戶端操作系統(tǒng)語言環(huán)境(客戶端應(yīng)用字符集),但在應(yīng)用中錄入這些字符后,這些字符能否在數(shù)據(jù)庫中 正常存儲,還與另外兩個字符集設(shè)置緊密相關(guān),其中客戶端NLS_LANG參數(shù)主要用于字符數(shù)據(jù)傳輸過程中的轉(zhuǎn)換判斷。常見的亂碼大致有兩種情形:
??? (1)漢字變成問號“?”;
當(dāng)從字符集A 轉(zhuǎn)換成字符集B時,如果轉(zhuǎn)換字符之間不存在對應(yīng)關(guān)系,NLS_LANG使用替代字符“?”替代無法映射的字符
??? (2)漢字變成未知字符(雖然有些是漢字,但與原字符含義不同)
轉(zhuǎn)換存在對應(yīng)關(guān)系,但字符集A 中的字符編碼與字符集B 中的字符編碼代表不同含義。
?
4.2發(fā)生亂碼原因
??? 亂碼產(chǎn)生是由于幾個字符集之間轉(zhuǎn)換不匹配造成,分以下幾種情況:
??? (注:字符集之間如果不存在子集、超集對應(yīng)關(guān)系時的情況不予考慮,因?yàn)檫@種情況下字符集之間轉(zhuǎn)換必產(chǎn)生亂碼)??
??? 1)服務(wù)器端數(shù)據(jù)庫字符集與客戶端應(yīng)用字符集相同,與客戶端NLS_LANG參數(shù)設(shè)置不同
??? 如果客戶端NLS_LANG字符集是其它兩種字符集的子集,轉(zhuǎn)換過程將出現(xiàn)亂碼。
??? 解決方法:將三種字符集設(shè)置成同一字符集,或NLS_LANG字符集是其它兩種字符集的超集
??? 2)服務(wù)器端數(shù)據(jù)庫字符集與客戶端NLS_LANG參數(shù)設(shè)置相同,與客戶端應(yīng)用字符集不同
??? 如果客戶端應(yīng)用字符集是其它兩種字符集的超集時,轉(zhuǎn)換過程將出現(xiàn)亂碼,但對于單字節(jié)編碼存儲中文問題,可參看本文第5章節(jié)的分析
??? 3)客戶端應(yīng)用字符集、客戶端NLS_LANG參數(shù)設(shè)置、服務(wù)器端數(shù)據(jù)庫字符集互不相同
??? 此種情況較為復(fù)雜,但三種字符集之間只要有不能轉(zhuǎn)換的字符,則必產(chǎn)生亂碼。
?
4.3導(dǎo)入/導(dǎo)出過程出現(xiàn)亂碼原因
??? 這個過程存在4個字符集設(shè)置,在3.1章節(jié)中已分析
?? (1)源數(shù)據(jù)庫字符集
?? (2)EXP過程中NLS_LANG參數(shù)
?? (3)IMP過程中NLS_LANG參數(shù)
?? (4)目標(biāo)數(shù)據(jù)庫字符集
??? 出現(xiàn)亂碼原因
??? 1)當(dāng)源數(shù)據(jù)庫字符集不等于EXP過程中NLS_LANG參數(shù),且源數(shù)據(jù)庫字符集是EXP過程中NLS_LANG的子集,才能保證導(dǎo)出文件正確,其他情況則導(dǎo)出文件字符亂碼
??? 2)EXP過程中NLS_LANG字符集不等于IMP過程中NLS_LANG字符集,且EXP過程中NLS_LANG字符集是IMP過程中NLS_LANG字符集的子級, 才能保證第一次轉(zhuǎn)換正常,否則第一次轉(zhuǎn)換中出現(xiàn)亂碼。
??? 3)如果第一次轉(zhuǎn)換正常,IMP過程中NLS_LANG字符集是目標(biāo)數(shù)據(jù)庫字符集的子集或相同,才能保證第二次轉(zhuǎn)換正常,否則則第二次轉(zhuǎn)換中出現(xiàn)亂碼。
?
五.單字節(jié)編碼存儲中文問題
?
??? 由于歷史的原因,早期的oracle沒有中文字符集(如oracle6、oracle7、oracle7.1),但有的用戶從那時起就使用數(shù)據(jù)庫了,并用 US7ASCII字符集存儲了中文,或是有的用戶在創(chuàng)建數(shù)據(jù)庫時,不考慮清楚,隨意選擇一個默認(rèn)的字符集,如WE8ISO8859P1或 US7ASCII,而這兩個字符集都沒有漢字編碼,雖然有些時候選用這種字符集好象也能正常使用,但用這種字符集存儲漢字信息從原則上說就是錯誤的,它會 給數(shù)據(jù)庫的使用與維護(hù)帶來一系列的麻煩。
??? 正常情況下,要將漢字存入數(shù)據(jù)庫,數(shù)據(jù)庫字符集必須支持中文,而將數(shù)據(jù)庫字符集設(shè)置為US7ASCII等單字節(jié)字符集是不合適的。US7ASCII字符集 只定義了128個符號,并不支持漢字。另外,如果在SQL*PLUS中能夠輸入中文,操作系統(tǒng)缺省應(yīng)該是支持中文的,但如果在NLS_LANG中的字符集 設(shè)置為US7ASCII,顯然也是不正確的,它沒有反映客戶端的實(shí)際情況。但在實(shí)際應(yīng)用中漢字顯示卻是正確的,這主要是因?yàn)镺racle檢查數(shù)據(jù)庫與客戶 端的字符集設(shè)置是同樣的,那么數(shù)據(jù)在客戶與數(shù)據(jù)庫之間的存取過程中將不發(fā)生任何轉(zhuǎn)換,但是這實(shí)際上導(dǎo)致了數(shù)據(jù)庫標(biāo)識的字符集與實(shí)際存入的內(nèi)容是不相符的。 而在SELECT的過程中,Oracle同樣檢查發(fā)現(xiàn)數(shù)據(jù)庫與客戶端的字符集設(shè)置是相同的,所以它也將存入的內(nèi)容原封不動地傳送到客戶端,而客戶端操作系 統(tǒng)識別出這是漢字編碼所以能夠正確顯示。
??? 在這個例子中,數(shù)據(jù)庫與客戶端都沒有設(shè)置成中文字符集,但卻能正常顯示中文,從應(yīng)用的角度看好象沒問題。然而這里面卻存在著極大的隱患,比如在應(yīng)用length或substr等字符串函數(shù)時,就可能得到意外的結(jié)果。
??? 對于早期使用US7ASCII字符集數(shù)據(jù)庫的數(shù)據(jù)遷移到oracle8i/9i中(使用zhs16gbk),由于原始數(shù)據(jù)已經(jīng)按照US7ASCII格式存 儲,對于這種情況,可以通過使用Oracle8i的導(dǎo)出工具,設(shè)置導(dǎo)出字符集為US7ASCII,導(dǎo)出后使用UltraEdit等工具打開dmp文件,修 改第二、三字符,修改 0001 為0354,這樣就可以將US7ASCII字符集的數(shù)據(jù)正確導(dǎo)入到ZHS16GBK的數(shù)據(jù)庫中。
?
六.結(jié)束語
??? 為了避免在數(shù)據(jù)庫遷移過程中由于字符集不同導(dǎo)致的數(shù)據(jù)損失,oracle提供了字符集掃描工具(character set scanner),通過這個工具我們可以測試在數(shù)據(jù)遷移過程中由于字符集轉(zhuǎn)換可能帶來的問題,然后根據(jù)測試結(jié)果,確定數(shù)據(jù)遷移過程中最佳字符集解決方案。
?
轉(zhuǎn)至:http://www.fish888.com/
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061
微信掃一掃加我為好友
QQ號聯(lián)系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元

