研究Glusterfs半年多了,通過實(shí)際操作以及源代碼分析,對它有了越來越深的了解,由衷的贊嘆Gluster的整體架構(gòu)。今天時間不早了,想寫點(diǎn)關(guān)于Glusterfs的冗余鏡像產(chǎn)生腦裂的原因。
首先,簡單描述一下腦裂,所謂腦裂,就是指兩個或多個節(jié)點(diǎn)都“認(rèn)為”自身是正常節(jié)點(diǎn)而互相“指責(zé)”對方,導(dǎo)致不能選取正確的節(jié)點(diǎn)進(jìn)行接管或修復(fù),導(dǎo)致腦裂狀態(tài)。這種現(xiàn)象出現(xiàn)在數(shù)據(jù)修復(fù)、集群管理等等高可用場景。
Glusterfs的冗余鏡像(下文簡稱AFR)提供了數(shù)據(jù)副本功能,能夠在即使只有一個冗余節(jié)點(diǎn)的情況下仍能正常工作,不中斷上層應(yīng)用。當(dāng)節(jié)點(diǎn)恢復(fù)后,能夠?qū)?shù)據(jù)修復(fù)到一致狀態(tài),保證數(shù)據(jù)的安全。
AFR 工作原理
AFR數(shù)據(jù)修復(fù)主要涉及三個方面:ENTRY,META,DATA,我們以冗余度為2即含有兩個副本A和B的DATA修復(fù)為例進(jìn)行講解。記錄描述副本狀態(tài)的稱之為ChangeLog,記錄在每個副本文件擴(kuò)展屬性里,讀入內(nèi)存后以矩陣形式判斷是否需要修復(fù)以及要以哪個副本為Source進(jìn)行修復(fù)。初始值以及正常值為0.(注:ENTRY和META,DATA分布對應(yīng)著一個數(shù)值)。
Write的步驟可分解為:
1)下發(fā)Write操作。
2)加鎖Lock。
3)向A,B副本的ChangeLog分別加1,記錄到各個副本的擴(kuò)展屬性中。
4)對A,B副本進(jìn)行寫操作。
5)若該副本寫成功則ChangeLog減1,若該副本寫失敗則ChangLog值不變,記錄到各個副本的擴(kuò)展屬性中。
6)解鎖UnLock。
7)向上層返回,只要有一個副本寫成功就返回成功。
上述在AFR中是完整的一個transaction動作。根據(jù)兩個副本記錄的ChangeLog的數(shù)值確定了副本的幾種狀態(tài):
1)WISE,智慧的,即該副本的ChangeLog中對方對應(yīng)的數(shù)值大于0而且自身對應(yīng)的數(shù)值等于0.
2)INNOCENT,無辜的,即該副本上的ChangeLog即不指責(zé)對方也指責(zé)自己,ChangeLog全為0.
3)FOOL,愚蠢的,即該副本上的ChangeLog是指責(zé)自己的。
4)IGNORANT,忽略的,即該副本的ChangeLog丟失。
所以一般情況下,會選取WISE的副本作為Sourse進(jìn)行修復(fù)。但是當(dāng)兩個節(jié)點(diǎn)都是WISE狀態(tài)時,這就出現(xiàn)了聲名狼藉的腦裂狀態(tài)。
AFR 腦裂
兩個副本均為WISE時發(fā)生腦裂,那么在哪種場景下會產(chǎn)生腦裂呢?我們還是以冗余度為2的情況舉一個簡單的例子:某文件X的兩個副本位于物理機(jī)A和物理機(jī)B上,在A和B上分別運(yùn)行著進(jìn)程a和進(jìn)程b,a和b持續(xù)通過各自所在的物理機(jī)上的客戶端對文件X進(jìn)行不同的寫操作。然后物理機(jī)A和B之間網(wǎng)絡(luò)中斷,因?yàn)锳FR在一個副本的情況下仍能不中斷上層應(yīng)用,所以進(jìn)程a和進(jìn)程b仍會持續(xù)運(yùn)行,但因?yàn)榫W(wǎng)絡(luò)中斷,文件X在A和B上的副本數(shù)據(jù)不再一致且都認(rèn)為對方是異常的,當(dāng)網(wǎng)絡(luò)恢復(fù)時,兩個副本互相“指責(zé)”,即出現(xiàn)了腦裂。當(dāng)然這是腦裂發(fā)生的場景之一,有時候是有可能發(fā)生腦裂,而有時候是必然發(fā)生腦裂。腦裂,也是很多人關(guān)心的一個問題,不能一概而論。
關(guān)于腦裂,我個人認(rèn)為不同的場景處理方法也是不同的,甚至某些場景的腦裂是無法避免的,只能盡量避免腦裂的發(fā)生。好了,今天就寫到這里吧。晚安~
原文出處:
Glusterfs冗余鏡像(AFR)修復(fù)原理以及腦裂分析
http://www.iesool.com/forum.php?mod=viewthread&tid=90&fromuid=2
(出處: 吖Sool-
社區(qū)
)
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061
微信掃一掃加我為好友
QQ號聯(lián)系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元

