重復(fù)數(shù)據(jù)刪除技術(shù)
發(fā)布人:scutech 發(fā)布日期:2012-09-27 16:38:23 點(diǎn)擊數(shù):4031
1.什么是重復(fù)數(shù)據(jù)刪除技術(shù)?
首先,重復(fù)數(shù)據(jù)刪除技術(shù)不同于普通的壓縮技術(shù)。壓縮是通過(guò)壓縮算法消除文件內(nèi)的冗余數(shù)據(jù)來(lái)縮減文件大小,而重復(fù)數(shù)據(jù)刪除是通過(guò)算法消除分布在存儲(chǔ)系統(tǒng)中的相同文件或者數(shù)據(jù)塊。其次,重復(fù)數(shù)據(jù)刪除也不同于普通的增量備份。增量備份的要旨是只備份新產(chǎn)生的數(shù)據(jù),而重復(fù)數(shù)據(jù)刪除技術(shù)的關(guān)鍵是只保留唯一的數(shù)據(jù)實(shí)例,所以重復(fù)數(shù)據(jù)刪除技術(shù)在減少數(shù)據(jù)存儲(chǔ)量方面更加有效。大部分廠商聲稱其重復(fù)數(shù)據(jù)刪除產(chǎn)品能將數(shù)據(jù)縮減到正常容量的1/20。重復(fù)數(shù)據(jù)刪除技術(shù)的基本原理是將數(shù)據(jù)分塊篩選,找出相同的數(shù)據(jù)塊并以指向唯一實(shí)例的指針取代。重復(fù)數(shù)據(jù)刪除技術(shù)是一種數(shù)據(jù)縮減技術(shù),通常用于基于磁盤(pán)的備份系統(tǒng),旨在減少存儲(chǔ)系統(tǒng)中使用的存儲(chǔ)容量。它的工作方式是在某個(gè)時(shí)間周期內(nèi)查找不同文件中不同位置的重復(fù)可變大小數(shù)據(jù)塊。重復(fù)的數(shù)據(jù)塊用指示符取代。高度冗余的數(shù)據(jù)集(例如備份數(shù)據(jù))從數(shù)據(jù)重復(fù)刪除技術(shù)的獲益極大;用戶可以實(shí)現(xiàn)10比1至50比1的縮減比。而且,重復(fù)數(shù)據(jù)刪除技術(shù)可以允許用戶的不同站點(diǎn)之間進(jìn)行高效,經(jīng)濟(jì)的備份數(shù)據(jù)復(fù)制。
2.基于軟件的重復(fù)數(shù)據(jù)刪除和基于硬件的重復(fù)數(shù)據(jù)刪除的優(yōu)缺點(diǎn)
基于軟件的重復(fù)數(shù)據(jù)刪除旨在消除源的冗余,而基于硬件的重復(fù)數(shù)據(jù)刪除強(qiáng)調(diào)存儲(chǔ)系統(tǒng)本身的數(shù)據(jù)削減。雖然基于硬件的重復(fù)數(shù)據(jù)刪除無(wú)法提供帶寬補(bǔ)償,而在源中進(jìn)行重復(fù)數(shù)據(jù)刪除中有可能獲得帶寬補(bǔ)償,但是基于硬件的重復(fù)數(shù)據(jù)刪除的壓縮級(jí)別通常會(huì)更高,并且基于硬件的重復(fù)數(shù)據(jù)刪除產(chǎn)品需要的維護(hù)更少。硬件重復(fù)數(shù)據(jù)刪除設(shè)備以它們的高性能、可擴(kuò)展性以及相對(duì)不間斷的部署而備受關(guān)注。正常情況下,備份軟件會(huì)將專用設(shè)備看作是一種一般的“磁盤(pán)系統(tǒng)”,并且完全不會(huì)發(fā)覺(jué)其內(nèi)部正在進(jìn)行的重復(fù)數(shù)據(jù)刪除進(jìn)程。小型企業(yè)或遠(yuǎn)程辦公通常會(huì)避免使用設(shè)備,因?yàn)檫@些設(shè)備的費(fèi)用要比用軟件來(lái)實(shí)現(xiàn)重復(fù)數(shù)據(jù)刪除的費(fèi)用高,但是,它們確實(shí)是企業(yè)級(jí)部署的理想選擇?;谟布闹貜?fù)數(shù)據(jù)刪除也可能融合到其它存儲(chǔ)(目標(biāo))平臺(tái)上。例如,重復(fù)數(shù)據(jù)刪除經(jīng)常是VTL系統(tǒng)的一項(xiàng)功能之一。VTL系統(tǒng)通過(guò)使用磁盤(pán)而不是磁帶進(jìn)行存儲(chǔ),從而提高備份任務(wù)的速度,而且,添加重復(fù)數(shù)據(jù)刪除使VTL磁盤(pán)使用率達(dá)到最大。在很多情況下,VTL重復(fù)數(shù)據(jù)刪除是作為一種out-of-band進(jìn)程來(lái)執(zhí)行的。這是其一項(xiàng)優(yōu)勢(shì),因?yàn)樗蠽TL的內(nèi)容都可以通過(guò)重復(fù)數(shù)據(jù)刪除技術(shù)以達(dá)到很好的壓縮比率。不好之處在于重復(fù)數(shù)據(jù)刪除不是實(shí)時(shí)的。然而,一些VTL系統(tǒng)在接收到備份服務(wù)器的數(shù)據(jù)之后,引入了in-band重復(fù)備份數(shù)據(jù)刪除的處理能力。
3.硬件的重復(fù)數(shù)據(jù)刪除產(chǎn)品中In-band和Out-of-band比較
基于硬件的重復(fù)數(shù)據(jù)刪除產(chǎn)品的好處:基于硬件的重復(fù)數(shù)據(jù)刪除產(chǎn)品能減輕與基于軟件的重復(fù)數(shù)據(jù)刪除產(chǎn)品相關(guān)的處理負(fù)擔(dān)。重復(fù)數(shù)據(jù)刪除功能還被融合到其它數(shù)據(jù)保護(hù)硬件中,如備份平臺(tái)、虛擬磁帶庫(kù)(VTL)系統(tǒng)甚至通用存儲(chǔ)系統(tǒng)像網(wǎng)絡(luò)附加存儲(chǔ)(NAS)等。通常這種方法并不旨在縮小備份窗口或恢復(fù)目標(biāo),但是一般而言,用戶能借此達(dá)到最高的壓縮級(jí)別,從而創(chuàng)造最大的可用存儲(chǔ)空間。in-band重復(fù)數(shù)據(jù)刪除在數(shù)據(jù)寫(xiě)入存儲(chǔ)器時(shí)削減數(shù)據(jù)。盡管進(jìn)程處理需要額外的處理能力從而可能擴(kuò)大備份窗口的大小,但是in-band重復(fù)刪除是有效率的,因?yàn)樗粓?zhí)行一次。out-of-band重復(fù)數(shù)據(jù)刪除是在數(shù)據(jù)存儲(chǔ)完之后執(zhí)行。這種方法不會(huì)影響備份窗口的大小,并且能緩解對(duì)CPU進(jìn)程處理的關(guān)注,從而避免在備份服務(wù)器和存儲(chǔ)器之間產(chǎn)生瓶頸。然而,out-of-band重復(fù)數(shù)據(jù)刪除在執(zhí)行過(guò)程中使用稍微多一點(diǎn)的磁盤(pán)空間。還有,out-of-band重復(fù)數(shù)據(jù)刪除需要花費(fèi)的時(shí)間可能要比實(shí)際的備份窗口長(zhǎng)。磁盤(pán)競(jìng)爭(zhēng)是另一個(gè)問(wèn)題,因?yàn)橛脩粼谥貜?fù)數(shù)據(jù)刪除過(guò)程期間嘗試訪問(wèn)存儲(chǔ)器,從而降低了磁盤(pán)性能。
4.兩種主要的重復(fù)數(shù)據(jù)刪除方法
目前有兩種主要的重復(fù)數(shù)據(jù)刪除方法:基于散列的方法和基于字節(jié)比較的方法?;谏⒘械姆椒ɡ靡环N算法對(duì)輸入數(shù)據(jù)進(jìn)行處理來(lái)創(chuàng)建很小的表達(dá)式和數(shù)據(jù)唯一的標(biāo)識(shí)符(即所謂的散列值)。然后,將其與保存在查尋表中的散列值進(jìn)行比較。但是,利用查尋表來(lái)確定重復(fù)的散列串會(huì)造成巨大的性能壓力,并且可能需要幾周時(shí)間才能取得最優(yōu)的重復(fù)刪除效率。效率更高的方法是在對(duì)象級(jí)上進(jìn)行比較。例如,將Word文檔與另一個(gè)Word文檔進(jìn)行比較,要么采用模式匹配算法;要么采用效率更高的智能分析技術(shù)。智能分析在更詳細(xì)地比較兩個(gè)文件之前會(huì)分析備份文件和參考數(shù)據(jù)集合來(lái)確定可能是冗余的文件。由于把處理重點(diǎn)放在可能的重復(fù)數(shù)據(jù)上,它可以更徹底地去除重復(fù)數(shù)據(jù)和避免不必要的處理新文件。一些技術(shù)在數(shù)據(jù)備份過(guò)程中進(jìn)行重復(fù)數(shù)據(jù)刪除。這種在線的重復(fù)數(shù)據(jù)刪除會(huì)降低備份性能,增加備份的復(fù)雜性。另一些技術(shù)執(zhí)行帶外的重復(fù)數(shù)據(jù)刪除,在執(zhí)行時(shí),它們首先備份數(shù)據(jù),然后再執(zhí)行重復(fù)數(shù)據(jù)刪除。字節(jié)級(jí)重復(fù)數(shù)據(jù)刪除可提供高達(dá)25:1數(shù)據(jù)壓縮率。當(dāng)與典型的VTL特性,即壓縮技術(shù)配合使用時(shí),企業(yè)無(wú)須增加存儲(chǔ)容量就可在同樣的空間中多保存50倍的數(shù)據(jù)。這種壓縮技術(shù)不僅使用戶可以在線保存更多的數(shù)據(jù),并使數(shù)據(jù)保持更長(zhǎng)的在線時(shí)間,還帶來(lái)了將數(shù)據(jù)保存在硬盤(pán)上的優(yōu)勢(shì)。例如,把數(shù)據(jù)保存在硬盤(pán)上比保存在磁帶上占用更少的物理空間,并大大減少電源、冷卻、安全和其他運(yùn)營(yíng)與基礎(chǔ)設(shè)施費(fèi)用。重復(fù)數(shù)據(jù)刪除技術(shù)通過(guò)使備份到VTL的費(fèi)用大大低于純基于硬盤(pán)的數(shù)據(jù)保護(hù)解決方案,改進(jìn)了數(shù)據(jù)保護(hù)的經(jīng)濟(jì)性。同時(shí),它也是數(shù)據(jù)中心應(yīng)對(duì)急劇增加的能源、勞動(dòng)力和空間費(fèi)用,以及管理即將出現(xiàn)的電源和冷卻容量短缺的重要的途徑。