機械硬碟大比拼,礦工必看
作 者丨冷波
文章來源丨www.ipfs.cn
原文地址丨https://www.ipfs.cn,IPFS中國社群
·
在企業級儲存市場中,結構化資料的儲存很快就會是SSD的天下,機械硬碟(HDD)會逐步退出;非結構化資料因為其巨大的容量,從成本的角度來看,會長時間存在。但不論怎麼說,SSD代替HDD是趨勢。
生產HDD的廠家很少,就WD、希捷、HGST等,其中,HGST也是WD的子公司。看似他們壟斷了市場,但他們的日子卻不好過。因為HDD大勢已去,在SSD領域,領先的卻是Intel、三星等玩家。HDD越做越大,價格也越來越低。
但IPFS等儲存挖礦專案卻讓HDD市場又看到了一點希望。今年,10TB以及以上的硬碟大幅度缺貨,價格比去年的最低點已經上漲了30%。瘋狂的玩家囤礦機(儲存伺服器)、囤硬碟。我從好幾個地方,都聽到了有人批量買幾萬塊硬碟的事情。
【注:只是聽說,不一定代表事實】也冒出來了各種各樣的IPFS礦機,大多數都像最低端的群暉NAS一樣,插了一塊硬碟,擴充套件性不是特別好,放在家裡,等待檔案幣釋出就挖礦。
如果這個礦機能做一個家用NAS,也挺好的。許多人也在對比各種礦機。但大家容易忽視的是,同是機械硬碟,其可靠性也千差萬別。我們不能光看硬碟容量,而要看洞察更多的硬碟引數。好在這些引數不多,非常容易理解。
我們就以希捷的硬碟為例來進行講解。型號太多,就說說幾種典型的。
·
1. 桌面級硬碟。這是消費級電腦中最常用的硬碟,基本都是採用SATA介面。比如希捷BarraCuda系列的8TB硬碟ST8000DM004。
官方的引數請見:
https://www.seagate.com/www-content/datasheets/pdfs/3-5-barracudaDS1900-10-1802CN-zh_CN.pdf。
其中裡面有幾點大家比較感興趣。
·
1.最大值持續資料傳輸率OD(MB/秒):190MB/秒。 看上去這個值挺高的。但它只是硬碟外圈的順序讀寫效能。較小的檔案讀寫,基本都達不到這個效能。
2.每年執行小時數(24×7) :2,400。 如果24x7開機,每年能執行2400小時。也就是能每年持續執行100天。每天上班8小時的辦公室文員,用這個硬碟不錯;但用來挖礦,就有點悲催了。所以……儲存挖礦,肯定不能選擇桌面級硬碟。
3.工作負載評級限制(TB/年):55。 一每年讀寫55TB資料以下,故障率較低。以前的HDD引數沒有這個值。SSD因為Flash的磨損次數有限制,有一個TBW值。HDD理論上讀寫次數沒有限制,但因為機械部件多,可靠性並不高,所以,也可以理解廠商為什麼需要加這個引數。
4.有限質保(年):2 桌面級硬碟保修2年。
5.最大不可恢復錯誤/被讀資料(位):1/10E14。 這個是大多數人不瞭解的引數。我認為是評估硬碟穩定性的最重要的引數之一。HDD執行過程因為受到振動等影響,是非常容易出錯的。
但因為糾錯手段完善,大多數錯誤可以被糾正。但仍然會存在一定概率,在工作環境正常的情況下,錯誤無法糾正。通常我們就把它認為是ECC演算法也無法糾正的錯誤,所以叫做Uncorrectable ECC Count。
6.這個桌面硬碟對應的值為10的14次方分之一,其含義為,從硬碟上讀10的14次方個bit,就可能出現一次無法被糾正的錯誤,導致資料出錯。10的14次方個bit,其實大概就是11TB的資料。從概率上來講,全盤讀寫1次大容量硬碟,就很可能出現這樣的錯誤。
·
2. 監控級硬碟。這是在安防系統中最常用的硬碟。基本都是採用SATA介面。
SkyHawk監控盤系列其官方引數請見:
https://www.seagate.com/www-content/datasheets/pdfs/skyhawk-3-5-hdd-DS1902-8-1803CN-zh_CN.pdf
·
1.最大值持續資料傳輸率OD(MB/秒):根據容量的不同,該值從180MB/秒到210MB/秒,和桌面級硬碟差不多。
2.每年執行小時數(24×7):清一色的是8760。說明可以一年365天不間斷執行。這和桌面級硬碟有非常大的區別。
3.額定工作負載限制(WRL):180TB。 相對於桌面級硬碟的工作負載評級限制,該值要高不少。
4.MTBF(平均故障間隔時間) :1,000,000 hr。 桌面級硬碟的引數中,就沒有寫這個值。1百萬小時,是理論上可以用114年嗎?顯然不是。大概可以這麼算,1/114約等於0.9%,說明年壞盤率理論上為0.9%。當然,這個只是理論值,實際的壞盤率受到多種因素的影響。
5.有限質保(年):3 顯然,3年的質保,也是廠商對這種硬碟更有信心。
6.最大不可恢復錯誤/被讀資料(位):ST4000VX007這塊4TB的硬碟為1/10E14,其他型號為1/10E15。前幾年的較老型號監控級硬碟其值均為1/10E14,顯然是非常容易壞的。如果為1/10E15,需要寫入將近113TB資料,從概率上才會出現一次不可恢復的錯誤,自然可靠性會增大很多。
(注:希捷還有充氦氣的監控硬碟,但從型號和引數來看,完全是企業級硬碟的範疇了。)
·
3. 企業級硬碟。這是企業級儲存系統和資料中心最常用的硬碟。可靠性自然比前面兩種硬碟要高很多。介面有SATA和SATA,其中SAS又分NL-SAS(近線SAS)和高轉速SAS(1萬轉或1.5萬轉)。
NL-SAS盤和企業級SATA盤的主要差別在於介面採用SAS,可以支援雙埠(用於雙控儲存系統,可以兩個主機同時連線),其他引數基本一致。高轉速SAS盤的轉速高於我們常用7200轉,效能更好,可靠性也更高,但容量相對較小,價格也比較昂貴。
大容量企業級SATA硬碟(8TB及以上)一般在內部充氦氣,利用氦氣的惰性,可以全面提升硬碟容量,從資料中心的壞盤率統計來看,其可靠性也更高。這裡我們討論希捷的企業級SATA硬碟,以常用的10TB充氦氣硬碟ST10000NM0016為例。
其官方引數見:
https://www.seagate.com/files/www-content/datasheets/pdfs/exos-x-10DS1948-1-1709CN-zh_CN.pdf
·
1.最大值持續資料傳輸率OD(MB/秒):249MB/秒。 這個值比前面的硬碟略微高一點點,但也高不到哪裡去。
2.隨機讀取/寫入4K QD16 WCD (IOPS) :170, 138。 這是4KB隨機讀和寫的IOPS值,表示每秒最大的I/O請求個數。算成頻寬,就是680KB/秒和552KB/秒。我去,這個值和前面的傳輸速度差了好幾個數量級!
對於HDD來說,因為機械部件的尋道時間很難縮短,所以這個值是很正常的,這也是為什麼SSD會受到追捧的重要因素之一——SSD的隨機效能遠高於HDD。
前面的桌面級硬碟和監控級硬碟都沒有寫這個引數呢,它們的實際IOPS值比企業級硬碟更差。這也是為什麼專業的儲存系統,需要複雜的演算法,通過CACHE等手段,儘可能變隨機的讀寫為有點點順序的讀寫,來提升系統的整體效能。
3.每年執行小時數(24×7):8760。因為一年只有365天,所以這個值也不會更大了。
4.平均故障間隔時間(MTBF,小時) :2,500,000。理論上,年壞盤率為0.35%。
5.有限質保(年) :5。 顯然,希捷對於企業級硬碟更有信心。
6.不可恢復錯誤/被讀資料(位) :1 扇區/10E15。從概率上講,每讀寫10的15次方個bit,會有一個扇區出現不可恢復的bit。 10TB的硬碟,從頭到尾讀寫超過11遍,平均會遇到一次這樣的情況。比起桌面級硬碟,還是要穩定許多。
(注:沒有看到額定工作負載限制或類似的引數。看來企業級硬碟直接取消了這個讀寫資料量的限制。)
回過頭再來看看“不可恢復錯誤/被讀資料(位)”這個引數。企業級SATA盤和較新的監控級硬碟,比較老的監控級硬碟和桌面級硬碟要高一個數量級,自然要穩定許多。
桌面級硬碟和監控級硬碟的對應引數名字前加了一個“最大”,企業級硬碟沒有寫“最大”,不知道是否希捷有意為之。
如果是,證明企業級硬碟的讀寫錯誤更低。以前問過硬碟廠商的工程師,他們回覆說,桌面級硬碟和監控級硬碟沒有防震晶片,所以錯誤率高;企業級硬碟,和較新的監控級硬碟,都加了這個晶片,通過避震的方式來提高可靠性。
我們也接觸過大量的儲存專案,有上萬片硬碟實際執行的穩定性統計資料。某專案用了80%的監控級硬碟(不可恢復錯誤/被讀資料(位)這個值為1/10E14)和20%的企業級SATA硬碟,運行了三年,監控級硬碟的壞盤率超過10%,但企業級硬碟的壞盤率低於1%。
桌面級硬碟因為都不能全天候執行,所以完全不適合這種大型的專案。另外,如果大容量硬碟做RAID5或者RAID6,壞了一塊盤,會導致硬碟重建。
如果該引數為1/10E14,基本上硬碟從頭到尾讀一遍,就有很大的概率產生新的不可恢復錯誤,直接導致第二塊壞盤的產生。這個也是為什麼RAID5/6在重建的時候,很容易產生第二塊盤,導致RAID出現更嚴重問題的原因。
實際上,重建的時候,所有硬碟都在高速讀寫,其震動本身就會導致更多的問題。不用RAID容易壞盤導致資料丟失,使用RAID也容易壞盤,那怎麼辦?選擇更高可靠性的硬碟,才是正確的辦法。
如果是高轉速的SAS硬碟和企業級SSD,不可恢復錯誤/被讀資料(位)往往都是1/10E16甚至更高,其出錯的概率就會更低了。
除了上面的HDD,希捷還有NAS系列的硬碟,可以滿足全天候的執行需求,價格比企業級硬碟低。但因為我沒有用過,所以暫時不評述。
再好的硬碟,也可能會很快壞掉。以上所有的引數,都是針對大批量硬碟而言的平均值。
所以,通過軟體進行合理的硬碟管理(RAID、CACHE、硬碟全程監控),是必要的手段,且需要一個易用的儲存管理系統,在硬碟真的出現問題時,能夠及時發現,及時排除故障,保證系統的穩定執行。算了,說再多了就是廣告了。
想了解更多儲存方案(包括HPC/AI儲存和儲存挖礦)請訪