Có an toàn khi sử dụng SSD MLC tiêu dùng trong máy chủ không?


44

Chúng tôi (và theo ý tôi là Jeff) đang xem xét khả năng sử dụng đĩa SSD MLC tiêu dùng trong trung tâm dữ liệu sao lưu của chúng tôi.

Chúng tôi muốn cố gắng giảm chi phí và không gian có thể sử dụng được - vì vậy, Intel X25-E có giá khá cao khoảng 700 đô la mỗi chiếc và 64GB dung lượng.

Những gì chúng tôi đang nghĩ là làm để mua một số SSD cấp thấp hơn cung cấp nhiều dung lượng hơn với mức giá thấp hơn. Sếp của tôi không nghĩ rằng chi khoảng 5k cho các đĩa trong các máy chủ hết trung tâm dữ liệu sao lưu là đáng để đầu tư.

Các ổ đĩa này sẽ được sử dụng trong mảng RAID 6 ổ trên Lenovo RD120. Bộ điều khiển RAID là 8k Adaptec (được đổi thương hiệu thành Lenovo).

Mức độ nguy hiểm của cách tiếp cận này là gì và có thể làm gì để giảm thiểu những nguy hiểm này?


4
Lý do để sử dụng SSD thay vì spinners là gì? Trí tuệ dân gian về hiệu suất SSD là "trả tiền hoặc không làm phiền", nhưng chắc chắn có những khía cạnh khác có thể là một lợi thế.
peterchen

Tôi tò mò về vấn đề mà bạn đang cố gắng giải quyết ở đây. Nếu nó chỉ đơn giản là một trong những chi phí thì tại sao SSD lại được xem là thay thế cho các ổ đĩa thông thường?
John Gardeniers

@peterchen, bạn có thể sử dụng một vài ổ SSD hoặc năm mươi cọc 15K.
Mircea Chirea

@iconiK - ý bạn là "đối với một máy chủ, dù sao bạn cũng cần phải tiêu tốn rất nhiều tiền"? Nếu vậy - vâng, đó là lý do tại sao tôi cũng tự hỏi.
peterchen

Câu trả lời:


61

Một vài suy nghĩ;

  • SSD có bộ nhớ 'overcommit'. Đây là bộ nhớ được sử dụng thay cho các ô 'bị hỏng' bằng cách viết. SSD cấp thấp có thể chỉ có 7% dung lượng thừa; tầm trung khoảng 28%; và đĩa doanh nghiệp lên tới 400%. Hãy xem xét yếu tố này.
  • Bao nhiêu bạn sẽ viết cho họ mỗi ngày? Ngay cả các ổ SSD tầm trung như chip dựa trên chip 1200 của Sandforce cũng hiếm khi đánh giá cao hơn khoảng 35 GB ghi mỗi ngày trước khi nghiêm túc cắt vào bộ nhớ quá mức.
  • Thông thường, ngày 1 của SSD mới có đầy đủ chữ viết, cho dù đó là HĐH hay dữ liệu. Nếu bạn có nhiều hơn đáng kể hơn 35 GB ghi vào ngày đầu tiên, hãy xem xét sao chép nó theo từng đợt để cung cấp cho SSD 'thời gian dọn dẹp' giữa các đợt.
  • Nếu không có hỗ trợ TRIM, hiệu suất ghi ngẫu nhiên có thể giảm tới 75% trong vòng vài tuần nếu có nhiều văn bản trong khoảng thời gian đó - nếu bạn có thể, hãy sử dụng HĐH hỗ trợ TRIM
  • Các quy trình thu gom rác nội bộ mà SSD hiện đại thực hiện được thực hiện rất cụ thể trong thời gian yên tĩnh và nó dừng hoạt động. Đây không phải là vấn đề đối với máy tính để bàn, nơi đĩa có thể im lặng trong 60% chu kỳ làm việc 8 giờ thông thường của nó, nhưng bạn chạy dịch vụ 24 giờ ... khi nào quá trình này có cơ hội chạy?
  • Nó thường được chôn sâu trong thông số kỹ thuật nhưng giống như các đĩa 'thông thường' giá rẻ, SSD giá rẻ cũng chỉ được dự kiến ​​sẽ có chu kỳ hoạt động khoảng 30%. Bạn sẽ sử dụng chúng trong gần như 100% thời gian - điều này sẽ ảnh hưởng đến tỷ lệ MTBF của bạn.
  • Mặc dù SSD không gặp phải các vấn đề cơ học giống như các đĩa thông thường, nhưng chúng có lỗi đơn và nhiều bit - vì vậy, hãy cân nhắc mạnh mẽ việc RAID chúng ngay cả khi bản năng không xảy ra. Rõ ràng nó sẽ ảnh hưởng đến tất cả tốc độ ghi ngẫu nhiên đáng yêu mà bạn vừa mua nhưng hãy xem xét nó.
  • Vẫn là SATA chứ không phải SAS, vì vậy việc quản lý hàng đợi của bạn sẽ không tốt trong môi trường máy chủ, nhưng một lần nữa, việc tăng hiệu suất bổ sung sẽ khá ấn tượng.

Chúc may mắn - đừng 'xào' chúng bằng cách viết :)


2
Bạn có nghĩa là 400% cho không gian thêm, hoặc 40%? Tôi sẽ chỉnh sửa câu trả lời của bạn nhưng không thể tìm thấy trích dẫn, vì vậy tôi cho rằng nó có thể là 400%. (Nhân tiện, đây là một điểm rất tốt)
ChrisInEd hôm

9
Không phải lúc nào cũng rõ ràng nếu TRIM được hỗ trợ trên cấu hình RAID. Hãy nhớ rằng, SSD được trừu tượng hóa khỏi HĐH với RAID. Hãy chắc chắn kiểm tra với nhà cung cấp RAID.
Matt Sherman

5
Ý tôi là 400 Chris, cụ thể là những người được sử dụng trong FC SAN, mặc dù rất tốn kém.
Chopper3

5
Một mẹo để có thêm không gian dự trữ trong ổ đĩa là thực hiện xóa an toàn, sau đó phân vùng nó với một phần lớn không sử dụng. Không gian trống này sẽ thêm vào hiệu suất và tuổi thọ của SSD.
Zan Lynx

1
Chỉ muốn +1 với @ZanLynx .. Tôi thường chỉ phân vùng khoảng 80% ổ đĩa khi tôi đang sử dụng SSD + Raid.
Tracker1

12

Tôi đã tìm thấy liên kết này, trong đó có một phân tích thú vị và kỹ lưỡng về SSD MLC vs SLC trong các máy chủ

Theo quan điểm của tôi, sử dụng mảng SSD flash MLC cho ứng dụng doanh nghiệp mà không sử dụng ít nhất các hiệu ứng giảm thiểu hao mòn (được yêu cầu) của công nghệ như MFT của Easyco giống như nhảy ra khỏi máy bay mà không cần dù.

Lưu ý rằng một số nhà cung cấp SSD MLC tuyên bố rằng các ổ đĩa của họ là "enterprisey" đủ để tồn tại khi ghi:

SandForce đặt mục tiêu trở thành công ty đầu tiên có bộ điều khiển hỗ trợ chip flash di động đa cấp cho các ổ đĩa trạng thái rắn được sử dụng trong các máy chủ. Bằng cách sử dụng chip MLC, SF-1500 mở đường cho các ổ đĩa mà các nhà sản xuất máy chủ muốn có chi phí thấp hơn và mật độ cao hơn. Để cập nhật ổ đĩa flash cho các máy chủ đã sử dụng chip flash di động một cấp. Đó là bởi vì độ bền và độ tin cậy đối với chip MLC thường không đáp ứng yêu cầu của máy chủ.

Có phân tích sâu hơn về những tuyên bố này tại AnandTech .

Ngoài ra, bây giờ Intel đã ghi nhận rằng SLC có thể bị quá tải trong các máy chủ 90% thời gian :

"Chúng tôi tin rằng SLC [tế bào đơn cấp] là bắt buộc, nhưng những gì chúng tôi tìm thấy qua các nghiên cứu với Microsoft và thậm chí Seagate là những ứng dụng chuyên sâu tính toán cao này thực sự không viết nhiều như họ nghĩ", Winslow nói. "90% các ứng dụng trung tâm dữ liệu có thể sử dụng ổ đĩa MLC [cell đa cấp] này."

.. trong khoảng một năm qua, các nhà cung cấp đã nhận ra rằng bằng cách sử dụng phần mềm đặc biệt trong bộ điều khiển ổ đĩa, họ có thể tăng độ tin cậy và khả năng phục hồi của SSD MLC loại tiêu dùng của họ đến mức các doanh nghiệp chấp nhận chúng máy chủ trung tâm dữ liệu hiệu suất cao và mảng lưu trữ. Các nhà cung cấp SSD đã bắt đầu sử dụng thuật ngữ NAND eMLC (MLC doanh nghiệp) để mô tả các SSD đó.

Winslow nói: "Từ góc độ âm lượng, chúng tôi thấy có những môi trường điện toán hiệu năng cao, có khả năng ghi cao, vẫn có thể cần SLC, nhưng đó là trong 10% yêu cầu của trung tâm dữ liệu doanh nghiệp," Winslow nói.

Intel đang nuôi dưỡng 10% thị trường trung tâm dữ liệu doanh nghiệp thông qua liên doanh với Công ty lưu trữ toàn cầu của Hitachi. Hitachi đang sản xuất dòng SSD SCS SSD đính kèm nối tiếp SSD400S, tốc độ 6Gbit / giây. thông lượng - gấp đôi so với SSD SATA dựa trên MLC của nó.

Intel, ngay cả đối với các ổ SSD định hướng máy chủ của họ, đã chuyển từ SLC sang MLC với không gian "cung cấp quá mức" rất cao với dòng Intel SSD 710 mới . Các ổ đĩa này phân bổ tối đa 20% dung lượng lưu trữ tổng thể để dự phòng trong nội bộ:

Hiệu suất không phải là ưu tiên hàng đầu của SSD 710. Thay vào đó, Intel đang nhắm đến việc cung cấp độ bền cho cấp SLC ở mức giá hợp lý bằng cách sử dụng eMLC HET NAND rẻ hơn. SSD 710 cũng hỗ trợ quá mức cho phép cấu hình của người dùng (20%), giúp tăng độ bền của ổ đĩa đáng kể. Bảo hành của SSD 710 là 3 năm hoặc cho đến khi chỉ số hao mòn đạt đến một mức nhất định, tùy theo điều kiện nào đến trước. Đây là lần đầu tiên chúng tôi thấy bảo hành SSD bị hạn chế theo cách này.


7

Luôn luôn dựa trên những điều này dựa trên sự thật chứ không phải là giả định. Trong trường hợp này, việc thu thập dữ kiện rất dễ dàng: ghi lại các hồ sơ IOPS đọc / ghi dài hạn của các hệ thống sản xuất của bạn và sau đó tìm ra những gì bạn có thể sống trong kịch bản khắc phục thảm họa. Bạn nên sử dụng một cái gì đó như phân vị thứ 99 làm phép đo của bạn. Đừng không sử dụng trung bình khi đo IOPS cpacity - các đỉnh núi là tất cả những vấn đề! Sau đó, bạn cần mua dung lượng cần thiết và IOPS khi cần cho trang web DR của bạn. SSD có thể là cách tốt nhất để làm điều đó, hoặc có thể không.

Vì vậy, ví dụ, nếu các ứng dụng sản xuất của bạn yêu cầu 7500 IOPS ở phân vị thứ 99, bạn có thể quyết định bạn có thể sống với 5000 IOPS trong một thảm họa. Nhưng đó là ít nhất 25 đĩa 15K được yêu cầu ngay tại trang DR của bạn, vì vậy SSD có thể là lựa chọn tốt hơn nếu nhu cầu dung lượng của bạn nhỏ (nghe có vẻ như vậy). Nhưng nếu bạn chỉ đo được rằng bạn thực hiện 400 IOPS trong sản xuất, chỉ cần mua 6 ổ đĩa SATA, tiết kiệm cho mình một số đồng xu và sử dụng thêm dung lượng để lưu trữ nhiều ảnh chụp sao lưu tại trang web DR. Bạn cũng có thể phân tách đọc và ghi trong bộ sưu tập dữ liệu của mình để tìm hiểu xem SSD không phải là doanh nghiệp sẽ tồn tại bao lâu cho khối lượng công việc của bạn dựa trên thông số kỹ thuật của chúng.

Cũng nên nhớ rằng các hệ thống DR có thể có bộ nhớ nhỏ hơn so với sản xuất, điều đó có nghĩa là cần nhiều IOPS hơn (hoán đổi nhiều hơn và bộ đệm hệ thống tập tin ít hơn).


5

Ngay cả khi SSD MLS chỉ tồn tại trong một năm, trong một thời gian, việc thay thế sẽ rẻ hơn rất nhiều. Vì vậy, bạn có thể đối phó với việc phải thay thế SSD MLS khi chúng ra ngoài không?


một điểm tốt, đặc biệt là vì chúng sẽ nằm trong một mảng RAID .. miễn là "quá nhiều" trong số chúng không bị lỗi cùng một lúc, điều này thực sự có lý.
Jeff Atwood

@Jeff, nếu bạn có thể trao đổi một số trong và ngoài với các PC hàng đầu trên bàn của mình, do đó, tất cả đều không nhận được một số sử dụng, điều này sẽ khiến cho tất cả đều thất bại cùng một lúc.
Ian Ringrose

@Jeff, tôi nghĩ đến một phần lớn, Fail == "bắt đầu thực hiện các quyền rất chậm" thay vì "không đọc dữ liệu"
Ian Ringrose

bạn không thích tự động sửa lỗi :-)
Jeroen Wiert Pluimers

3

Nếu chúng ta đặt vấn đề số lượng ghi sang một bên (hoặc chứng minh rằng SSD cấp độ người tiêu dùng có thể xử lý được), tôi nghĩ rằng SSD là một điều tốt để thêm vào môi trường cấp doanh nghiệp. Bạn có thể sẽ sử dụng SSD trong một mảng RAID. RAID5 hoặc RAID6. Và vấn đề với những điều này là sau một lỗi ổ đĩa, mảng ngày càng dễ bị lỗi. Và thời gian để xây dựng lại nó phụ thuộc rất nhiều vào khối lượng của mảng. Một mảng TB có thể mất nhiều ngày để xây dựng lại, trong khi liên tục được truy cập. Trong trường hợp ổ SSD, mảng RAID sẽ a) chắc chắn nhỏ hơn b) thời gian xây dựng lại giảm đáng kể.


3

Bảng trắng về sự khác biệt giữa SLC và MLC từ SuperTalent đặt độ bền của MLC và độ bền thứ 10 của SSD SLC nhưng rất có thể SSD của MLS sẽ vượt xa phần cứng mà bạn đang đặt chúng vào. Tôi không chắc chắn những số liệu thống kê / sự thật đáng tin cậy từ SuperTalent.

Giả sử bạn nhận được mức hỗ trợ tương tự từ nhà cung cấp SSD MLC thì mức giá thấp hơn sẽ khiến nó đáng để thử.


1
Tuổi thọ 5 năm cho việc sử dụng máy tính để bàn điển hình đã được đề cập. Nếu đó là một ước tính chính xác thì họ sẽ không tồn tại lâu hơn máy chủ trong môi trường trung tâm dữ liệu!
JamesRyan

@JamesRyan: Mặc dù không được hiển thị trong hầu hết các tính toán, thời gian tồn tại rất phụ thuộc vào phần không gian trống.
Ben Voigt

1
Trong các tổ chức tôi đã làm việc cho chúng tôi, chúng tôi luôn luôn làm mới phần cứng máy chủ trong 3 năm. Tôi đã có ấn tượng rằng thường được chấp nhận thực hành tốt nhất nhưng hãy sửa tôi nếu tôi sai.
chunkyb2002

3

Bạn chỉ nên tính toán số lượng ghi hàng ngày bạn có với thiết lập hiện tại của bạn và so sánh với những gì nhà sản xuất đảm bảo ổ SSD của họ có thể duy trì. Intel dường như là người tiên phong nhất về vấn đề này - ví dụ, hãy xem bảng dữ liệu ổ đĩa SSD chính của họ: http://www.intel.com/design/flash/nand/mainstream/technicaldocument.htmlm

Mục 3.5 (3.5.4, cụ thể) của tài liệu thông số kỹ thuật nói rằng bạn được đảm bảo để ổ đĩa của bạn tồn tại ít nhất 5 năm với 20GB ghi mỗi ngày. Tôi cho rằng điều đó được tính toán khi sử dụng toàn bộ dung lượng ổ đĩa và không cung cấp bất kỳ dung lượng trống nào để tự viết.

Điều thú vị nữa là bảng dữ liệu liên quan đến việc sử dụng SSD chính trong môi trường doanh nghiệp.


Thật không may, nó hoàn toàn không đơn giản bởi vì mức độ hao mòn khuếch đại ghi (nhớ rằng nó được thiết kế để lan truyền ghi không làm giảm chúng) theo cách độc quyền và có thể thay đổi rất nhiều về hiệu quả của nó dựa trên mô hình sử dụng.
JamesRyan

Hừm, điểm rất tốt. Ngoài ra, mất lệnh TRIM nếu sử dụng các ổ đĩa trong thiết lập RAID cũng sẽ làm tăng khả năng khuếch đại ghi. Tôi đoán tất cả bắt nguồn từ ý tưởng của mỗi nhà sản xuất về mô hình sử dụng điển hình.
cearny

2

Tôi đã triển khai một vài ổ SLC 32gb vài năm trước như một bộ đệm cho một số ứng dụng được thiết kế cực kỳ tồi tệ mà chúng tôi đang sử dụng.

Ứng dụng này có 90% ghi nhỏ (<4k) và hoạt động ổn định (24/7) với tốc độ 14 nghìn một lần trên các ổ SSD. Chúng được cấu hình RAID 1, mọi thứ đều màu hồng, độ trễ thấp!

Tuy nhiên, khoảng một tháng sau và ổ đĩa đầu tiên được đóng gói, theo nghĩa đen trong vòng 3 giờ, ổ đĩa thứ hai cũng đã chết. RAID 1 không phải là một kế hoạch tốt như vậy sau tất cả :)

Tôi sẽ đồng ý với các áp phích khác trên một số loại RAID 6 nếu không có gì khác nó lan truyền ra những ổ đĩa đó trên nhiều ổ đĩa hơn.

Bây giờ hãy nhớ rằng đây là một vài năm trước đây và những điều này đáng tin cậy hơn nhiều và bạn có thể không có hồ sơ I / O tương tự.

Ứng dụng đã được thiết kế lại, tuy nhiên, như một khoảng trống dừng có thể giúp bạn hoặc không, chúng tôi đã tạo một đĩa ram lớn, tạo một số tập lệnh để xây dựng lại / sao lưu đĩa ram và mất một giờ hoặc mất dữ liệu /thời gian hồi phục.

Một lần nữa, vòng đời của dữ liệu của bạn có thể khác.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.