phát hiện và sửa lỗi quay bit với mdadm


17

Tôi sắp tổ chức lại tất cả các ổ cứng của mình trong hộp linux tại nhà và muốn sử dụng cuộc đột kích mdadm để bảo vệ dữ liệu và tính linh hoạt của nó để định hình lại các mảng. Tuy nhiên, trước khi tôi sử dụng mdadm cho điều này, tôi muốn biết làm thế nào nó xử lý mục nát bit . Cụ thể là các loại mục nát bit không dẫn đến các thông báo lỗi đọc không thể phục hồi được gửi từ ổ cứng.

Vì tôi có thể sẽ sử dụng ít nhất 21TB ổ cứng trong 8 ổ đĩa và nhiều trích dẫn khác nhau về xác suất xảy ra lỗi trên ổ cứng, tôi nghĩ rằng trong quá trình xây dựng lại từ một lỗi đĩa đơn, tôi rất có thể gặp phải một số dạng thối bit trên các đĩa còn lại. Nếu đó là lỗi đọc không thể phục hồi trên 1 trong số các ổ đĩa, thì ổ đĩa đó thực sự báo cáo đó là lỗi, tôi tin rằng nó sẽ ổn với raid6 (phải không?). Tuy nhiên, nếu dữ liệu đọc từ đĩa bị hỏng nhưng không được báo cáo như vậy bởi đĩa, thì tôi không thể thấy cách này có thể được tự động sửa ngay cả với raid6. Đây có phải là một cái gì đó chúng ta cần phải quan tâm? Đưa ra bài viết Đó là năm 2010 và RAID5 vẫn hoạt độngvà những trải nghiệm thành công của tôi ở nhà và nơi làm việc, mọi thứ không nhất thiết phải cam chịu và u ám như những lời quảng cáo và tiếp thị sẽ khiến chúng tôi tin tưởng, nhưng tôi ghét phải khôi phục từ bản sao lưu chỉ vì một ổ cứng bị lỗi.

Cho rằng các kiểu sử dụng sẽ là, viết nhiều nhất một vài lần và thỉnh thoảng đọc, tôi sẽ cần thực hiện việc xóa dữ liệu . Tôi thấy trên wiki archlinux các lệnh mdadm để xóa dữ liệu một mảng như

echo check > /sys/block/md0/md/sync_action

sau đó để theo dõi tiến độ

cat /proc/mdstat

Điều này đối với tôi có vẻ như nó sẽ đọc tất cả các lĩnh vực của tất cả các đĩa và kiểm tra xem dữ liệu có khớp với chẵn lẻ và ngược lại không. Mặc dù tôi nhận thấy có sự nhấn mạnh trong các tài liệu để nói rằng có những trường hợp quan trọng rằng thao tác "kiểm tra" sẽ không thể tự động sửa, chỉ phát hiện và nó sẽ để người dùng sửa.

Tôi nên chọn cấp độ mdadm RAID nào để tối đa hóa khả năng bảo vệ khỏi bị thối bit và tôi nên thực hiện các bước bảo vệ và các bước bảo vệ nào khác? Và điều này sẽ không bảo vệ tôi khỏi?

Chỉnh sửa: Tôi không muốn bắt đầu RAID so với ZFS hoặc bất kỳ QA công nghệ nào khác. Tôi muốn biết cụ thể về cuộc đột kích mdadm. Đó cũng là lý do tại sao tôi hỏi về Unix & Linux chứ không phải trên SuperUser .

Chỉnh sửa: là câu trả lời: mdadm chỉ có thể sửa các URE được hệ thống đĩa báo cáo trong quá trình xóa dữ liệu và phát hiện sự thối bit im lặng trong quá trình chà nhưng không thể / sẽ không khắc phục được?


Theo như bảo vệ dữ liệu, lợi ích chính tôi thấy trong zfs là nó quét các vị trí đĩa của tệp bất cứ khi nào bạn đọc tệp. Đây là lý do tại sao tôi hiện đang thiết lập nó với zfs. Nhưng dù sao tôi vẫn cần phải thực hiện tẩy tế bào chết đầy đủ thường xuyên. Tôi có 2 nhóm zfs mỗi nhóm có 3 đĩa và tôi muốn nâng cấp lên hệ thống 8 đĩa trong đó bất kỳ ổ đĩa nào cũng có thể bị lỗi và vẫn sẽ có thêm 1 ổ đĩa dự phòng và zfs không linh hoạt để cho phép định hình lại như vậy. Vì dù sao tôi cũng đang xây dựng lại nên tôi đang truy cập lại mdadm.
BeowulfNode42

Bạn đã may mắn với RAID5 / 6 cho đến nay. Thực tế là, năm 2013 và RAID vẫn bị lỗ ghi. Nếu bạn mất điện sau khi dữ liệu được ghi nhưng trước khi viết chẵn lẻ thì bạn vừa làm hỏng dữ liệu tốt của mình và có thể với sự không nhất quán rằng mảng của bạn cũng bị nướng. Cảm ơn RAID5.
bahamat

Điều này là, những gì bạn muốn làm được thực hiện tốt nhất ở lớp hệ thống tập tin. Mặt khác, bạn cần một số cách để phát hiện và tốt nhất là sửa lỗi quay bit, có thể trong tình huống giảm hoặc không dư thừa và RAID không phù hợp với điều đó. Không chỉ không có gì đảm bảo rằng dù sao bạn cũng sẽ không bị thối bit (điều gì xảy ra nếu một ổ đĩa bị lỗi và một ổ đĩa khác đọc sai bit?), Nhưng RAID đơn giản cũng không có khái niệm gì về dữ liệu quan trọng và đâu là dữ liệu quan trọng Chỉ là tiếng ồn. Do ZFS chỉ lọc dữ liệu được tham chiếu , nên việc quay bit trên một phần không sử dụng của đĩa trở thành vấn đề.
một CVn

Thực sự, bạn không thể mong đợi việc xếp một hệ thống tệp ngẫu nhiên lên trên nhiều đĩa (ngay cả khi có dự phòng) để đột nhiên bảo vệ bạn khỏi các lỗi lưu trữ. Tôi không tham gia vào cuộc thập tự chinh thần thánh để mang ZFS đến với mọi người (mặc dù tôi nghĩ đó là một phát minh tuyệt vời và tự mình sử dụng nó trên Linux cho mọi thứ trừ phân vùng gốc, đó là ext4 trên mdared1 để tương thích phần mềm), nhưng Tôi cũng nhận ra rằng bạn là một trong những vấn đề ZFS được thiết kế từ đầu để giải quyết: phát hiện được đảm bảo và nếu có thể sửa chữa hỏng dữ liệu bất kể nguyên nhân.
một CVn

Tôi nghĩ bạn nên xem lại yêu cầu của bạn. Bạn có thực sự cần bảo vệ bitrot ngay cả đối với trường hợp khi áp dụng sửa lỗi không? Bạn có biết khả năng bitrot tồn tại GIVEN như thế nào mà nó cũng đã được sửa bởi ECC của đĩa không?
thượng cổ

Câu trả lời:


5

Thành thật mà nói, tôi thấy khá ngạc nhiên khi bạn từ chối RAIDZ2 ZFS. Nó dường như phù hợp với nhu cầu của bạn gần như hoàn hảo, ngoại trừ thực tế đó không phải là Linux MD. Tôi không tham gia vào cuộc thập tự chinh để đưa ZFS đến với công chúng, nhưng thực tế đơn giản là bạn là một trong những vấn đề mà ZFS được thiết kế từ đầu để giải quyết. Dựa vào RAID (bất kỳ RAID "thông thường" nào) để cung cấp khả năng phát hiện và sửa lỗi có thể trong tình huống giảm hoặc không dư thừa có vẻ rủi ro. Ngay cả trong trường hợp ZFS không thể sửa lỗi dữ liệu đúng cách, ít nhất nó cũng có thể phát hiện ra lỗi và cho bạn biết rằng có vấn đề, cho phép bạn thực hiện hành động khắc phục.

Bạn không cần phải thực hiện tẩy tế bào chết đầy đủ thường xuyên với ZFS, mặc dù đó là cách thực hành được khuyến nghị. ZFS sẽ xác minh rằng dữ liệu đọc từ đĩa khớp với dữ liệu được ghi khi dữ liệu đang được đọc và trong trường hợp không khớp (a) sử dụng dự phòng để tái tạo dữ liệu gốc hoặc (b) báo cáo lỗi I / O ứng dụng. Ngoài ra, chà là một hoạt động trực tuyến, ưu tiên thấp, khác với kiểm tra hệ thống tệp trong hầu hết các hệ thống tệp có thể có mức độ ưu tiên cao và ngoại tuyến. Nếu bạn đang chạy chà và một cái gì đó không phải là chà muốn làm I / O, thì chà sẽ ngồi ở ghế sau trong suốt thời gian. Một bộ lọc ZFS thay thế cho cả bộ lọc RAID dữ liệu siêu dữ liệu của hệ thống tệp Kiểm tra tính toàn vẹn, vì vậy kỹ lưỡng hơn rất nhiều so với việc chỉ quét mảng RAID để phát hiện bất kỳ sự thối bit nào (điều này không cho bạn biết liệu dữ liệu có ý nghĩa gì hay không, chỉ có điều nó được ghi bởi bộ điều khiển RAID).

Dự phòng ZFS (RAIDZ, phản chiếu, ...) có lợi thế là các vị trí đĩa không sử dụng không cần phải kiểm tra tính nhất quán trong quá trình chà; chỉ có dữ liệu thực tế được kiểm tra trong quá trình chà, vì các công cụ đi theo chuỗi khối phân bổ. Điều này giống như với một hồ bơi không dư thừa. Đối với RAID "thông thường", tất cả dữ liệu (bao gồm mọi vị trí không sử dụng trên đĩa) phải được kiểm tra vì bộ điều khiển RAID (dù là phần cứng hay phần mềm) không biết dữ liệu nào thực sự có liên quan.

Bằng cách sử dụng RAIDZ2 vdevs, bất kỳ hai ổ đĩa cấu thành nào cũng có thể bị lỗi trước khi bạn có nguy cơ mất dữ liệu thực tế do lỗi ổ đĩa khác, vì bạn có giá trị dự phòng của hai ổ đĩa. Điều này về cơ bản giống như RAID6.

Trong ZFS, tất cả dữ liệu, cả dữ liệu người dùng và siêu dữ liệu, đều được kiểm tra (trừ khi bạn chọn không, nhưng điều đó được khuyến nghị) và các tổng kiểm tra này được sử dụng để xác nhận rằng dữ liệu không thay đổi vì bất kỳ lý do nào. Một lần nữa, nếu tổng kiểm tra không khớp với giá trị mong đợi, dữ liệu sẽ được xây dựng lại trong suốt hoặc lỗi I / O sẽ được báo cáo. Nếu một lỗi I / O được báo cáo hoặc chà xác định một tệp bị hỏng, bạn sẽ biết thực tế là dữ liệu trong tệp đó có khả năng bị hỏng và có thể khôi phục tệp cụ thể đó từ bản sao lưu; không cần khôi phục mảng đầy đủ.

Đồng bằng, thậm chí là tương đương kép, RAID không bảo vệ bạn trước các tình huống như khi một ổ đĩa bị lỗi và một lần nữa đọc dữ liệu không chính xác khỏi đĩa. Giả sử một ổ đĩa bị lỗi và có một lần lật bất kỳ nơi nào từ bất kỳ ổ đĩa nào khác: đột nhiên, bạn đã không bị phát hiện tham nhũng và trừ khi bạn hài lòng với điều đó, bạn sẽ cần một cách để phát hiện ra nó. Cách để giảm thiểu rủi ro đó là kiểm tra từng khối trên đĩa và đảm bảo tổng kiểm tra không thể bị hỏng cùng với dữ liệu (bảo vệ chống lại các lỗi như ghi cao tốc, ghi mồ côi, ghi vào các vị trí không chính xác trên đĩa, v.v.), là chính xác những gì ZFS làm miễn là bật tính năng kiểm tra.

Nhược điểm duy nhất là bạn không thể dễ dàng phát triển RAIDZ vdev bằng cách thêm thiết bị vào nó. Có cách giải quyết cho vấn đề đó, thường liên quan đến những thứ như các tệp thưa thớt như các thiết bị trong vdev và thường được gọi là "Tôi sẽ không làm điều này nếu đó là dữ liệu của tôi". Do đó, nếu bạn đi theo tuyến RAIDZ (bất kể bạn đi với RAIDZ, RAIDZ2 hay RAIDZ3), bạn cần quyết định trước số lượng ổ đĩa bạn muốn trong mỗi vdev. Mặc dù số lượng ổ đĩa trong vdev là cố định, bạn có thể tăng dần vdev (đảm bảo duy trì trong ngưỡng dự phòng của vdev) thay thế ổ đĩa bằng ổ đĩa có dung lượng lớn hơn và cho phép bộ phục hồi hoàn toàn.


5
Trong câu hỏi ban đầu của tôi, tôi đã cố gắng tránh tranh luận zfs vs raid vì có rất nhiều thông tin về điều đó. Tôi muốn thông tin cụ thể về mdadm. Ngoài ra, vì tôi sẽ không đọc tất cả dữ liệu thường xuyên đủ để đảm bảo dữ liệu được kiểm tra thường xuyên, tôi sẽ cần phải thường xuyên xóa toàn bộ mảng bất kể zfs hay đột kích.
BeowulfNode42

@ BeowulfNode42 cá nhân Tôi khuyên bạn nên sử dụng tổng kiểm tra lớp ứng dụng cho dữ liệu đặc biệt quan trọng (ví dụ: sử dụng sha256 để kiểm tra dữ liệu quan trọng của bạn). ZFS có thể làm điều này trên mỗi khối mà tôi nghĩ thực sự là quá mức cần thiết. Tôi nghĩ điều này giải thích tại sao không có nhiều hệ thống tệp kiểm tra các khối của chúng như ZFS vì IMO đây là vấn đề của lớp ứng dụng theo quan điểm của tôi.
thượng cổ

1
@caveman Tôi không biết về bạn; Tôi thực sự thích việc tôi không phải liên tục kiểm tra các tập tin chỉ để chắc chắn rằng chúng không bị hỏng. Chắc chắn, phần lớn thời gian không có tham nhũng , trong trường hợp đó không có tác hại gì (với ZFS, bạn có thể chọn thuật toán tổng kiểm tra trong số ít, vì vậy bạn có thể chọn điểm ưa thích của mình dọc theo tính liên tục về bảo mật / hiệu suất), nhưng tổng kiểm tra mức hệ thống tệp tự động đảm bảo rằng không có tham nhũng không được xử lý vì nếu có, bạn sẽ biết về nó, trong trường hợp của ZFS bằng cách nhận lỗi I / O thay vì dữ liệu bị hỏng.
một CVn

@ MichaelKjorling không phải là "bảo đảm" (chỉ làm giảm xác suất xảy ra lỗi không bị phát hiện so với kiểm tra chỉ trên đĩa, bằng một lượng chưa ai định lượng được! Vì vậy, không ai thực sự biết kiểm tra của ZFS hữu ích như thế nào :)), cộng với bạn có thể sử dụng một trình bao bọc "đọc" và "viết" đơn giản, trong suốt thực hiện kiểm tra cho bạn. Người ta không cần phải đặt thứ lạ mắt này vào không gian kernel.
thượng cổ

3
@caveman không, zfs không có chủ đề. Không thể triển khai RAID mà không phải là mdadm. Tôi muốn biết về mdadm. Tôi đã bình chọn câu trả lời này nhiều nhất có thể và ý kiến ​​của bạn về câu trả lời ngoài chủ đề điền thêm thông tin về câu trả lời ngoài chủ đề không giúp ích gì cho câu hỏi ban đầu.
BeowulfNode42

3

Câu trả lời này là sản phẩm của lý luận dựa trên các bằng chứng khác nhau mà tôi đã tìm thấy. Tôi không biết cách triển khai Linux kernel, vì tôi không phải là nhà phát triển kernel và dường như có rất nhiều thông tin sai lệch vô nghĩa ngoài kia. Tôi đoán rằng nhân Linux đưa ra các lựa chọn lành mạnh. Câu trả lời của tôi nên áp dụng trừ khi tôi nhầm.

Nhiều ổ đĩa sử dụng ECC (mã sửa lỗi) để phát hiện lỗi đọc. Nếu dữ liệu bị hỏng, hạt nhân sẽ nhận được URE (lỗi đọc không thể phục hồi) cho khối đó từ ổ đĩa hỗ trợ ECC. Trong những trường hợp này (và có một ngoại lệ bên dưới), sao chép dữ liệu bị hỏng hoặc trống, dữ liệu trên dữ liệu tốt sẽ gây ra sự điên rồ. Trong tình huống này, kernel nên biết dữ liệu nào tốt và dữ liệu nào xấu. Theo đó là năm 2010 và RAID5 vẫn hoạt động bài viết:

Hãy xem xét sự thay thế này, mà tôi biết sẽ được sử dụng bởi ít nhất một vài nhà cung cấp mảng. Khi một ổ đĩa trong ổ đĩa RAID báo cáo URE, bộ điều khiển mảng sẽ tăng số đếm và thỏa mãn I / O bằng cách xây dựng lại khối từ tính chẵn lẻ. Sau đó, nó thực hiện ghi lại trên đĩa đã báo cáo URE (có khả năng xác minh) và nếu khu vực xấu, microcode sẽ ánh xạ lại và tất cả sẽ ổn.

Tuy nhiên, bây giờ là ngoại lệ: nếu một ổ đĩa không hỗ trợ ECC, một ổ đĩa nói về hỏng dữ liệu hoặc phần sụn đặc biệt không hoạt động, thì URE có thể không được báo cáo và dữ liệu bị hỏng sẽ được cung cấp cho kernel. Trong trường hợp dữ liệu không khớp: có vẻ như nếu bạn đang sử dụng RAID1 2 đĩa hoặc RAID5, thì hạt nhân không thể biết dữ liệu nào là chính xác, ngay cả khi ở trạng thái không bị suy giảm, vì chỉ có một chẵn lẻ chặn và không có báo cáo URE. Trong 3 đĩa RAID1 hoặc RAID6, một khối không gắn cờ URE bị hỏng sẽ không khớp với chẵn lẻ dự phòng (kết hợp với các khối liên kết khác), do đó có thể phục hồi tự động đúng cách.

Đạo đức của câu chuyện là: sử dụng ổ đĩa với ECC. Thật không may, không phải tất cả các ổ đĩa hỗ trợ ECC đều quảng cáo tính năng này. Mặt khác, hãy cẩn thận: Tôi biết ai đó đã sử dụng ổ SSD giá rẻ trong RAID1 2 đĩa (hoặc RAID10 2 bản sao). Một trong các ổ đĩa trả về dữ liệu bị hỏng ngẫu nhiên trên mỗi lần đọc của một khu vực cụ thể. Dữ liệu bị hỏng được tự động sao chép trên dữ liệu chính xác. Nếu SSD sử dụng ECC và hoạt động đúng, thì kernel nên có hành động khắc phục thích hợp.


1
Tôi nghĩ rằng tất cả các ổ cứng hiện đại có một số hình thức ECC nội bộ. Cho dù nó có hiệu quả, chính xác, hoặc trục trặc là một vấn đề khác. ECC phải được sử dụng nội bộ trong ổ đĩa để có thể báo cáo URE. Thối bit im lặng, mà tôi quan tâm nhất, không báo cáo URE ngay cả trên các ổ đĩa hỗ trợ nó, vì họ nghĩ rằng họ có dữ liệu chính xác, khi họ không có.
BeowulfNode42

Bằng cách quay bit, tôi giả sử bạn có nghĩa là bit lật ngẫu nhiên. Trong mọi trường hợp, ECC được thiết kế để phát hiện các bit bị lật. Theo Wikipedia, sửa chữa lỗi của sẹo lem Solomon là định dạng ECC phổ biến được phát minh vào năm 1960 và vẫn được sử dụng trong các đĩa Blu-Ray + HDD. Nếu bạn phát hiện ra rằng thuật toán đó cực kỳ đáng tin cậy, thì câu hỏi của bạn sẽ được trả lời khá nhiều, vì theo định nghĩa, phần cứng hiện đại cũng tốt như vậy, nếu không tốt hơn, ngay cả khi bạn không biết một phần của sự suy giảm phần cứng chỉ bằng cách nhìn nó kìa.
sudoman

1
Thối bit cũng có thể xảy ra do các vấn đề khác, chẳng hạn như khi một số vấn đề khiến đầu ổ đĩa không được căn chỉnh chính xác đến nơi mà nó nghĩ là nó đang viết và nó tràn sang các khu vực lân cận. Nó có thể sửa chữa khu vực mà nó dự định làm việc, nhưng khu vực gần đó sẽ bị hỏng. Nếu nó đã được ghi trên dữ liệu + ecc theo cách mà ECC cho khu vực gần đó báo cáo là ổn thì ổ đĩa sẽ không bao giờ biết nó có vấn đề. Nhiều khả năng, một số phần mềm giả mạo hướng dẫn ổ đĩa ghi dữ liệu xấu, hdd sẽ lưu trữ trung thực dữ liệu xấu đó. ví dụ: lệnh dd xấu
BeowulfNode42

2

Để bảo vệ bạn muốn, tôi sẽ sử dụng RAID6 + sao lưu ngoại vi thông thường ở 2 vị trí.

Cá nhân tôi vẫn chà mỗi tuần một lần và sao lưu hàng đêm, hàng tuần và hàng tháng tùy thuộc vào tầm quan trọng của dữ liệu và tốc độ thay đổi.


1
nhưng khả năng phát hiện / hiệu chỉnh thối bit nào cung cấp?
BeowulfNode42

1
RAID6 với việc cọ rửa thường xuyên cung cấp một số bảo vệ thối bit, vì tính chẵn lẻ kép tạo ra ba phiên bản của cùng một khối một cách hiệu quả, do đó, việc "bỏ phiếu" có thể được tổ chức dựa trên phiên bản nào là đúng. AFAIK, RAID6 chà trong linux dm-raid làm điều đó, xin vui lòng sửa cho tôi nếu tôi sai.
P.Péter

1
@ P.Péter Tôi nhận ra rằng toán học liên quan đến COULD sử dụng hệ thống bỏ phiếu, nhưng mdadm? Bạn có biết bất kỳ tài liệu nào về điều này hoặc đã có kinh nghiệm cá nhân dẫn bạn đến kết luận này. Đặc biệt là trong câu trả lời của Ethan.
BeowulfNode42

Đây là một thời gian trước đây, nhưng tôi mơ hồ nhớ đọc lên các cơ chế mdadm RAID6 trước khi bình luận. Xin lỗi, không cụ thể lắm. :( Tôi đoán chúng ta có thể sử dụng một chuyên gia thực sự trên mdadm ...
P.Péter 7/07/2016

2

Tôi không có đủ đại diện để bình luận, nhưng tôi muốn chỉ ra rằng hệ thống mdadm trong Linux KHÔNG sửa bất kỳ lỗi nào. Nếu bạn bảo nó "sửa" các lỗi trong quá trình xóa, RAID6, nếu có sự không nhất quán, nó sẽ "sửa" nó bằng cách giả sử các phần dữ liệu là chính xác và tính toán lại tính chẵn lẻ.


1
Điều này có vẻ khá khó xảy ra, trừ khi tôi hiểu lầm bạn. Bạn có nghĩa là dữ liệu từ các khối bị hỏng thường được sao chép trên các khối chính xác? Điều này sẽ yêu cầu khối xấu không xuất phát từ ổ đĩa hỗ trợ ECC (và do đó sẽ không báo cáo URE) và bạn đang sử dụng RAID5 hoặc 2 bản sao RAID1 (thay vì RAID6 như bạn đề xuất.)
sudoman

@sudoman, trong quá trình kiểm tra, nếu hệ thống con Linux MD phát hiện sự không khớp giữa dữ liệu và tính chẵn lẻ, nó sẽ giả định một cách mù quáng rằng tính chẵn lẻ là sai và viết lại dựa trên dữ liệu. Có thể sử dụng tính chẵn lẻ kép của RAID 6 để tìm ra lỗi nào, nhưng hệ thống con Linux MD không làm điều này.
Đánh dấu

1
Ethan, tôi không cho rằng bạn có bất kỳ tài liệu tham khảo nào cho thông tin này? hoặc ví dụ về trải nghiệm cá nhân bạn sẵn sàng chia sẻ những gì bạn nhớ? Với các tumbleweed mà Q này đã tạo ra, ngay cả thông tin giai thoại cũng sẽ hữu ích. Vì Q này đã được đăng, tôi đã gặp một số vấn đề với mdadm RAID1 cho ổ đĩa khởi động, trên các thanh usb (giá rẻ) khi 1 trong số chúng bị hỏng. Một số điều tra sau đó chỉ ra rằng thanh usb bị lỗi không có đủ hoặc có bất kỳ kiểm tra lỗi nào, hoặc nó chỉ không ghi dữ liệu vào một số khối và không tạo ra lỗi ghi. Tôi đã phải cài đặt lại hệ điều hành.
BeowulfNode42

-2

bit thối fud.? chắc chắn rồi...

Tôi đoán bạn cần nói chuyện với SEAGATE. (quên đi? đó có phải là cái cớ) không? tất cả các ổ đĩa đều có hiệu chỉnh ECC 100 bit mà bạn cần để chứng minh sự thối rữa trước tiên.
Tôi cá là bạn không thể. (đó là điều FUD đáng lo ngại phải không?) như sợ ma hay số 13? và không được thực hiện ở đây. không có bằng chứng xảy ra. và tệ hơn là không có bằng chứng về nguyên nhân.

Đầu tiên xác định bit rot có nghĩa là gì? ouch ... HDD: ECC kiểm tra dữ liệu (thậm chí 1 bit) so với bộ lưu trữ 100 bit ECC. nếu nó sai, nó sẽ sửa nó, nếu nó liên tục làm hỏng động cơ SMART, chắc chắn trên các ổ đĩa SAS, nó sẽ thay thế một cách hợp lý cụm hoặc khu vực bằng một cái tốt. sử dụng cụm phụ tùng. Điều này sửa chữa thiệt hại. Có tất cả các ổ đĩa phát triển các bit xấu từ ngày đầu đến cuối, từ các ổ đĩa đầu tiên của IBM đến NGAY BÂY GIỜ. nhưng bây giờ chúng tôi tự sửa chữa, Đọc toàn bộ giấy trắng của Seagate. vô tận ở đó, và tìm hiểu làm thế nào một ổ đĩa hoạt động. đồng ý?

điều này sẽ tiếp tục cho đến khi bạn hết phụ tùng, (não hdd, thông minh) và sau đó SMART hét lên CUỘC SỐNG. (hoặc thậm chí sớm hơn, giống như HP hiện) trên bộ điều khiển HP P420, nó luôn luôn theo dõi điều này. Tôi thậm chí còn gửi email cho tôi, hiển thị NEAR OUT OF SPARE cluster. Thỉnh thoảng các phụ tùng đi nhanh hơn, một dấu hiệu chắc chắn sẽ sớm chết, (10 tuổi sas chắc chắn, ít hơn trong sata Junky.

Tôi gọi BOGUS và FUD trên bit rot.

Tôi đoán là ai đó đồ chơi PC đã viết dữ liệu sai, vì lý do bao giờ. không chạy bộ nhớ ECC ?? Rất tiếc, máy chủ thực sự có RAM ECC. nhiễm virus.? hoặc mất điện trong quá trình ghi (không có UPS>?)? hoặc có trí nhớ kém.? hoặc bị hư hỏng. Hoặc PSU tạo ra hàng tấn tiếng ồn (xấu)

Tôi gọi FUD ở đây. lấy làm tiếc,


1
Tôi vừa mới làm rõ tôi đang nói về hệ thống nhà của tôi, vì vậy phần cứng loại máy chủ và ECC nằm ngoài phạm vi giá ngân sách của tôi. Phòng thí nghiệm tại nhà của tôi dễ bị mất điện đột ngột hơn ngay cả với các sự cố nhỏ của nó, hoặc các sự kiện ngẫu nhiên khác, như tòa tháp sụp đổ hoặc một cái gì đó. Có rất nhiều cách khác để bảo vệ ổ cứng lưu trữ dữ liệu sai và ổ cứng lưu trữ các bit ECC cho dữ liệu sai đó. Tôi không quan tâm làm thế nào lỗi xảy ra, tôi muốn chúng dễ dàng sửa chữa.
BeowulfNode42
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.