Mở đầu:

Tôi là một con khỉ mã ngày càng nhận nhiệm vụ SysAdmin cho công ty nhỏ của mình. Mã của tôi là sản phẩm của chúng tôi và ngày càng chúng tôi cung cấp ứng dụng tương tự như SaaS.

Khoảng 18 tháng trước, tôi đã chuyển các máy chủ của chúng tôi từ một nhà cung cấp trung tâm lưu trữ cao cấp sang một máy đẩy giá barebones trong một trung tâm dữ liệu cấp IV. (Nghĩa đen trên đường phố.) Điều này làm cho bản thân chúng ta làm nhiều hơn - những thứ như mạng, lưu trữ và giám sát.

Là một phần của bước tiến lớn, để thay thế bộ lưu trữ gắn trực tiếp được thuê của chúng tôi từ công ty lưu trữ, tôi đã xây dựng một NAS hai nút 9TB dựa trên các gói SuperMicro, thẻ RAID 3ware, Ubuntu 10.04, hai chục đĩa SATA, DRBD và. Tất cả đều được ghi lại một cách đáng yêu trong ba bài đăng trên blog: Xây dựng và thử nghiệm một NAS RAID10 NFSv4 9TB mới: Phần I , Phần II và Phần III .

Chúng tôi cũng thiết lập một hệ thống giám sát Cacit. Gần đây, chúng tôi đã thêm nhiều điểm dữ liệu hơn, như các giá trị SMART.

Tôi không thể thực hiện tất cả những điều này nếu không có những chiếc boffin tuyệt vời tại ServerFault . Đó là một kinh nghiệm thú vị và giáo dục. Sếp tôi rất vui (chúng tôi đã tiết kiệm được xô xô $$$) , khách hàng của chúng tôi rất vui (chi phí lưu trữ giảm) , tôi rất vui (vui, vui, vui) .

Cho đến ngày hôm qua.

Mất điện & Phục hồi:

Một thời gian sau bữa ăn trưa, chúng tôi bắt đầu nhận được báo cáo về hiệu suất chậm chạp từ ứng dụng của chúng tôi, một CMS phương tiện truyền thông trực tuyến theo yêu cầu. Cũng trong khoảng thời gian hệ thống giám sát Cacti của chúng tôi đã gửi một loạt email. Một trong những cảnh báo đáng nói hơn là một biểu đồ của iuler đang chờ.

nhập mô tả hình ảnh ở đây

Hiệu suất trở nên xuống cấp đến mức Pingdom bắt đầu gửi thông báo "máy chủ xuống". Tải tổng thể ở mức vừa phải, không có lưu lượng truy cập tăng đột biến.

Sau khi đăng nhập vào các máy chủ ứng dụng, các máy khách NFS của NAS, tôi đã xác nhận rằng mọi thứ đều trải qua thời gian chờ đợi IO không liên tục và cực kỳ dài. Và một khi tôi nhảy vào nút NAS chính, sự chậm trễ tương tự là điều hiển nhiên khi cố gắng điều hướng hệ thống tệp của mảng vấn đề.

Thời gian để thất bại, điều đó đã đi tốt. Trong vòng 20 phút, mọi thứ đã được xác nhận để sao lưu và chạy hoàn hảo.

Hậu kỳ:

Sau bất kỳ và tất cả các lỗi hệ thống, tôi thực hiện khám nghiệm tử thi để xác định nguyên nhân lỗi. Điều đầu tiên tôi làm là ssh trở lại hộp và bắt đầu xem xét nhật ký. Nó đã ngoại tuyến, hoàn toàn. Thời gian cho một chuyến đi đến trung tâm dữ liệu. Thiết lập lại phần cứng, sao lưu và chạy.

Trong /var/syslogtôi tìm thấy mục đáng sợ này:

Nov 15 06:49:44 umbilo smartd[2827]: Device: /dev/twa0 [3ware_disk_00], 6 Currently unreadable (pending) sectors
Nov 15 06:49:44 umbilo smartd[2827]: Device: /dev/twa0 [3ware_disk_07], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 171 to 170
Nov 15 06:49:45 umbilo smartd[2827]: Device: /dev/twa0 [3ware_disk_10], 16 Currently unreadable (pending) sectors
Nov 15 06:49:45 umbilo smartd[2827]: Device: /dev/twa0 [3ware_disk_10], 4 Offline uncorrectable sectors
Nov 15 06:49:45 umbilo smartd[2827]: Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
Nov 15 06:49:45 umbilo smartd[2827]: # 1  Short offline       Completed: read failure       90%      6576         3421766910
Nov 15 06:49:45 umbilo smartd[2827]: # 2  Short offline       Completed: read failure       90%      6087         3421766910
Nov 15 06:49:45 umbilo smartd[2827]: # 3  Short offline       Completed: read failure       10%      5901         656821791
Nov 15 06:49:45 umbilo smartd[2827]: # 4  Short offline       Completed: read failure       90%      5818         651637856
Nov 15 06:49:45 umbilo smartd[2827]:

Vì vậy, tôi đã đi kiểm tra đồ thị Cacti cho các đĩa trong mảng. Ở đây chúng ta thấy rằng, vâng, đĩa 7 đang trượt đi giống như syslog nói. Nhưng chúng ta cũng thấy rằng Erros đọc thông minh của đĩa 8 đang dao động.

nhập mô tả hình ảnh ở đây

Không có tin nhắn về đĩa 8 trong syslog. Thú vị hơn là các giá trị dao động cho đĩa 8 tương quan trực tiếp với thời gian chờ IO cao! Giải thích của tôi là:

Đĩa 8 đang gặp lỗi phần cứng kỳ lạ dẫn đến thời gian hoạt động không liên tục.
Bằng cách nào đó, tình trạng lỗi này trên đĩa đang khóa toàn bộ mảng

Có thể có một mô tả chính xác hoặc chính xác hơn, nhưng kết quả cuối cùng là một đĩa đang ảnh hưởng đến hiệu suất của toàn bộ mảng.

Câu hỏi

Làm thế nào một đĩa đơn trong mảng SATA RAID-10 phần cứng có thể khiến toàn bộ mảng bị dừng lại?
Tôi có ngây thơ khi nghĩ rằng thẻ RAID nên xử lý vấn đề này không?
Làm thế nào tôi có thể ngăn chặn một đĩa đơn bị ảnh hưởng đến toàn bộ mảng?
Tui bỏ lỡ điều gì vậy?

— Stu Thompson
nguồn

11

Một câu hỏi được viết tốt từ bạn, +1. Luôn luôn là một niềm vui để đọc (nhưng không may trên bảng của tôi thậm chí có một ý tưởng về).

— Tombull89

1

@daff: Mua ngân sách cho thiết lập này, chúng tôi đã tiết kiệm được 66% so với HP. Chúng tôi đặt một vòng đời năm cho hộp này, nó không cần phải kéo dài hơn. Hãy nhớ rằng đây là một hộp lưu trữ, chi phí Plumet hàng năm.

— Stu Thompson

2

3Ware không tệ, mỗi lần. Tôi đã có hành vi mạnh mẽ từ thẻ PERC trên hệ thống Dell, được cho là phần cứng máy chủ phong nha. Thẻ 3Ware nên có pin trên boong và như vậy, vì vậy tôi sẽ không cảm thấy quá tệ về quyết định này. Được rồi, bạn có thể bị đình trệ vì quyết định của SAS so với SATA, nhưng bạn không bị mất dữ liệu và từ câu hỏi của bạn, bạn có vẻ như đã có bản sao lưu và giám sát, vì vậy bạn đang làm rất tốt :-)

— Bart Silverstrim

1

@StuThndry: tất nhiên là rẻ hơn khi sử dụng ngân sách và sử dụng phần cứng của người tiêu dùng, và thường thì nó sẽ hoạt động tốt, đặc biệt là khi, như trong trường hợp của bạn, có một khái niệm HA tốt đằng sau nó. Nhưng có những trường hợp, như bạn đã chỉ ra, nơi phần cứng của người tiêu dùng không cắt giảm khi điều xấu xảy ra. Tôi có thể đảm bảo với bạn rằng một đĩa SAS bị lỗi trên bộ điều khiển PERC (Dell) hoặc SmartArray (HP) tốt sẽ không gây ra cho bạn bất kỳ vấn đề nào ngoài cuộc gọi hỗ trợ để lấy đĩa thay thế. Chúng tôi đã có rất nhiều đĩa SAS chết trong nhiều năm sản xuất nhưng chưa bao giờ chúng làm hỏng máy chủ.

— daff

5

Hầu hết các đĩa SATA không hỗ trợ TLER (Khôi phục lỗi giới hạn thời gian). Khi một đĩa SATA thông thường gặp sự cố vật lý, nó sẽ gửi "giữ trong khi tôi làm việc này" đến hệ thống con đĩa (thường làm như đã nói). Sau đó, đĩa sẽ tiến hành dành 10-30 giây (thường) cho mỗi lỗi mà nó tìm thấy cho đến khi chạm ngưỡng "Tôi đã chết". Các đĩa SAS và đĩa SATA hỗ trợ TLER được cấu hình bởi HBA của chúng để thông báo cho hệ thống con đĩa "Tôi gặp sự cố, tôi phải làm gì?" vì vậy HBA có thể quyết định hành động thích hợp về cơ bản ngay lập tức. (Đơn giản hóa cho ngắn gọn)

— Chris S

48

Tôi ghét phải nói "không sử dụng SATA" trong các môi trường sản xuất quan trọng, nhưng tôi đã thấy tình huống này khá thường xuyên. Ổ đĩa SATA thường không có nghĩa là cho chu kỳ nhiệm vụ mà bạn mô tả, mặc dù bạn đã chỉ định các ổ đĩa được đánh giá cụ thể cho hoạt động 24x7 trong thiết lập của bạn. Kinh nghiệm của tôi là các ổ đĩa SATA có thể bị lỗi theo những cách không thể đoán trước, thường ảnh hưởng đến toàn bộ mảng lưu trữ, ngay cả khi sử dụng RAID 1 + 0, như bạn đã làm. Đôi khi các ổ đĩa thất bại theo cách có thể cản trở toàn bộ xe buýt. Một điều cần lưu ý là liệu bạn có đang sử dụng các bộ mở rộng SAS trong thiết lập của mình không. Điều đó có thể tạo ra sự khác biệt trong cách các đĩa còn lại bị ảnh hưởng bởi lỗi ổ đĩa.

Nhưng nó có thể có ý nghĩa hơn khi đi với các ổ đĩa midline / nearline (7200 RPM) so với SATA. Có một mức giá cao hơn so với SATA, nhưng các ổ đĩa sẽ hoạt động / thất bại nhiều hơn dự đoán. Việc sửa lỗi và báo cáo trong giao diện / giao thức SAS mạnh hơn bộ SATA. Vì vậy, ngay cả với các ổ đĩa có cơ chế giống nhau , sự khác biệt về giao thức SAS có thể đã ngăn được nỗi đau mà bạn gặp phải trong quá trình hỏng ổ đĩa.

— ewwite
nguồn

Khi tôi đang viết câu hỏi, tôi chỉ biết rằng sự lựa chọn của tôi về SAS sẽ được đưa ra. : / IOPS và thông lượng cũng nằm trong khả năng thiết lập của tôi. Nhưng tôi đã không hoàn toàn tìm kiếm một số khác biệt tinh tế hơn. Chúng tôi đặt tuổi thọ 3 năm vào hộp này. Sẽ chắc chắn sử dụng SAS lần sau.

— Stu Thompson

1

Vâng, đó là một cái gì đó để xem xét lần sau. Các ổ đĩa SAS gần như tôi đã đề cập không nhất thiết phải hoạt động tốt hơn so với SATA, nhưng đó là những thứ như phục hồi lỗi và lỗi ổ đĩa trong đó SAS dễ quản lý hơn. Tôi có hệ thống lưu trữ SATA 48 ổ Sun Fire x4540 với 6 bộ điều khiển và các lỗi ổ đĩa riêng lẻ có xu hướng khóa máy chủ. Bài học khó.

— ewwhite

10

Một người bạn tốt của tôi là trong thế giới lưu trữ doanh nghiệp. Anh ta đọc tất cả những điều này và nói rằng "anh chàng này đúng. Điều gì xảy ra là SATA được thiết kế để biểu thị một sự thất bại hoàn toàn và một người không liên tục sẽ yêu cầu xe buýt không thực hiện chuyển đổi dự phòng. Thông thường, điều này không bao giờ được nhìn thấy vì hầu hết các cấu hình SATA là một ổ đĩa "

— Stu Thompson

@StuThndry Bạn đã xây dựng một hộp mới với SAS gần như chưa? Tôi rất thích đọc về kinh nghiệm của bạn. Câu hỏi của bạn đã giúp tôi rất nhiều, tôi có thể sẽ xây dựng một hộp tương tự trong tương lai gần.

— chrishiestand

1

@chrishiestand Không, tôi chưa. Tôi rời công ty vào ngày 13 tháng 1; nếu tôi ở lại, chúng tôi sẽ xây dựng hộp thay thế với đường gần. Than ôi, sự tồn tại của NAS quá gắn bó với chính tôi và dữ liệu đã được chuyển đến SAN của một nhà cung cấp dịch vụ.

— Stu Thompson

17

Làm thế nào một đĩa đơn có thể đưa xuống mảng? Câu trả lời là không nên, nhưng nó phụ thuộc vào nguyên nhân gây ra sự cố mất điện. Nếu đĩa bị chết theo cách hành xử, nó không nên lấy nó xuống. Nhưng có thể nó thất bại theo cách "trường hợp cạnh" mà bộ điều khiển không thể xử lý.

Bạn có ngây thơ nghĩ rằng điều này không nên xảy ra? Không, tôi không nghĩ vậy. Một thẻ RAID phần cứng như thế sẽ xử lý hầu hết các vấn đề.

Làm thế nào để ngăn chặn nó? Bạn không thể lường trước các trường hợp cạnh kỳ lạ như thế này. Đây là một phần của một sysadmin ... nhưng bạn có thể làm việc trên các quy trình phục hồi để giữ cho nó không ảnh hưởng đến doanh nghiệp của bạn. Cách duy nhất để cố gắng khắc phục điều này ngay bây giờ là thử một thẻ phần cứng khác (không phải là điều bạn muốn làm) hoặc thay đổi ổ đĩa của bạn thành ổ đĩa thay vì SATA để xem liệu SAS có mạnh hơn không. Bạn cũng có thể liên hệ với nhà cung cấp thẻ RAID của bạn và cho họ biết những gì đã xảy ra và xem những gì họ nói; Rốt cuộc, họ là một công ty được cho là chuyên về hiểu biết về các thiết bị điện tử truyền động mạnh mẽ. Họ có thể có thêm lời khuyên kỹ thuật về cách các ổ đĩa hoạt động cũng như độ tin cậy ... nếu bạn có thể đến đúng người để nói chuyện.

Bạn đã bỏ lỡ điều gì? Nếu bạn muốn xác minh rằng ổ đĩa bị lỗi cạnh, hãy kéo nó ra khỏi mảng. Mảng sẽ bị xuống cấp nhưng bạn không nên có nhiều lỗi chậm và lỗi lạ (ngoài trạng thái mảng bị xuống cấp). Bạn đang nói rằng có vẻ như nó đang hoạt động tốt, nhưng nếu nó có lỗi đọc đĩa, bạn nên thay thế ổ đĩa trong khi bạn có thể. Các ổ đĩa có dung lượng cao đôi khi có thể có lỗi URE (lý do tốt nhất để không chạy RAID 5, lưu ý phụ) không hiển thị cho đến khi một ổ đĩa khác bị lỗi. Và nếu bạn gặp phải hành vi trường hợp cạnh từ một ổ đĩa đó, bạn không muốn dữ liệu bị hỏng được di chuyển sang các ổ đĩa khác trong mảng.

— Bart Silverstrim
nguồn

1

Vâng ... chúng tôi đã đưa vào một chính sách thay thế mới như "nếu lỗi đọc biến động thì hãy kéo nó ra" . Bây giờ tôi nghĩ về nó, chúng tôi đã có tỷ lệ thất bại khá cao trên các ổ đĩa này. 4 của 22 trong 18 tháng. Hmmm ....

— Stu Thompson

2

4 ổ trong 18 tháng? đó là một tỷ lệ khá cao ở đó ... trong khi đó có thể là các ổ đĩa không nằm trong thông số kỹ thuật, có thể có vấn đề về làm mát / luồng không khí để xem xét. Hoặc có thể một cái gì đó lạ với bộ điều khiển. Chỉ cần một vài suy nghĩ ... để mắt đến nhật ký. Nếu bạn có thể liên hệ với bất kỳ ai trong 3Ware với công việc thực tế trên thẻ và không chỉ là tập lệnh, bạn có thể muốn chạy nó bởi họ và xem họ nói gì.

— Bart Silverstrim

1

Tùy thuộc vào tập hợp mà bạn thấy lỗi, bạn cũng có thể kiểm tra xem có điều gì không hay xảy ra với các dây cáp không. Nếu các lỗi dường như tập trung vào cùng một cổng, bạn có thể có ít hơn một bộ lỗi ngẫu nhiên.

— Bart Silverstrim

4

Tôi vừa thấy rằng các giá trị SMART cho ổ đĩa này đang chạy ở ~ 31 ° C, hoặc cao hơn 4 ° C so với tất cả các ổ đĩa khác. Những điều khiến bạn đi hmmmm ....

— Stu Thompson

2

@DanNeely: Trong số 14 ổ đĩa (11 dữ liệu, 3 hệ thống), đó là ổ đĩa duy nhất có nhiệt độ cao hơn. Tôi khá chắc chắn luồng không khí là tốt, nhưng sẽ kiểm tra rõ ràng vào ngày mai.

— Stu Thompson

10

Tôi không phải là một chuyên gia, nhưng tôi sẽ chụp một bức ảnh hoang dã trong bóng tối dựa trên kinh nghiệm của tôi với bộ điều khiển RAID và mảng lưu trữ.

Đĩa thất bại theo nhiều cách khác nhau. Thật không may, các đĩa có thể bị lỗi hoặc bị lỗi theo cách mà hiệu suất của chúng bị ảnh hưởng nghiêm trọng nhưng bộ điều khiển RAID không xem là một lỗi.

Nếu một đĩa bị lỗi theo cách rõ ràng, bất kỳ phần mềm điều khiển RAID nào cũng khá tốt trong việc phát hiện thiếu phản hồi từ đĩa, xóa nó khỏi nhóm và bắn bất kỳ thông báo nào. Tuy nhiên, tôi đoán những gì đang xảy ra ở đây là đĩa đang bị lỗi bất thường, vì một số lý do không gây ra lỗi ở phía bộ điều khiển. Do đó, khi bộ điều khiển đang tiến hành xóa ghi hoặc đọc từ đĩa bị ảnh hưởng, phải mất một thời gian dài để quay lại và lần lượt treo toàn bộ hoạt động IO và do đó là mảng. Vì bất kỳ lý do gì, điều này không đủ để bộ điều khiển RAID đi "ah, đĩa bị lỗi", có lẽ vì cuối cùng dữ liệu sẽ quay trở lại.

Lời khuyên của tôi sẽ là ngay lập tức thay thế đĩa bị lỗi. Sau đó, tôi sẽ xem cấu hình cho thẻ RAID của bạn (Đó là 3 phần mềm, tôi nghĩ rằng chúng khá tốt) và tìm hiểu xem cái mà nó coi là một đĩa bị lỗi.

PS ý tưởng hay khi nhập SMART vào xương rồng.

— gầm gừ
nguồn

Khi tôi kết nối các dấu chấm, suy nghĩ đầu tiên tôi làm là loại bỏ đĩa khỏi mảng; phụ tùng nóng đầy. Đó là đêm qua. Hôm nay tôi đã kéo đĩa và RMA'd nó. Ổ đĩa vi phạm: geekomatic.ch/images/wd-re4-flux-read-error.jpg

— Stu Thompson

Một trong những lý do tôi nghĩ rằng mọi hệ thống quan trọng của nhiệm vụ cần phải có một thẻ để xóa dữ liệu. Tôi đã thấy điều này quá nhiều lần để đếm, đặc biệt là trên các mảng SATA, tuy nhiên, ngay cả các đĩa SAS cao cấp hơn đã được biết là không thành công mà không kích hoạt bộ điều khiển.

— Jens Ehrich

7

Bạn cần các tính năng của thiết bị lưu trữ cấp doanh nghiệp. Cụ thể, các ổ đĩa doanh nghiệp WD RE 4 có hai tính năng cần thiết để ngăn chặn hành vi này trong Mảng RAID. Công nghệ đầu tiên được liệt kê dưới đây ngăn ngừa rung động điều hòa quay gây ra sự hao mòn không cần thiết trên các thành phần cơ khí ổ cứng. Công nghệ thứ hai là nguyên nhân gây ra sự cố của bạn, giao thức SATA không có tính năng này. Để có được các tính năng này, bạn cần có SAS và nếu bạn khăng khăng với các ổ đĩa SATA, bạn có thể mua các thẻ Bộ chuyển đổi từ SAS sang SATA như LSISS9252.

Công nghệ RAFF cải tiến Thiết bị điện tử tinh vi giám sát ổ đĩa và điều chỉnh cả rung động tuyến tính và quay trong thời gian thực. Kết quả là một sự cải thiện hiệu suất đáng kể trong môi trường rung động cao so với thế hệ ổ đĩa trước.

Phục hồi lỗi cụ thể theo thời gian, hạn chế RAID (TLER) Ngăn chặn sự cố rơi ổ đĩa gây ra bởi các quá trình khôi phục lỗi ổ cứng mở rộng phổ biến đối với các ổ đĩa máy tính để bàn.

http://en.wikipedia.org/wiki/Error_recovery_control#Overview

Ngoài ra xin vui lòng xem liên kết dưới đây:

http://en.wikipedia.org/wiki/Error_recovery_control#Raid_Controllers

Xem thêm: Tài liệu TLER kỹ thuật số phương Tây giải thích sâu về quá trình khôi phục lỗi. Phục hồi lỗi Ngăn ngừa bụi phóng xạ trong WD Caviar RAID Edition Ổ cứng ATA nối tiếp:

http://www.3dfxzone.it/public/files/2579-001098.pdf

— Pháo lỏng
nguồn

6

Chỉ cần đoán: các ổ cứng được cấu hình để thử lại các lỗi đọc thay vì báo lỗi. Mặc dù đây là hành vi mong muốn trong cài đặt máy tính để bàn, nhưng nó lại phản tác dụng trong RAID (nơi bộ điều khiển nên ghi lại bất kỳ cung nào không đọc được từ các đĩa khác, vì vậy ổ đĩa có thể ánh xạ lại).

— Simon Richter
nguồn

Rất có thể. Nếu vậy, điều này chắc chắn không thú vị vì đây là các đơn vị "phiên bản RAID". : |

— Stu Thompson

Hoàn toàn không thú vị, bởi vì cài đặt đó chính là định nghĩa của "phiên bản RAID" :)

— Simon Richter

6

cú sút của tôi trong bóng tối:

ổ 7 bị lỗi Nó có một số cửa sổ thất bại, nơi nó không có sẵn.
ổ 8 cũng có một số lỗi 'nhẹ hơn'; sửa chữa bằng cách thử lại.
RAID10 thường là "RAID0 của một vài cặp RAID1", ổ 7 và 8 thành viên của cùng một cặp?

nếu vậy, có vẻ như bạn gặp phải trường hợp "không nên xảy ra" do lỗi hai đĩa trên cùng một cặp. gần như là thứ duy nhất có thể giết chết RAID10. thật không may, điều đó có thể xảy ra nếu tất cả các ổ đĩa của bạn đến từ cùng một lô hàng, vì vậy chúng có nhiều khả năng chết đồng thời.

Tôi đoán rằng trong một lỗi ổ đĩa 7, bộ điều khiển đã chuyển hướng tất cả các lần đọc sang ổ 8, do đó, bất kỳ lỗi thử lại nào đều gây ra sự chậm trễ lớn gây ra một trận tuyết lở các nhiệm vụ bị đóng băng, làm mất hiệu suất trong một thời gian.

Bạn thật may mắn khi ổ 8 dường như chưa chết, vì vậy bạn có thể sửa mà không cần dataloss.

Tôi sẽ bắt đầu bằng cách thay đổi cả hai ổ đĩa và đừng quên kiểm tra hệ thống cáp. một kết nối lỏng lẻo có thể gây ra điều này và nếu không được định tuyến chắc chắn, nhiều khả năng nó sẽ xảy ra trong các ổ đĩa liền kề. Ngoài ra, một số thẻ đa cổng có một số đầu nối hai cổng, nếu ổ 7 và ổ 8 nằm trên cùng một thẻ, đó có thể là nguồn gốc của sự cố của bạn.

— Xì gà
nguồn

3

Ổ 8 là nguyên nhân gây gián đoạn dịch vụ, tôi đã kéo nó. Lái xe 7, trong khi nó đã mất một số sektor, như đã ở trong trạng thái này trong một thời gian và nói chung vẫn hoạt động tốt. Không, họ ổ đĩa là trong cặp khác nhau. (Đó là điều mà tôi coi, cùng với một không thẳng hàng có thể truy vấn Cacti / SNMP của tôi.) Thẻ có 16 cổng, 4 dây cáp, 4 cổng mỗi cáp vào một cửa sổ lại. Nếu vấn đề là thẻ, cáp hoặc backpane tôi sẽ sớm biết khi tôi thay thế ổ đĩa 8.

— Stu Thompson

3

Thẻ giao tiếp SATA là một giải pháp khác.

Gần đây tôi đã trải nghiệm số phận tương tự và tìm thấy chủ đề này. Nguyên lý chung là giao thức SAS phù hợp với RAID hơn so với SATA, vì SATA thiếu các tính năng. Đây là lý do tại sao các ổ đĩa vật lý tương tự được trang bị bộ điều khiển SAS, sau đó được bán dưới dạng Gần tuyến SAS.

Tìm kiếm thêm, tôi tìm thấy:

http://www.lsi.com/products/storagecomponents/Pages/LSISS9252.aspx

Tôi đang điều tra nâng cấp một trong những kho của tôi với một loạt những kho này. Ngay bây giờ, chênh lệch giá giữa 3 TB SATA so với SAS là 400% (giá vanilla, cùng nhãn hiệu, thông số kỹ thuật và cửa hàng, Đức). Tôi rõ ràng không thể biết chiến lược này có hiệu quả hay không, nhưng nó đáng để thử.

Bình luận rất hoan nghênh :-)

— korkman
nguồn

1

Lý thuyết tốt đẹp. Sau khi thu thập một số thông tin, chỉ các nhà sản xuất khay lưu trữ mới có thể tích hợp các bảng này và thêm chúng không nhất thiết có nghĩa là xử lý lỗi tốt hơn.

— korkman

2

Tôi đã thấy một đĩa SATA với các thiết bị điện tử bị hỏng khóa phần mềm khởi động của Areca 12 một cách chắc chắn, không có cách nào để truy cập BIOS, hãy để một mình khởi động máy từ bất kỳ phương tiện nào cho đến khi tìm thấy ổ cứng vi phạm bằng cách rút đĩa ra trong hệ nhị phân tìm kiếm thời trang.

— rackandboneman
nguồn

Làm thế nào một đĩa đơn trong mảng SATA RAID-10 phần cứng có thể khiến toàn bộ mảng bị dừng lại?

Mở đầu:

Mất điện & Phục hồi:

Hậu kỳ:

Câu hỏi