ZFS - Ảnh hưởng của lỗi thiết bị bộ đệm L2ARC (Nexenta)


10

Tôi có một máy chủ HP ProLiant DL380 G7 đang hoạt động như một đơn vị lưu trữ NexentaStor . Máy chủ có RAM 36 GB, 2 bộ điều khiển SAS LSI 9211-8i (không có bộ mở rộng SAS), 2 ổ đĩa hệ thống SAS, 12 ổ dữ liệu SAS, đĩa dự phòng nóng, bộ đệm L2ARC Intel X25-M và bộ tăng tốc PCI ZIL DDRdrive. Hệ thống này phục vụ NFS cho nhiều máy chủ VMWare. Tôi cũng có khoảng 90-100GB dữ liệu trùng lặp trên mảng.

Tôi đã có hai sự cố khi hiệu năng bị giảm đột ngột, khiến các máy khách VM và các bảng điều khiển SSH / Web Nexenta không thể truy cập được và yêu cầu khởi động lại toàn bộ mảng để khôi phục chức năng. Trong cả hai trường hợp, đó là SSD Intel X-25M L2ARC bị lỗi hoặc bị "tắt". NexentaStor không thông báo cho tôi về lỗi bộ nhớ cache, tuy nhiên cảnh báo ZFS FMA chung có thể nhìn thấy trên màn hình bảng điều khiển (không phản hồi).

nhập mô tả hình ảnh ở đây

Đầu zpool statusra cho thấy:

  pool: vol1
 state: ONLINE
 scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:

        NAME                        STATE     READ WRITE CKSUM
        vol1                        ONLINE       0     0     0
          mirror-0                  ONLINE       0     0     0
            c8t5000C50031B94409d0   ONLINE       0     0     0
            c9t5000C50031BBFE25d0   ONLINE       0     0     0
          mirror-1                  ONLINE       0     0     0
            c10t5000C50031D158FDd0  ONLINE       0     0     0
            c11t5000C5002C823045d0  ONLINE       0     0     0
          mirror-2                  ONLINE       0     0     0
            c12t5000C50031D91AD1d0  ONLINE       0     0     0
            c2t5000C50031D911B9d0   ONLINE       0     0     0
          mirror-3                  ONLINE       0     0     0
            c13t5000C50031BC293Dd0  ONLINE       0     0     0
            c14t5000C50031BD208Dd0  ONLINE       0     0     0
          mirror-4                  ONLINE       0     0     0
            c15t5000C50031BBF6F5d0  ONLINE       0     0     0
            c16t5000C50031D8CFADd0  ONLINE       0     0     0
          mirror-5                  ONLINE       0     0     0
            c17t5000C50031BC0E01d0  ONLINE       0     0     0
            c18t5000C5002C7CCE41d0  ONLINE       0     0     0
        logs
          c19t0d0                   ONLINE       0     0     0
        cache
          c6t5001517959467B45d0     FAULTED      2   542     0  too many errors
        spares
          c7t5000C50031CB43D9d0     AVAIL   

errors: No known data errors

Điều này đã không kích hoạt bất kỳ cảnh báo từ bên trong Nexenta.

Tôi có ấn tượng rằng một lỗi L2ARC sẽ không ảnh hưởng đến hệ thống. Nhưng trong trường hợp này, nó chắc chắn là thủ phạm. Tôi chưa bao giờ thấy bất kỳ đề xuất nào đối với RAID L2ARC. Việc loại bỏ hoàn toàn ổ SSD xấu khỏi máy chủ đã giúp tôi chạy lại, nhưng tôi lo ngại về tác động của lỗi thiết bị (và có thể thiếu thông báo từ NexentaStor).

Chỉnh sửa - SSD nào được lựa chọn tốt nhất hiện tại cho các ứng dụng bộ đệm L2ARC hiện nay?


Có thể là cổng SSD hoặc SATA của bạn đang gặp vấn đề về phần cứng?
tegbains

Đó là một bảng nối đa năng HP SAS. Tôi chưa bao giờ thấy một lỗi hoặc gặp sự cố trong nhiều lần triển khai (Linux), nhưng tôi khá chắc chắn rằng lỗi đó là một chức năng của SSD dành cho người tiêu dùng. Tôi có thể chấp nhận thất bại, nhưng tác động lên các đĩa còn lại và hệ thống lưu trữ tổng thể là vấn đề lớn hơn.
ewwhite

Đáng chú ý, Pogo Linux (người mà tôi hiểu là nhà tích hợp / đại lý lớn nhất của Nexenta) không còn cung cấp các thiết bị Intel X25 như một tùy chọn cho L2ARC hoặc ZIL do các vấn đề với các phiên bản phần sụn của Intel sau này.
Skyhawk

Và đề nghị thay thế là (thực hiện, mô hình, giá cả)?
ewwhite

1
Nhân tiện, dòng Intel 320 mới có thể rất thú vị để thử dưới dạng thiết bị L2ARC hoặc thậm chí ZIL: nó được hỗ trợ bằng tụ điện và mặc dù độ bền ghi bị giới hạn (tối đa 60 terabyte tùy theo kiểu máy), phần trăm hao mòn còn lại có thể được theo dõi bằng thuộc tính SMART E9 (bắt đầu từ 100 và đếm ngược xuống 1). Tôi nghi ngờ rằng nhiều người dùng ZFS có thể thay thế thiết bị này thường xuyên khi cần thiết để ngăn E9 tiếp cận 1, mà không phải trả chi phí tích lũy thậm chí gần bằng chi phí của ổ SLC có kích thước tương đương.
Skyhawk

Câu trả lời:


10

ZFS không làm I / O đĩa, trình điều khiển thiết bị bên dưới ZFS làm I / O đĩa. Nếu thiết bị không đáp ứng kịp thời hoặc như trong trường hợp này, làm gián đoạn tất cả các thiết bị khác trên thiết bị mở rộng, thì đó không phải là lỗi của ZFS. Tất cả các ZFS thấy là một I / O chậm.

Có một lỗi trong phần mềm Intel X-25M ảnh hưởng đến hành vi của họ trong khi tải nặng và có thể gây ra bão thiết lập lại. Vấn đề này ảnh hưởng đến tất cả các hệ điều hành và không thể giải quyết ở lớp HĐH. Vui lòng liên hệ với nhà cung cấp phần cứng của bạn để sửa chữa hoặc khắc phục.

Nếu đọc được dự kiến ​​sẽ được L2ARC thỏa mãn, thì việc đọc sẽ được thử ở đó. ZFS sau đó dựa vào trình điều khiển lớp thấp hơn để báo lỗi. Trong trường hợp này, ổ đĩa tiếp tục đặt lại và thử lại trong tối đa 5 phút trước khi tuyên bố I / O là không thành công, tùy thuộc vào trình điều khiển, thiết bị và cài đặt thời gian chờ mặc định. Chỉ sau khi trình điều khiển lớp thấp hơn khai báo I / O là thất bại, ZFS sẽ thử lại trên nhóm.

Người chạy kiểm tra âm lượng và kiểm tra ổ đĩa của NexentaStor tìm kiếm các thông báo lỗi bổ sung và cảnh báo bạn qua email và ghi nhật ký lỗi. Trình chạy kiểm tra đĩa đã được cải thiện trong phiên bản 3.1 để giúp cảnh báo bạn về các điều kiện cụ thể do phần sụn bị hỏng trong SSD.

Điểm mấu chốt: phần cứng của bạn bị lỗi và sẽ cần phải được sửa chữa hoặc thay thế.


2
Cảm ơn bạn. Vì vậy, tôi sẽ không sử dụng Intel X-25 nữa. Tôi muốn thử nghiệm, đề xuất cho một thiết bị SSD L2ARC mới để thay thế nó.
ewwhite

3

Bạn đang kết nối SSD X25-M với bảng nối đa năng? Có một vấn đề đã biết với Nexenta và truy cập L2ARC qua bảng nối đa năng. Đặt cược tốt nhất của bạn là kết nối SSD trực tiếp vào cổng SATA trên bo mạch chủ. Hãy chắc chắn rằng nó được cấu hình để sử dụng AHCI.

Nếu bạn đang chạy bất cứ nhiệm vụ quan trọng nào trên máy chủ này, tôi sẽ chuyển sang SSD SLC (như X25-E hoặc STEC SSD). Điều đó đang được nói, có lẽ bạn sẽ ổn với X25-M nếu không.


Có, tôi đang kết nối qua một khoang ổ đĩa bình thường. Tôi có các cài đặt khác với cùng SSD Intel chạy như L2ARC (trong phần cứng của Sun và HP). Điều này đặc biệt đã cho tôi rắc rối, mặc dù. Nghiên cứu của tôi dường như chỉ ra rằng L2ARC không cần phải mạnh mẽ như ZIL (do đó sử dụng các giải pháp ZIL dựa trên SLC và PCI và ổ đĩa tiêu dùng cho L2ARC). Điều này đã thay đổi?
ewwhite

Tôi sẽ thử cắm SSD trực tiếp vào bo mạch chủ và xem nó có hoạt động không. Nếu bạn có một chiếc X25-M dự phòng đang hoạt động, bạn có thể thử thay thế chiếc hiện tại và xem liệu bản thân SSD có bị hỏng không. Trên SSD SLC: Nó phụ thuộc vào mức độ rủi ro của bạn. Nếu bạn đang chạy phần mềm trên SLA không bao giờ bị hỏng và phải chạy nhanh, thì có thể rẻ hơn khi mua ổ SSD cao cấp.
zippy

Tôi đang cố gắng nói rằng Intel X25-M đã được đề xuất cho L2ARC trong hầu hết các bài viết và thảo luận tôi đã xem trực tuyến. Nếu đó không còn là trường hợp, thiết bị ưa thích là gì?
ewwhite

1
@ewwhite: Về lý thuyết, sự thất bại của thiết bị L2ARC sẽ không gây khó chịu vì ZFS chỉ có thể quay lại đọc đĩa (rõ ràng hiệu suất sẽ bị ảnh hưởng). Trong thực tế .. tốt, có vẻ như bạn đã gặp phải lỗi trình điều khiển ZFS hoặc scsi bị kích hoạt bởi hành vi của SSD.
Tom Shaw

1
@ewwhite: Có lẽ tôi nên cho bạn một lời khuyên thiết thực hơn. Nếu bạn muốn tạo ra sự cố hệ thống trong lần tiếp theo hệ thống của bạn, hãy làm theo hướng dẫn tại đây . Loại kết xuất này có thể hữu ích cho các nhà phát triển Illumos.
Tom Shaw

0

Ed, có một số mà bạn có thể sử dụng từ giá tương đối hợp lý đến khá đắt. Tôi thích triển khai SSD của SSD trong mọi trường hợp và đã làm rất tốt với cả STEC và Pliant. Cả hai hiện cung cấp một ổ đĩa MLC sẽ hoạt động nổi tiếng có thiết bị L2ARC. Chưa được thử nghiệm nhưng sắp ra mắt là SSD cung cấp từ Seagate là SLC SAS 2.0 và được đồn là "không đắt". Giữ nguyên....

-PB

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.