cứng đặt lại ngoại lệ liên kết Emask 0x50 SAct 0x0 SErr 0x4090800 hành động 0xe bị đóng băng


8

Tình huống sau:

Một máy chủ linux debian 7 với kernel 3.2.0-4-amd64 #1 SMP Debian 3.2.68-1+deb7u2 x86_64 GNU/Linux

Nhà sản xuất: Supermicro Tên sản phẩm: X10SLL-F Phiên bản:1.02

Bộ điều khiển SATA: Intel Corporation Lynx Point 6-port SATA Controller 1 [AHCI mode] (rev 04)

2 ổ SSD, 2 hdd

mỗi ổ đĩa có thể làm Sata Rev3 (6.0Gb / s)

hdparm -I /dev/sd[a-d]|egrep "Model|speed|Transport"
    Model Number:       TOSHIBA THNSNH128GBST                   
    Transport:          Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       TOSHIBA THNSNH128GBST                   
    Transport:          Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       ST2000VX000-1CU164                      
    Transport:          Serial, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       ST2000VX000-1CU164                      
    Transport:          Serial, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set

Các thông báo kernel gợi ý (ít nhất là cho tôi) một vấn đề với cả 4 ổ đĩa, khiến tôi tin rằng đó là bộ điều khiển sata có thể có lỗi.

ata1: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata1: irq_stat 0x00400040, connection status changed
ata1: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata1: hard resetting link
ata2: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata2: irq_stat 0x00400040, connection status changed
ata2: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata2: hard resetting link
ata4: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata4: irq_stat 0x00400040, connection status changed
ata4: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata4: hard resetting link
ata3: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata3: irq_stat 0x00400040, connection status changed
ata3: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata3: hard resetting link
ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: configured for UDMA/33
ata2: EH complete
ata1.00: configured for UDMA/33
ata1: EH complete
ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata3.00: configured for UDMA/33
ata3: EH complete
ata4.00: configured for UDMA/33
ata4: EH complete

Những gì tôi đã làm đã tìm ra (hoặc tin rằng đã tìm ra)

Các lệnh SECURITY FREEZE LOCKDEVICE CONFIGURATION OVERLAYkhông quan trọng đối với vấn đề.

Trong khi đọc khoảng 20 bugreports và rất nhiều tài liệu, một số liên kết đã đề nghị vô hiệu hóa NCQ, điều mà tôi đã làm.

Đầu tiên cho một thiết bị, sau khi chờ 1 ngày để kiểm tra xem lỗi có lặp lại không và tôi đã tắt nó cho cả 4 thiết bị

echo "1" >/sys/block/sdc/device/queue_depth

Không có thay đổi rõ ràng trong tình hình.

https://ata.wiki.kernel.org/index.php/Libata_error_messages

https://wiki.archlinux.org/index.php/Solid_State_Drive#Resolve_NCQ_errors

Những người khác đề nghị cáp sata hoặc thậm chí không tương thích giữa các ổ đĩa +.

Tuy nhiên, vì tôi dường như có vấn đề trên một ổ đĩa và điều này cư trú ở cả 4 hoặc có vấn đề trực tiếp trên cả 4 thiết bị nên tôi không thể xác định thêm vấn đề.

Vì đây là một máy chủ sản xuất đặt máy chủ này xuống để bảo trì (còn gọi là thay đổi param / kernel param), nhưng tôi muốn ngăn chặn điều đó nếu có thể.

Theo hoster đây có thể là quản lý năng lượng liên quan:

https://ormszilla.kernel.org/show_orms.cgi?id=74961 https://bugs.launchpad.net/ubfox/+source/linux/+orms/1318218

echo "medium_power" >/sys/class/scsi_host/host0/link_power_management_policy 

Trước khi thay đổi, điều này đã được đặt thành max_performance.

Điều này cũng không giúp được gì.

Giá trị thông minh của ổ cứng / SDD là OK, không có gì quá rõ ràng.

Lưu ý rằng Giá trị UDMA dường như chỉ là 33 bây giờ.

Khi khởi động máy chủ, đây là các giá trị tốc độ liên kết sata:

[    3.161850] ata6: SATA link down (SStatus 0 SControl 300)
[    3.161867] ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[    3.161882] ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[    3.161894] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[    3.161907] ata5: SATA link down (SStatus 0 SControl 300)

Tình huống có thể chỉ xảy ra khi tải cao trên ổ cứng, tôi chưa kiểm tra điều đó vì nó sẽ ảnh hưởng đến hiệu suất của máy chủ rõ ràng.

Không có tải trên SSD, chúng được gắn nhưng không được sử dụng bởi bất kỳ quy trình nào.

RAM là ECC theo như tôi có thể nói.

dmidecode -t 17
# dmidecode 2.11
SMBIOS 2.7 present.

Handle 0x0023, DMI type 17, 34 bytes
Memory Device
    Array Handle: 0x0022
    Error Information Handle: Not Provided
    Total Width: 72 bits
    Data Width: 64 bits
    Size: 8192 MB
    Form Factor: DIMM
    Set: None
    Locator: P1-DIMMA1
    Bank Locator: P0_Node0_Channel0_Dimm0
    Type: DDR3
    Type Detail: Synchronous
    Speed: 1600 MHz
    Manufacturer: Samsung
    Serial Number: 373A6427
    Asset Tag: 9876543210
    Part Number: M391B1G73QH0-CK0  
    Rank: 2
    Configured Clock Speed: 1600 MHz

Xin vui lòng cho tôi biết nếu tôi có thể cung cấp thêm thông tin vì tôi thiếu ý tưởng phải làm gì tiếp theo.


hỏi trực tiếp nhà cung cấp siêu thị, họ có thể giúp đỡ nếu hoster không.
Dennis Nolte

1
Lưu ý rằng hệ thống đang đàm phán lại ở tốc độ 1,5 Gbps. Hãy thử buộc 1,5 Gbps và xem điều đó có làm cho hệ thống ổn định không. Đó là một điểm dữ liệu. Hãy thử hỏiubub.com.com / 1/09090/11751 cho một bài viết ngắn về cách làm.
một CVn

Câu trả lời:


4

Những gì máy chủ của bạn trải nghiệm về cơ bản là đàm phán lại SATA ở tốc độ liên kết thấp hơn sau một số vấn đề giao tiếp với các ổ đĩa.

Các yếu tố này có thể được thực hiện ở đây (theo thứ tự xác suất)

  1. Các hoạt động IOPS có độ trễ rất cao (ví dụ: gây ra bởi bộ sưu tập rác của bộ điều khiển SSD) dẫn đến thời gian chờ lệnh SATA. Ổ đĩa của bạn có hỗ trợ lệnh SATA Trim không? Nếu vậy, hãy thử chạy fstrim /. Nó có thay đổi gì không?
  2. Bo mạch chủ / bộ nhớ xấu: bộ nhớ ECC của bạn có được bảo vệ không? Nếu không, và nếu bạn có thể, hãy chạy một phiên kiểm tra memtest86 + kéo dài (hơn 2 giờ)
  3. trình điều khiển phần cứng / phần mềm không tương thích
  4. Bộ điều khiển SATA xấu: mặc dù khá khó xảy ra, bạn không thể loại trừ hoàn toàn nó
  5. Cáp / ổ đĩa SATA xấu: vì cả bốn ổ đĩa đều gặp sự cố, điều này rất khó xảy ra

(các) ssd hiện không được sử dụng, có vẻ như ECC được sử dụng. từ dmidecode -t17: Tổng chiều rộng: 72 bit Độ rộng dữ liệu: 64 bit
Dennis Nolte

3

Theo Supermicro Support, khiếm khuyết nằm ở bảng:

Trích dẫn:

This board may need ECO 16238 update.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.