Tôi có một máy 24 lõi với RAM 94,6GiB chạy máy chủ Ubuntu 10.04. Hộp đang có% iowait cao, không giống như một máy chủ khác mà chúng tôi có (4 lõi) chạy cùng loại và số lượng quy trình. Cả hai máy được kết nối với máy chủ tệp VNX Raid, máy 24 lõi thông qua 4 thẻ FC và máy còn lại thông qua thẻ ethernet 2 gigabit. Máy 4 lõi hiện đang vượt trội so với máy 24 lõi, có mức sử dụng CPU cao hơn và% iowait thấp hơn.
Trong 9 ngày thời gian hoạt động,% iowait trung bình ở mức 16% và thường xuyên trên 30%. Hầu hết thời gian sử dụng CPU rất thấp, khoảng 5% (do iowait cao). Có bộ nhớ trống rộng rãi.
Một điều tôi không hiểu là tại sao tất cả các dữ liệu dường như đi qua sdc của thiết bị thay vì trực tiếp chuyển qua các bộ chuyển dữ liệu:
avg-cpu: %user %nice %system %iowait %steal %idle
6.11 0.39 0.75 16.01 0.00 76.74
Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn
sda 0.00 0.00 0.00 1232 0
sdb 0.00 0.00 0.00 2960 0
sdc 1.53 43.71 44.54 36726612 37425026
dm-0 0.43 27.69 0.32 23269498 268696
dm-1 1.00 1.86 7.74 1566234 6500432
dm-2 0.96 1.72 5.97 1442482 5014376
dm-3 0.49 9.57 0.18 8040490 153272
dm-4 0.00 0.00 0.00 1794 24
dm-5 0.00 0.00 0.00 296 0
Một mảnh khác của câu đố là các nhiệm vụ thường xuyên chuyển sang chế độ ngủ không thể liên tục (ở trên cùng), cũng có thể là do sự nắm giữ của io.
Tôi có thể xem gì để giúp chẩn đoán vấn đề? Tại sao tất cả các dữ liệu đi qua / dev / sdc? Điều đó có bình thường không?
CẬP NHẬT:
Kết nối mạng và khả năng đọc / ghi VNX đã được loại trừ là tắc nghẽn. Chúng ta có thể đạt tốc độ 800MB / giây với 4 NIC ngoại quan (vòng tròn). Các thẻ kênh sợi vẫn chưa được sử dụng. VNX có khả năng xử lý tốt các đĩa IO (RAID6, 30x2TB 7.2kRPM cho mỗi nhóm trong hai nhóm (tổng cộng 60 đĩa), khoảng 60% đọc).
Bỏ qua ở trên về dm và sdc, chúng đều là các đĩa bên trong và không phải là một phần của vấn đề.
Chúng tôi nghĩ rằng vấn đề có thể xảy ra với các mount nfs hoặc TCP (chúng tôi có 5 mount đến 5 phân vùng trên VNX), nhưng không biết chính xác là gì. Có lời khuyên nào không?
dm
là viết tắt của trình ánh xạ thiết bị, không phải là dữ liệu di chuyển. Câu hỏi này có lẽ sẽ làm tốt hơn nhiều tại Server Fault.