Sau khi khởi động lạnh máy chủ Debian 6.0.8 (HP ProLiant), ntpd
đã chơi tàn phá với thời gian hệ thống: bù và jitter đối với các máy chủ thời gian tham chiếu thông thường và đáng tin cậy tăng lên không giới hạn. (Lưu ý rằng một máy chủ giống hệt nhau hoàn toàn không có vấn đề gì.) Sau nhiều nỗ lực không thành công để khắc phục sự cố ở ntpd
bên, tôi quyết định thử khởi động lại và mọi thứ đều ổn.
Để điều tra vấn đề, tôi đã tìm thấy sự khác biệt này, điều này có thể giải thích các vấn đề về đồng hồ của tôi:
root@n1:~# zgrep Detected /var/log/dmesg*
/var/log/dmesg:[ 0.004000] Detected 2400.110 MHz processor.
/var/log/dmesg.0:[ 0.004000] Detected 2383.579 MHz processor.
/var/log/dmesg.1.gz:[ 0.004000] Detected 2400.036 MHz processor.
/var/log/dmesg.2.gz:[ 0.004000] Detected 2400.298 MHz processor.
/var/log/dmesg.3.gz:[ 0.004000] Detected 2400.165 MHz processor.
/var/log/dmesg.4.gz:[ 0.004000] Detected 2400.410 MHz processor.
Lưu ý rằng trong lần khởi động cuối cùng thứ hai (vấn đề nan giải), freq CPU được phát hiện là một ngoại lệ rõ ràng. Nếu không có ngoại lệ, sai số và độ lệch chuẩn của tần số được phát hiện liên quan đến tần số danh nghĩa là +0,15 MHz ± 0,25 MHz. Đối với khởi động có vấn đề, tôi có lỗi -16,4 Mhz, lớn hơn khoảng 100 lần so với dự kiến.
Những câu hỏi của tôi:
Một lỗi của loại này có thể làm cho
ntp
kỷ luật thời gian không ổn định / không thể sử dụng? Đây có phải là lý do cho vấn đề đồng hồ của tôi?Đây có phải là loại hành vi là một triệu chứng của phần cứng flacky? Máy chủ có nên đi vào bảo trì hw?
Cập nhật
Một số dữ liệu hữu ích:
- hạt nhân là 2.6.32-5-amd64 (Debian 2.6.32-48squeeze4)
current_clocksource
Làtsc
- lỗi cho
lpj
(tất nhiên) phù hợp với lỗi trên freq CPU
Một số dòng ngữ cảnh cho ở trên grep
[ 0.000000] hpet clockevent registered
[ 0.000000] Fast TSC calibration using PIT
[ 0.004000] Detected 2400.110 MHz processor.
[ 0.000008] Calibrating delay loop (skipped), value calculated using timer frequency.. 4800.22 BogoMIPS (lpj=9600440)
ntpdc -c loopinfo
không bao giờ cho tôi giá trị trôi tần số. Bây giờ sau khi khởi động lại, mọi thứ dường như theo thứ tự, với giá trị trôi ổn định ... BTW đề xuất của bạn là chính xác, tôi đang theo dõilog/loopstats
hành vi bất thường.