LInux: Làm cách nào để chẩn đoán / cách ly những gì gây ra tình trạng treo cổ ngẫu nhiên và các lần khởi động lại tự nhiên?


20

(ban đầu được đăng trên serverfault )

Vì vậy, thay vì chỉ đoán nguyên nhân là gì (mặc dù tiền của tôi dành cho các trình điều khiển nvidia), tôi bắt đầu tìm kiếm một số sự thật ở đâu?

Tôi đã trải qua / var / log nhiều lần nhưng có RẤT NHIỀU thứ trong đó và tôi không thể (chưa) phát hiện ra các bit quan trọng.


Bối cảnh: Phiên bản ngắn

Tôi đã chuyển từ WinXP sang Ubuntu Karmic ngay sau khi nó có sẵn.

Kể từ đó, tôi đã có một loạt các sự cố dường như ngẫu nhiên biểu hiện như sau:

  • khởi động lại tự phát
  • việc khóa hoàn toàn với bàn phím và chuột USB của tôi trở nên không phản hồi (ngay khi đèn LED tắt hết). Ngoài ra tôi thường sẽ không thể ssh vào hộp khi điều này xảy ra.

Tôi đã thực hiện rất nhiều tìm kiếm và Nvidia dường như là nghi phạm chính nhưng tôi không biết bắt đầu tìm kiếm nguyên nhân thực sự ở đâu.

Một người dùng serverfault đề nghị kiểm tra RAM bằng MemtextX86 +. Không tìm thấy lỗi. Theo dõi nhiệt độ thẻ video cũng đã được đề xuất, mà tôi đang tìm kiếm ngay bây giờ.

Khác hơn, đề nghị ai?



Bối cảnh: Phiên bản dài

Đôi khi, tôi có thể đi cả tuần mà không gặp sự cố sau đó có 5 trong 2 ngày.

Được thúc đẩy bởi mong muốn loại bỏ các nghi phạm có thể, tôi đã thực hiện một vài thay đổi theo thời gian nhưng không có kết quả:

  • Ban đầu tôi đã sử dụng KVM để ảo hóa, bây giờ tôi sử dụng VirtualBox OSE
  • Tôi đã chạy NFS trong kernel nhưng giờ sử dụng Samba
  • Tôi đã sử dụng Compiz nhưng đã tắt nó đi
  • Tôi đã chuyển từ Karmic 64 bit sang 32 bit (vì những lý do khác)
  • Tôi đã thử Ubuntu, Kubfox và Xubfox. Cùng một vấn đề mỗi lần (mặc dù muộn, nó dường như thường xuyên hơn ở Gnome so với XFCE).
  • Tôi đã chuyển trình điều khiển Nvidia từ phiên bản 185 trở lại phiên bản 96 (Mô-đun hạt nhân NVIDIA Linux x86 96.43.13 Thu ngày 25 tháng 6 lúc 18 giờ 42 phút: 21 PDT 2009). Điều này dường như đã làm giảm tần suất lỗi.


Về những gì đang chạy tại thời điểm đó, điều này có thể thay đổi. Sau đây là phổ biến nhưng không nhất thiết phải chạy cho mọi sự cố:

  • Firefox 3.5
  • VirtualBox OSE với 1 hoặc 2 máy ảo Windows XP
  • Skype
  • Nhịp điệu hoặc Exaile


Phần cứng của tôi là 2 - 3 tuổi:

  • Lõi 2 Duo 6300
  • RAM 4GB
  • một số loại bo mạch chủ Intel cổ điển đó
  • card màn hình hai đầu của Asus với chipset Nvdia GeForce 7300 GS
  • 2 x ổ cứng SATA
  • màn hình kép (do đó tôi dựa vào trình điều khiển nvidia độc quyền)


Tôi đã được cập nhật với các bản cập nhật hệ thống của tôi.

Hy vọng rằng dữ liệu trên có thể nhắc nhở ai đó đề xuất một loại nhật ký hoặc cấu hình cụ thể đáng để nghiên cứu.


Cập nhật 1

vừa gặp sự cố trong đó loa bị hỏng. Đã làm một số googling và có vẻ như PulseAudio đã có một vài vấn đề trong quá khứ. Không chắc chắn nếu điều này có liên quan nhưng PulseAudio sẽ chạy mỗi khi tôi gặp sự cố.


Cập nhật 2

Theo liên kết của @ CarlF với Hướng dẫn Sysadmin của Debian đã đưa tôi đến khóa sysrq ma thuật mà tôi sẽ thử trong lần va chạm tiếp theo. Không phải điều này sẽ cho tôi nhiều manh mối về nguyên nhân nhưng ít nhất tôi sẽ hy vọng có thể tắt máy một cách duyên dáng.


Cập nhật 3

cảm biến lm báo cáo GPU của tôi chạy ở gần 70C / 158F - thật thú vị. Nếu tôi phải đoán tôi sẽ nói đây là một manh mối quan trọng.


Cập nhật 4

Đánh vào bên trong hệ thống bằng một chiếc airduster ngay sau lần cập nhật cuối cùng của tôi - kết quả cuối cùng: chỉ có một sự cố kể từ đó. Tôi sẽ gọi đây là một vấn đề nhiệt.


3
Định dạng tuyệt vời và thông tin cơ bản, tôi muốn tất cả các câu hỏi là như thế này. +1.
John T

Câu trả lời:


8

Có lời khuyên tốt từ Hướng dẫn của Quản trị viên Debian tại đây: http : //www.debian-adftime.org/articles/492


Thật thú vị khi xem những gì họ nói về nhật ký không thông tin là một dấu hiệu của sự cố phần cứng thực sự. Tôi có một khoảng cách sáu giờ giữa mục nhập cuối cùng / var / log / message và khởi động lại. Hừm.
LRE

chấp nhận với lý do liên kết nói rõ rằng không có gì trong nhật ký tương đương với vấn đề phần cứng - dẫn tôi đi đúng hướng.
LRE

4

Điều đầu tiên bạn có thể muốn kiểm tra nếu có vấn đề về phần cứng trong khi khởi động. Quá trình khởi động sẽ đăng nhập dữ liệu từ bộ đệm vòng kernel vào /var/log/boot.log. Sau khi hệ thống được khởi động, các thông báo mới sẽ được xóa vào bộ đệm này và bạn có thể xem trạng thái hiện tại của nó bằng dmesglệnh. Một nhật ký quan trọng bạn cũng sẽ muốn điều tra là /var/log/messages. Điều này sẽ chứa dấu thời gian, phương tiện và các ưu tiên của lỗi và ứng dụng đã tạo ra chúng. Có sẵn một dấu thời gian là một tài sản vô giá khi gỡ lỗi.

Các khóa ngẫu nhiên chắc chắn âm thanh liên quan đến phần cứng mặc dù. Hãy thử gắn lại tất cả phần cứng trên bo mạch chủ và cho nó chạy memtest86 + .


Tôi thấy một dòng trong / var / log / message có nội dung "imklog 4.2.0, log source = / var / run / rsyslog / kmsg bắt đầu". Đây có phải là một chỉ báo tốt của một hệ thống khởi động? Nếu vậy tôi có thể sử dụng nó để xác định một khu vực của nhật ký mà tôi có thể quét lại từ đó.
LRE

Vâng, tôi tin rằng đó là một trong những dòng đầu tiên, nếu không phải là dòng đầu tiên sau khi khởi động. Đây là mô-đun nhập nhật ký kernel.
John T

2

Bạn đã thử sắp xếp lại bộ nhớ, bộ xử lý và các chip khác chưa? Ngoài ra, bạn có thể muốn thử chạy một HĐH khác (FreeDOS) để loại bỏ một số khả năng.

Một mẹo nhỏ, bạn cũng có thể sử dụng hai màn hình khá độc đáo thông qua Gnome mà không cần sử dụng trình điều khiển nvidia.


tốt nhất tôi có thể nói rằng tôi chắc chắn cần trình điều khiển propion của nvidia để sử dụng màn hình kép. Bạn có thể chỉ cho tôi đi đúng hướng để không cần chúng?
LRE

Tôi có thể không chính xác. Tôi đã chọc ngoáy một chút và thấy các tài liệu tham khảo về xinerama (mà tôi nghĩ rằng trình điều khiển có phần mở rộng cho) nhưng không có gì liên quan đến các trình điều khiển không độc quyền. Thật không may, tôi không có máy có thẻ nVidia để chơi.
Nerdfest
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.