(ban đầu được đăng trên serverfault )
Vì vậy, thay vì chỉ đoán nguyên nhân là gì (mặc dù tiền của tôi dành cho các trình điều khiển nvidia), tôi bắt đầu tìm kiếm một số sự thật ở đâu?
Tôi đã trải qua / var / log nhiều lần nhưng có RẤT NHIỀU thứ trong đó và tôi không thể (chưa) phát hiện ra các bit quan trọng.
Bối cảnh: Phiên bản ngắn
Tôi đã chuyển từ WinXP sang Ubuntu Karmic ngay sau khi nó có sẵn.
Kể từ đó, tôi đã có một loạt các sự cố dường như ngẫu nhiên biểu hiện như sau:
- khởi động lại tự phát
- việc khóa hoàn toàn với bàn phím và chuột USB của tôi trở nên không phản hồi (ngay khi đèn LED tắt hết). Ngoài ra tôi thường sẽ không thể ssh vào hộp khi điều này xảy ra.
Tôi đã thực hiện rất nhiều tìm kiếm và Nvidia dường như là nghi phạm chính nhưng tôi không biết bắt đầu tìm kiếm nguyên nhân thực sự ở đâu.
Một người dùng serverfault đề nghị kiểm tra RAM bằng MemtextX86 +. Không tìm thấy lỗi. Theo dõi nhiệt độ thẻ video cũng đã được đề xuất, mà tôi đang tìm kiếm ngay bây giờ.
Khác hơn, đề nghị ai?
Bối cảnh: Phiên bản dài
Đôi khi, tôi có thể đi cả tuần mà không gặp sự cố sau đó có 5 trong 2 ngày.
Được thúc đẩy bởi mong muốn loại bỏ các nghi phạm có thể, tôi đã thực hiện một vài thay đổi theo thời gian nhưng không có kết quả:
- Ban đầu tôi đã sử dụng KVM để ảo hóa, bây giờ tôi sử dụng VirtualBox OSE
- Tôi đã chạy NFS trong kernel nhưng giờ sử dụng Samba
- Tôi đã sử dụng Compiz nhưng đã tắt nó đi
- Tôi đã chuyển từ Karmic 64 bit sang 32 bit (vì những lý do khác)
- Tôi đã thử Ubuntu, Kubfox và Xubfox. Cùng một vấn đề mỗi lần (mặc dù muộn, nó dường như thường xuyên hơn ở Gnome so với XFCE).
- Tôi đã chuyển trình điều khiển Nvidia từ phiên bản 185 trở lại phiên bản 96 (Mô-đun hạt nhân NVIDIA Linux x86 96.43.13 Thu ngày 25 tháng 6 lúc 18 giờ 42 phút: 21 PDT 2009). Điều này dường như đã làm giảm tần suất lỗi.
Về những gì đang chạy tại thời điểm đó, điều này có thể thay đổi. Sau đây là phổ biến nhưng không nhất thiết phải chạy cho mọi sự cố:
- Firefox 3.5
- VirtualBox OSE với 1 hoặc 2 máy ảo Windows XP
- Skype
- Nhịp điệu hoặc Exaile
Phần cứng của tôi là 2 - 3 tuổi:
- Lõi 2 Duo 6300
- RAM 4GB
- một số loại bo mạch chủ Intel cổ điển đó
- card màn hình hai đầu của Asus với chipset Nvdia GeForce 7300 GS
- 2 x ổ cứng SATA
- màn hình kép (do đó tôi dựa vào trình điều khiển nvidia độc quyền)
Tôi đã được cập nhật với các bản cập nhật hệ thống của tôi.
Hy vọng rằng dữ liệu trên có thể nhắc nhở ai đó đề xuất một loại nhật ký hoặc cấu hình cụ thể đáng để nghiên cứu.
Cập nhật 1
vừa gặp sự cố trong đó loa bị hỏng. Đã làm một số googling và có vẻ như PulseAudio đã có một vài vấn đề trong quá khứ. Không chắc chắn nếu điều này có liên quan nhưng PulseAudio sẽ chạy mỗi khi tôi gặp sự cố.
Cập nhật 2
Theo liên kết của @ CarlF với Hướng dẫn Sysadmin của Debian đã đưa tôi đến khóa sysrq ma thuật mà tôi sẽ thử trong lần va chạm tiếp theo. Không phải điều này sẽ cho tôi nhiều manh mối về nguyên nhân nhưng ít nhất tôi sẽ hy vọng có thể tắt máy một cách duyên dáng.
Cập nhật 3
cảm biến lm báo cáo GPU của tôi chạy ở gần 70C / 158F - thật thú vị. Nếu tôi phải đoán tôi sẽ nói đây là một manh mối quan trọng.
Cập nhật 4
Đánh vào bên trong hệ thống bằng một chiếc airduster ngay sau lần cập nhật cuối cùng của tôi - kết quả cuối cùng: chỉ có một sự cố kể từ đó. Tôi sẽ gọi đây là một vấn đề nhiệt.