Tôi đang chạy một dẫn xuất Ubuntu 12.04 (amd64) và tôi đã gặp vấn đề thực sự kỳ lạ gần đây. Dường như hết màu xanh, X sẽ đóng băng hoàn toàn trong một thời gian (1-3 phút?) Và sau đó hệ thống sẽ khởi động lại. Hệ thống này được ép xung, nhưng rất ổn định như được xác minh trong Windows, điều này khiến tôi tin rằng tôi đang gặp phải sự hoảng loạn hạt nhân hoặc sự cố với một trong các mô-đun của mình. Ngay cả trong Linux, tôi có thể chạy LINPACK và sẽ không gặp sự cố mặc dù đã tải quá nhiều vào CPU. Sự cố dường như xảy ra vào những thời điểm ngẫu nhiên, ngay cả khi máy đang ngồi không.
Làm thế nào tôi có thể gỡ lỗi những gì làm hỏng hệ thống?
Theo linh cảm rằng đó có thể là trình điều khiển NVIDIA độc quyền, tôi đã chuyển hoàn toàn xuống phiên bản trình điều khiển ổn định, phiên bản 304 và tôi vẫn gặp sự cố.
Bất cứ ai có thể hướng dẫn tôi qua một quy trình sửa lỗi tốt sau khi gặp sự cố? Tôi rất vui khi được khởi động vào ổ đĩa ngón tay cái và đăng tất cả các tệp cấu hình sau sự cố của mình, tôi chỉ không chắc chúng sẽ là gì. Làm thế nào tôi có thể tìm ra những gì làm hỏng hệ thống của tôi?
Dưới đây là một loạt các bản ghi, thủ phạm thông thường.
.xsession-lỗi : http://pastebin.com/EEDtVkVm
/var/log/Xorg.0.log : http://pastebin.com/raftG5VAn
/var/log/kern.log : http://pastebin.com/Hsy7jcHZ
/ var / log / syslog : http://pastebin.com/9Fkp3FMz
Tôi thậm chí dường như không thể tìm thấy một kỷ lục về vụ tai nạn.
Kích hoạt sự cố không đơn giản như vậy, nó dường như xảy ra khi GPU đang cố gắng vẽ nhiều thứ cùng một lúc. Nếu tôi đưa video YouTube lên toàn màn hình và để video đó lặp lại một lúc hoặc cuộn qua hàng tấn GIF và thông báo Skype bật lên, đôi khi nó sẽ bị sập. Hoàn toàn gãi đầu trên cái này.
CPU được ép xung lên 4,8 GHz, nhưng nó hoàn toàn ổn định và đã sống sót sau các lần chạy LINPACK khổng lồ và 9 giờ của Prime95 ngày hôm qua mà không gặp sự cố.
Cập nhật
Tôi đã cài đặt kdump
, crash
và linux-crashdump
, cũng như các ký hiệu gỡ lỗi kernel cho phiên bản kernel 3.2.0-35 của tôi. Khi tôi chạy apport-unpack
trên tệp kernel bị lỗi và sau đó crash
trên VmCore
bãi chứa sự cố, đây là những gì tôi thấy:
KERNEL: /usr/lib/debug/boot/vmlinux-3.2.0-35-generic
DUMPFILE: Downloads/crash/VmCore
CPUS: 8
DATE: Thu Jan 10 16:05:55 2013
UPTIME: 00:26:04
LOAD AVERAGE: 2.20, 0.84, 0.49
TASKS: 614
NODENAME: mightymoose
RELEASE: 3.2.0-35-generic
VERSION: #55-Ubuntu SMP Wed Dec 5 17:42:16 UTC 2012
MACHINE: x86_64 (3499 Mhz)
MEMORY: 8 GB
PANIC: "[ 1561.519960] Kernel panic - not syncing: Fatal Machine check"
PID: 0
COMMAND: "swapper/5"
TASK: ffff880211251700 (1 of 8) [THREAD_INFO: ffff880211260000]
CPU: 5
STATE: TASK_RUNNING (PANIC)
Khi tôi chạy log
từ crash
tiện ích, tôi thấy điều này ở dưới cùng của nhật ký:
[ 1561.519943] [Hardware Error]: CPU 4: Machine Check Exception: 5 Bank 3: be00000000800400
[ 1561.519946] [Hardware Error]: RIP !INEXACT! 33:<00007fe99ae93e54>
[ 1561.519948] [Hardware Error]: TSC 539b174dead ADDR 3fe98d264ebd MISC 1
[ 1561.519950] [Hardware Error]: PROCESSOR 0:206a7 TIME 1357862746 SOCKET 0 APIC 1 microcode 28
[ 1561.519951] [Hardware Error]: Run the above through 'mcelog --ascii'
[ 1561.519953] [Hardware Error]: CPU 0: Machine Check Exception: 4 Bank 3: be00000000800400
[ 1561.519955] [Hardware Error]: TSC 539b174de9d ADDR 3fe98d264ebd MISC 1
[ 1561.519957] [Hardware Error]: PROCESSOR 0:206a7 TIME 1357862746 SOCKET 0 APIC 0 microcode 28
[ 1561.519958] [Hardware Error]: Run the above through 'mcelog --ascii'
[ 1561.519959] [Hardware Error]: Machine check: Processor context corrupt
[ 1561.519960] Kernel panic - not syncing: Fatal Machine check
[ 1561.519962] Pid: 0, comm: swapper/5 Tainted: P M C O 3.2.0-35-generic #55-Ubuntu
[ 1561.519963] Call Trace:
[ 1561.519964] <#MC> [<ffffffff81644340>] panic+0x91/0x1a4
[ 1561.519971] [<ffffffff8102abeb>] mce_panic.part.14+0x18b/0x1c0
[ 1561.519973] [<ffffffff8102ac80>] mce_panic+0x60/0xb0
[ 1561.519975] [<ffffffff8102aec4>] mce_reign+0x1f4/0x200
[ 1561.519977] [<ffffffff8102b175>] mce_end+0xf5/0x100
[ 1561.519979] [<ffffffff8102b92c>] do_machine_check+0x3fc/0x600
[ 1561.519982] [<ffffffff8136d48f>] ? intel_idle+0xbf/0x150
[ 1561.519984] [<ffffffff8165d78c>] machine_check+0x1c/0x30
[ 1561.519986] [<ffffffff8136d48f>] ? intel_idle+0xbf/0x150
[ 1561.519987] <<EOE>> [<ffffffff81509697>] ? menu_select+0xe7/0x2c0
[ 1561.519991] [<ffffffff815082d1>] cpuidle_idle_call+0xc1/0x280
[ 1561.519994] [<ffffffff8101322a>] cpu_idle+0xca/0x120
[ 1561.519996] [<ffffffff8163aa9a>] start_secondary+0xd9/0xdb
bt
xuất ra backtrace:
PID: 0 TASK: ffff880211251700 CPU: 5 COMMAND: "swapper/5"
#0 [ffff88021ed4aba0] machine_kexec at ffffffff8103947a
#1 [ffff88021ed4ac10] crash_kexec at ffffffff810b52c8
#2 [ffff88021ed4ace0] panic at ffffffff81644347
#3 [ffff88021ed4ad60] mce_panic.part.14 at ffffffff8102abeb
#4 [ffff88021ed4adb0] mce_panic at ffffffff8102ac80
#5 [ffff88021ed4ade0] mce_reign at ffffffff8102aec4
#6 [ffff88021ed4ae40] mce_end at ffffffff8102b175
#7 [ffff88021ed4ae70] do_machine_check at ffffffff8102b92c
#8 [ffff88021ed4af50] machine_check at ffffffff8165d78c
[exception RIP: intel_idle+191]
RIP: ffffffff8136d48f RSP: ffff880211261e38 RFLAGS: 00000046
RAX: 0000000000000020 RBX: 0000000000000008 RCX: 0000000000000001
RDX: 0000000000000000 RSI: ffff880211261fd8 RDI: ffffffff81c12f00
RBP: ffff880211261e98 R8: 00000000fffffffc R9: 0000000000000f9f
R10: 0000000000001e95 R11: 0000000000000000 R12: 0000000000000003
R13: ffff88021ed5ac70 R14: 0000000000000020 R15: 12d818fb42cfe42b
ORIG_RAX: ffffffffffffffff CS: 0010 SS: 0018
--- <MCE exception stack> ---
#9 [ffff880211261e38] intel_idle at ffffffff8136d48f
#10 [ffff880211261ea0] cpuidle_idle_call at ffffffff815082d1
#11 [ffff880211261f00] cpu_idle at ffffffff8101322a
Có ý kiến gì không?
tail -f /var/log/kern.log
chạy và cố gắng bắt nó theo cách đó.
/var/log/kern.log
, nhưng bây giờ nhìn vào syslog
.