Làm cách nào để khắc phục sự cố khi tôi không có đầu mối bắt đầu từ đâu?


40

Tôi đang tìm kiếm gợi ý, mẹo và câu trả lời về cách bắt đầu khắc phục sự cố khi:

  1. Vấn đề không liên tục
  2. Vấn đề có thể nằm ở bất cứ đâu theo nghĩa đen - hệ điều hành; phần mềm nguồn miễn phí; phát triển phần mềm của riêng tôi; mua phần mềm; vụn trên bàn phím; sự kết hợp cụ thể của phần mềm tôi hiện đang chạy; Con quỷ của Maxwell; Những người đàn ông nhỏ bé màu xanh thực sự chạy máy đã đình công; Vân vân.
  3. Tôi chỉ có chuyên môn trong một vài lĩnh vực là ứng cử viên tiềm năng cho nguyên nhân của vấn đề.

Vấn đề cụ thể mà tôi đang gặp phải được trình bày chi tiết dưới đây làm ví dụ, nhưng tôi không tìm kiếm câu trả lời cho vấn đề hiện tại của mình, mà là bắt đầu từ đâu và làm thế nào để giải quyết những vấn đề như vậy.

Tôi hiện đang gặp vấn đề với máy mới của tôi. Trong một vài lần máy vừa đóng băng; không chấp nhận tổ hợp phím, mouseclicks hoặc bất cứ thứ gì ngoại trừ công tắc bật / tắt nguồn. Lúc nào tôi cũng chỉ đơn thuần là duyệt web; Tôi đã có một vài (<= 6 ứng dụng khác) đang chạy. Không có ứng dụng nào trong số này là chính; và đại diện cho sự pha trộn giữa các chương trình thương mại và chương trình nguồn mở, thường được di chuyển từ Unix của một số loại.

Máy của tôi là máy tính xách tay lõi tứ Windows 7 I7.

BIÊN TẬP:

Mặc dù tôi đã nói rằng mô tả vấn đề thực tế chỉ là một ví dụ, một số ý kiến ​​đang tập trung vào giải quyết vấn đề này. Thật không may, vì nó chỉ là một ví dụ, thông tin được cung cấp là chính xác nhưng không đầy đủ. Để tránh việc mọi người lãng phí thời gian vào việc cố gắng, từ xa, để hỗ trợ cho vấn đề thực tế, tôi đang cung cấp một số thông tin khác về thiết lập của tôi. Như tôi đã nói ban đầu, tôi không tìm kiếm câu trả lời cho vấn đề cụ thể này.

Máy của tôi là một máy tính xách tay mạnh mẽ; là máy chính của tôi; được sử dụng để phát triển và viết kỹ thuật, truyền thông - email, web, FTP, v.v. và để chỉnh sửa và lập chỉ mục ảnh. Một bộ chương trình kiểm tra phần cứng nghiêm ngặt và bao quát, bao gồm kiểm tra CPU, kiểm tra nhiều bộ nhớ và kiểm tra trên tất cả các thành phần khác được chạy trên đó ít nhất là hàng tháng. Cũng chạy ít nhất hàng tháng là quét virus đầy đủ; quét phần mềm gián điệp đầy đủ; dọn dẹp đĩa; và chống phân mảnh đĩa.

Đĩa chứa khoảng 3 * 10 ^ 6 tệp; sử dụng đĩa là 300 Gb để lại 150 Gb miễn phí. Bộ nhớ là 8 Gb. Mặc dù máy có thể hơi ấm khi tôi đang chạy bổ sung đầy đủ các công cụ phát triển chính, tôi chỉ gặp phải sự cố khi sử dụng máy rất nhẹ - duyệt web cộng với Textpad cộng với Graphviz cộng với cơ sở dữ liệu Firebird cộng với trình duyệt cơ sở dữ liệu nhẹ (Flame Robin ). Trong những trường hợp này, ngay cả quạt cũng không ấm một chút. Tôi đã không thực hiện thay đổi nào đối với phần mềm, hệ điều hành hoặc phần cứng trong khoảng thời gian tôi gặp phải sự cố. Đã có một số cập nhật tự động xảy ra - chủ yếu là Microsoft, Adobe và Lenovo nhưng không độc quyền.

Nền tảng này đặt vào bối cảnh (tôi hy vọng) lý do của tôi để đặt câu hỏi này theo cách tôi đã làm. Bây giờ tôi sẽ bắt đầu điều tra các bản ghi khác nhau được đề cập trong các câu trả lời như là bước đầu tiên trong việc cố gắng thu hẹp lĩnh vực điều tra. Và tôi sẽ thử một bài tập một trong những đặc điểm được gợi ý trong các câu trả lời tôi đã nhận được cho đến nay - sự kiên nhẫn - trong cuộc điều tra của tôi.


6
+1 Bởi vì câu hỏi này có thể hữu ích cho tôi để liên kết đến trong tương lai.
Tamara Wijsman

2
Đôi khi, trước khi đưa ra một cách tiếp cận giải quyết vấn đề đầy đủ, có phương pháp, bạn nên thử quét một loại trái cây treo thấp phổ biến: Chạy quét phần mềm gián điệp đầy đủ, tìm kiếm nhật ký cửa sổ để tắt máy bất ngờ và xem những gì (nếu có) xảy ra trước đó, kiểm tra tình hình không gian đĩa, chạy kiểm tra đĩa, cung cấp cho Autysun của Sysiternal quét nhanh phần mềm lạ / nghi ngờ. Có một bộ công cụ đơn giản để chạy, có thể nhanh chóng xác định một loạt các vấn đề phần cứng và phần mềm. Nếu họ không tìm thấy gì, bạn đã lãng phí ít thời gian và có thể bắt đầu một quy trình kỹ lưỡng hơn.
Alain

1
Ngoài ra, hãy theo dõi Blog của Mark để biết ví dụ về các vấn đề gây phiền nhiễu được khắc phục với Sysiternals.
Tamara Wijsman

1
Chúc may mắn trong việc khắc phục sự cố, tôi sẽ đề nghị tạo một câu hỏi mới nếu bạn muốn có thêm thông tin phản hồi để giữ mọi thứ ngăn
nắp

Câu trả lời:


42

Nhận một ý tưởng tốt hơn.

Bạn sẽ không chiến thắng trong một trận chiến mà không có đủ thông tin thực địa.

  1. Mô tả chi tiết vấn đề của bạn để bạn có một ý tưởng tốt về nó, ai biết nó chỉ xảy ra một lần.

  2. Theo dõi lại thời gian những gì đã xảy ra trước đó và cùng với vấn đề, cả bạn và máy tính của bạn.

  3. Hãy nghĩ về những nguyên nhân có thể bởi vì đôi khi nó có thể là một cái gì đó không rõ ràng.

  4. Nhận thêm thông tin bất cứ khi nào bạn không biết chuyện gì đang xảy ra, điều này có thể bao gồm từ Sự kiện , đến Công cụ SysIternals , Phân tích hiệu suất , đến Gỡ lỗi , cho bất kỳ công cụ nào khác trong chuyên môn của bạn .

  5. Kiểm tra các giả định của bạn để chắc chắn rằng suy nghĩ của bạn không lọc được nguyên nhân.

Phân chia và chinh phục.

Bởi vì đó là cách quân đội đánh bại đối thủ của họ ngay cả khi đông hơn.

Loại bỏ các nguyên nhân có thể, hoặc bạn sẽ gặp vấn đề theo dõi vấn đề. Bằng cách này, bạn sẽ ngày càng tiến gần hơn đến nguyên nhân gốc rễ của vấn đề, nó cho phép bạn giải quyết vấn đề dễ dàng hơn rất nhiều.

Ví dụ: với phần cứng , hãy ngắt kết nối và xóa mọi thứ bạn không cần để khắc phục sự cố. Bằng cách này, bạn có thể ngắt kết nối thành phần gây ra sự cố. Và sau đó lại là vấn đề chèn một nửa các thành phần vào, kiểm tra xem nó có lặp lại và phân tách lặp lại cho đến khi bạn có thành phần xấu ...

Thử nghiệm một cái gì đó trên một máy tính khác, nếu có, cũng là một lợi ích tốt để giải quyết vấn đề.

Ví dụ, với phần mềm , khởi động lại vào chế độ an toàn, vô hiệu hóa các mục khởi động cũng có ích. Điều này cũng áp dụng để bật / tắt cài đặt, thử cấu hình mặc định, v.v.

Hãy thử nghiệm nó.

Tôi hiện đang gặp vấn đề với máy mới của tôi. Trong một vài lần máy vừa đóng băng; không chấp nhận tổ hợp phím, mouseclicks hoặc bất cứ thứ gì ngoại trừ công tắc bật / tắt nguồn. Lúc nào tôi cũng chỉ đơn thuần là duyệt web; Tôi đã có một vài (<= 6 ứng dụng khác) đang chạy. Không có ứng dụng nào trong số này là chính; và đại diện cho sự pha trộn giữa các chương trình thương mại và chương trình nguồn mở, thường được di chuyển từ Unix của một số loại.

  1. Đó là một mô tả đúng đắn của chính nó, nó cũng không chỉ xảy ra một lần .

  2. Bạn biết những gì đã xảy ra cùng với vấn đề,
    nhưng bạn chưa nghĩ đến những điều bạn hoặc máy tính của bạn đã làm trước khi xảy ra sự cố .

    Tôi không thể nói điều này, nhưng bạn, nhật ký sự kiện của bạn và các tệp / thư mục được sửa đổi gần đây có thể cho biết.

  3. Nguyên nhân có thể rất có thể liên quan đến CPU , bởi vì đó là thành phần xử lý mọi thứ.

    Cụ thể hơn đây có thể là một quá trình, trình điều khiển hoặc lỗi phần cứng (có lẽ là vấn đề nhiệt độ?).

  4. Tôi biết đó là CPU, nhưng không biết gì. Các sự kiện không hiển thị điều này, Process Explorer sẽ treo trên DPC .

    Vì vậy, bước tiếp theo, tôi để phân tích dấu vết chạy mà tôi đóng sau khi treo đã xảy ra.

    Tôi nhìn vào dấu vết, và tôi thấy rằng trình điều khiển X đang gây ra sự cố !

  5. Không có giả định thực sự được thực hiện. Giả định CPU được xử lý theo phương pháp Phân chia & chinh phục của chúng tôi ...

Vì vậy, đây là nơi tôi bắt đầu phân chia để chinh phục vấn đề, tôi dừng lại một khi đã giải quyết:

  1. Vấn đề với phiên bản hiện tại của trình điều khiển?
    Cập nhật trình điều khiển lên phiên bản mới nhất.

  2. Vấn đề với các phiên bản mới nhất của trình điều khiển?
    Nhận một dấu vết mới. Cập nhật trình điều khiển lên phiên bản cũ khác với phiên bản ban đầu.

  3. Vấn đề với thiết bị? Vấn đề cấu hình trong registry?
    Nhận một dấu vết mới. Cài đặt lại và / hoặc vô hiệu hóa thiết bị nếu có thể.

  4. Vấn đề là ngẫu nhiên, nó là bộ xử lý nóng lên?
    Kiểm tra nhiệt độ bộ xử lý, thay quạt nếu cần.

  5. Vấn đề không phải là bộ xử lý, có ảnh hưởng phần cứng và phần mềm khác không?
    Xóa phần cứng và vô hiệu hóa phần mềm khỏi chạy, để giảm bớt ảnh hưởng của bên thứ ba.

  6. Vấn đề không phải là ở một phần có thể tháo rời, nó nên được thay thế.
    Trong trường hợp xấu nhất, nếu tất cả các lỗi khác, bạn cần phải đi thay thế.

Nhận được dấu vết mới và loại bỏ phần cứng cung cấp cho chúng tôi nhiều thông tin hơn, vì vậy chúng tôi biết nơi để tìm tiếp theo.


4
+1 để phân chia và chinh phục. Được chấp nhận cho đặc tả mô tả, theo dõi lại và các cơ chế để phân chia và chinh phục vấn đề.
Chris Walton

5
+1 câu trả lời xuất sắc. Điều duy nhất cần thêm là đây: Kiểm tra các giả định của bạn
Bevan

Làm thế nào về "thay đổi một điều tại một thời điểm"?
Florenz Kley

2
@Florenz: Chà, bằng cách chia bạn lấy từng cái một (cho một số nhỏ hoặc khi bạn không thể dựa vào nhiều nguyên nhân) hoặc bạn chia chúng ra (cho một số lớn hơn, khi bạn có thể kiểm tra nhiều thứ tại một lần. Chia đôi một nửa, nếu có thể, nhanh hơn thực hiện từng bước một. Ví dụ, để khắc phục sự cố 100 điều bạn chỉ cần kiểm tra 8 lần (100-> 50-> 25-> 13-> 7-> 4-> 2-> 1), thay vì 100 lần ...
Tamara Wijsman

2
phân chia hợp lý! Điều tôi muốn nói là "đừng sửa chữa công cụ nhanh hơn bạn có thể quy một sự thay đổi thành một delta được quan sát". Sử dụng sách phòng thí nghiệm với các trang tôi không thể xé ra là phương pháp của tôi để đảm bảo tôi có thể làm được.
Florenz Kley

6

Nhật ký tốt và trực giác - thực sự.

  • Từ ngày 1, hãy theo dõi mọi thứ bạn làm với hệ thống: cập nhật ứng dụng và hệ điều hành, cài đặt mới, phần cứng hoặc kết nối mới hoặc bị xóa, giông bão "không gây ra sự cố".
  • Khi bạn lần đầu tiên nhận thấy vấn đề:
    • Bạn đã làm gì?
    • Điều gì khác thường xảy ra gần đây?
    • Những gì bạn đã làm khác nhau gần đây?
    • Từ đó trở đi, hãy chú ý đến những gì bạn đang làm trong lần tiếp theo xảy ra, bạn sẽ xử lý tốt hơn những gì vừa diễn ra trước đó.
    • Chụp nhanh nhật ký hệ thống.
  • Xem nếu bạn có thể tái tạo nó. Cho đến khi bạn có thể tái tạo nó, bạn không thể tìm thấy nó.
  • Bắt đầu phân vùng hệ thống: chế độ an toàn so với chạy trực tiếp, tài khoản mới so với tài khoản thông thường, bàn phím và chuột khác với tài khoản thông thường của bạn (đặc biệt là bluetooth so với có dây), có xảy ra trong vài phút sau khi bắt đầu hoặc thức dậy so với chỉ sau một giờ chạy nữa (nghĩ nhiệt).

2
+1 cho hoạt động đăng nhập; và cho trực giác. Không phải câu trả lời được chấp nhận chỉ vì đăng nhập chỉ tốt nếu được thực hiện từ ngày 1. Tôi đã giữ nhật ký nhưng không đủ chi tiết; và không bao gồm các bản cập nhật hệ thống từ Microsoft và các bản cập nhật tự động khác.
Chris Walton

1
@ChrisWalton: Có nhật ký chi tiết cho Windows Update, chèn / xóa thiết bị, cài đặt trình điều khiển, v.v. Xem C:\Windows\*.log, C:\Windows\Logs, C:\Windows\inf\*.logvà cũng có thể Performance Monitor > Data Collector Sets > (Startup) Event Trace Sessions. Ngoài ra, @JRobert, +1 để giải thích cách lấy ý tưởng chi tiết hơn ...
Tamara Wijsman

4

Tôi thường bắt đầu với nhật ký sự kiện và bất kỳ nhật ký nào mà mmay chương trình tự tạo. Các chương trình đôi khi sẽ tạo ra một bản ghi trong thư mục chương trình.

Khi bạn có thể xác định thời gian, tìm kiếm nhật ký cho các sự kiện. Nhật ký cửa sổ tự nhiên có thể xuất hiện với các lỗi Dừng sẽ dễ dàng xác định.

Kiểm tra tất cả các trình điều khiển và chắc chắn rằng họ là hiện tại.

Kiên nhẫn sẽ được yêu cầu với liều lượng lớn.


2

Ngoài tất cả các lời khuyên tốt đã được đưa ra, nếu các tệp nhật ký không mang lại cho bạn nhiều thứ, một bài kiểm tra bộ nhớ phù hợp của máy thường rất đáng giá - bộ nhớ bị lỗi có thể gây ra tất cả các loại đóng băng và gián đoạn kỳ lạ. Kiểm tra bộ nhớ tích hợp gần giống với số lượng bộ nhớ, nó cực kỳ hiếm khi kiểm tra bị lỗi bộ nhớ.

Google cho Windows Memory Chẩn đoán và ghi nó vào đĩa CD. Nó cũ nhưng là một trong những bài kiểm tra trí nhớ tốt hơn và hoàn toàn miễn phí.


cảm ơn câu trả lời của bạn và các công cụ được đề xuất. Tôi sợ bạn bỏ lỡ điểm của câu hỏi của tôi - bạn đề nghị kiểm tra bộ nhớ; ai đó khác đề nghị tải xuống phần mềm tự động Adobe. Câu hỏi của tôi là; trong những trường hợp này, làm thế nào để bạn quyết định làm gì khi có một loạt các khả năng lớn.
Chris Walton

1
@Chris: Như tôi đã nói; khi xử lý sự cố không liên tục và không thể giải thích được (Trong tình huống phát triển không có sw), nếu không có nhật ký để bắt đầu và không có dấu hiệu nào khác để đề xuất bắt đầu từ đâu, tôi sẽ chạy thử nghiệm bộ nhớ. Logic là, nó chạy tương đối nhanh so với cố gắng tái tạo một vấn đề không liên tục. Sau khi loại trừ thì bạn bắt đầu thu hẹp và lấy ý tưởng khi TomWij đưa ra.
Matt

đủ công bằng.
Chris Walton
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.