Thực hiện phân tích nguyên nhân gốc rễ


9

Tôi muốn tìm hiểu thêm về cách thực hiện phân tích nguyên nhân gốc rễ. Nhiều lần hơn không, bộ phận của chúng tôi yêu cầu người dùng thử khởi động lại (hệ thống Windows XP của họ), điều này thực sự "khắc phục" một số vấn đề tốt. Khi tôi đang vội (và đôi khi được trả tiền hàng giờ đóng góp cho việc này) tôi có thể cố gắng tìm cách giải quyết để giải quyết vấn đề nhanh chóng thay vì thực sự phân tích nguyên nhân gốc rễ.

Hầu hết thời gian tôi đang tìm kiếm trong các tệp nhật ký hoặc trình xem sự kiện cho thông tin này. Đôi khi tôi sẽ sử dụng các công cụ Sysiternals hoặc thỉnh thoảng chạy một trình thám thính gói. Tôi có thể không sử dụng các chương trình Sysiternals nhiều như tôi nên làm. Một số hiểu biết cụ thể về cách bạn sử dụng pf những công cụ này, khi nào và tại sao cũng sẽ hữu ích.

Tôi biết đây là một câu hỏi mở rộng nhưng bạn có thể vui lòng giải thích ngắn gọn về phương pháp, công cụ, v.v. mà bạn sử dụng không? Có vẻ như rất nhiều quản trị viên trên SF sử dụng quy trình chuyên sâu hơn mà tôi muốn tìm hiểu thêm. Nếu điều này giúp thu hẹp câu hỏi bất kỳ, tôi sẽ quan tâm nhất đến các công cụ, mẹo, thủ thuật, v.v. có liên quan đến máy chủ và máy khách Windows trong môi trường AD.

Câu trả lời:


5

Tìm ra nguyên nhân gốc rễ của vấn đề phụ thuộc vào vấn đề - Bản năng ban đầu của bạn để xem các tệp nhật ký / công cụ sysiternals / trình thám thính gói nói chung là chính xác.
Tôi sẽ thêm chạy Công cụ loại bỏ phần mềm độc hại MS và chương trình AV tốt trên các hệ thống Windows (và đảm bảo rằng chúng không có thứ gì đó như CyberDefender hoặc phần mềm độc hại AV-trojan khác.

Mọi người tại Stack Exchange là những người đề xuất phương pháp "5 Whys" ( http://en.wikipedia.org/wiki/5_Whys , cũng là bản PDF ngắn đẹp này cho thấy nó hoạt động ). Nó là một công cụ khá có giá trị để thực hiện phân tích nguyên nhân gốc rễ.


Ngoài ra, tôi sẽ vẽ hai loại lớn và một số câu hỏi tôi thường hỏi / những điều tôi kiểm tra:

Hành vi bí ẩn không liên quan đến mạng,
ví dụ: "Word cứ đâm sầm vào tôi"

Những câu hỏi cơ bản cần đặt ra:

  1. Những gì đã thay đổi?
    (Đừng "không có gì" cho câu trả lời - đó là lời nói dối đầu tiên. Phần mềm mới, bản vá, v.v ... tất cả đều được tính.)
  2. Bạn đã làm gì khi gặp vấn đề?
    (Cố gắng trích xuất càng nhiều chi tiết càng tốt ở đây - trong ví dụ của tôi ở trên "Tôi nhấn phím nóng để chèn tên viết tắt và chương trình bị sập")
  3. Nó đã từng làm việc trước đây?
    (Nếu vậy, hãy bắt đầu xem xét các thứ từ (1) ở trên)
  4. Bạn có thể tái tạo vấn đề trên hệ thống của bạn?
    (Nếu đó là một dấu hiệu tốt: Một cuộc gọi hỗ trợ kỹ thuật cho nhà cung cấp có thể giúp ích. Nếu không, bạn sẽ cần xem hệ thống của người dùng cho phần còn lại của những câu hỏi này.)
  5. Điều gì khác biệt về môi trường của người dùng so với môi trường của bạn?
  6. Là nghi ngờ phần cứng của người dùng (Chạy kiểm tra bộ nhớ, tìm lỗi SMART từ ổ cứng, v.v.)
  7. Nếu bạn đã đi xa đến mức này (kiểm tra phần cứng, kiểm tra phần mềm, không có vi-rút, không có phần mềm độc hại), hãy truy cập người dùng trong một ngày. Quan sát thói quen làm việc của họ.
    Công ty của tôi đã từng có một khóa hệ thống bí ẩn liên quan đến việc nhấp chuột ở một tần số cụ thể (Chúng tôi vẫn không biết tại sao, nhưng chúng tôi phải xem một người dùng thực hiện và thực hành trong một ngày để có thể sao chép nó đáng tin cậy)

Các sự cố liên quan đến mạng

Rất nhiều điều này là tương tự, nhưng với một số hướng dẫn cụ thể hơn.

  1. Những gì đã thay đổi?
    (Yeah, bạn luôn bắt đầu từ đó)
  2. Cái gì bị hỏng?
  3. Khi nào nó bị hỏng?
    • Luôn luôn cùng thời gian trong ngày?
    • Trong một thời gian ngắn mỗi N ngày?
    • Ngẫu nhiên (nó có thực sự ngẫu nhiên không? Vẽ nó trên lịch ...)
  4. Có một cái gì đó kỳ lạ về các trang web từ xa?
    • Nhìn vào DNS - Nếu vòng tròn đó có thể xảy ra sự cố từ xa
    • Có phải chúng ta đang nói về đầu kia của VPN? Có chuyện gì với VPN (nhật ký!)?
  5. Có một cái gì đó kỳ lạ về các trang web địa phương?
    • Kiểm tra tường lửa cục bộ của bạn
    • Kiểm tra bất kỳ "phần mềm lọc"
  6. Kiểm tra với ISP của bạn để xem nếu có bất kỳ vấn đề được biết đến
  7. Kiểm tra các trang web như http://www.iNETpulse.net/ để biết các sự cố toàn mạng đã biết
  8. Kiểm tra máy của người dùng
    (cài đặt TCP, v.v. - Thường không phải là sự cố, nhưng đôi khi.)

1

Ngoài các phản hồi xuất sắc cho đến nay, tôi sẽ thêm:

  • Xác định ngày / thời gian khởi phát vấn đề. Điều này có vẻ rõ ràng, nhưng tôi đã thấy quá nhiều vấn đề trong đó điều này không được ghi nhận và sau đó về các giả định không chính xác đã được thực hiện. Điều này tương quan tốt với bước "những gì đã thay đổi".

  • Là vấn đề tái sản xuất hoặc không liên tục? Điều này rất quan trọng, vì các triệu chứng có thể tái tạo dễ dàng hơn và nhanh chóng giải quyết hơn so với các triệu chứng không liên tục. Nếu nó có thể tái tạo, đảm bảo các bước được ghi lại.

  • Xác định các triệu chứng. Lưu ý rằng chúng tôi phân biệt giữa "triệu chứng", đó là biểu hiện của nguyên nhân gốc và vấn đề thực tế / nguyên nhân gốc.

    1. Có hoạt động nào khác có thể tái tạo triệu chứng không?
    2. Có những triệu chứng nào khác?
    3. Nếu vấn đề không liên tục, chúng ta có thể xác định một hoạt động sẽ khiến nó xảy ra không?
    4. Trong trường hợp nào chúng ta có thể ngăn chặn các triệu chứng xảy ra? Sự cố chỉ xảy ra khi đăng nhập bằng tài khoản mạng, nhưng hoạt động tốt nếu đăng nhập cục bộ? Sự cố có xảy ra khi đăng nhập như một người dùng bình thường, nhưng vẫn hoạt động tốt nếu đăng nhập với các đặc quyền nâng cao? Có phải nó chỉ xảy ra trên một hệ thống, nhưng một hệ thống khác tương tự không biểu hiện triệu chứng?
  • Bản địa hóa vấn đề đến một thành phần chức năng có khả năng bị lỗi. Nếu có lỗi trong ứng dụng web, thì đó là mã ứng dụng, máy chủ web, hệ điều hành lưu trữ máy chủ web, mạng hoặc đầu cuối từ xa? Điều này là tốt nhất - đoán vào thời điểm này để các tài nguyên được tập trung vào nguyên nhân có khả năng, vì vậy hãy đảm bảo rằng những người khác biết rằng đây là lý thuyết / phỏng đoán.

  • Đặt câu hỏi cho các giả định của bạn và cố gắng thu thập dữ liệu thực nghiệm để hỗ trợ để hỗ trợ các giả định và kết luận. Cảm giác khá tệ khi nói với ai đó rằng không có vấn đề gì với x, và sau đó nó được phát hiện ra rằng thực sự có. Thông thường khi có một giải pháp không chính xác, có thể đã có dữ liệu để hỗ trợ một giải pháp chính xác.


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.