Thái độ tôi cố gắng và giữ:
- Sự tự tin tuyệt đối rằng nguyên nhân và kết quả hoạt động và không có gì là ma thuật. Không có gì xảy ra mà thực sự kỳ lạ, chỉ có những điều tôi không hiểu.
- Hoàn toàn tin tưởng rằng nếu tôi tiếp tục thúc đẩy nó, tôi sẽ giải quyết nó (điều này có thể liên quan đến việc đưa nó đến một người hiểu biết hơn, học hỏi, yêu cầu giúp đỡ, làm việc chăm chỉ, v.v.).
- Càu nhàu về cách thiết lập, chương trình hoặc kịch bản được thiết kế tồi hoặc thực sự ngu ngốc không giúp ích gì, vì vậy đừng làm điều đó. (Tôi thấy điều này khó khăn, càu nhàu là niềm vui).
Đây là những thái độ hữu ích cho tôi khi giữ - chúng ngăn tôi giơ tay lên không trung, tuyên bố điều gì đó "kỳ quái" và sau đó từ bỏ, hoặc không vui vì cảm thấy "không thể giải quyết".
Những cách tôi nghĩ về xử lý sự cố:
- Các hệ thống có rất nhiều bộ phận, nếu chúng được kết nối với nhau hoặc được cấu hình ngẫu nhiên thì chúng sẽ không hoạt động như mong muốn. Có một hoặc hai cấu hình rất cụ thể sẽ hoạt động - trong tất cả hàng triệu cách để đóng gạch và kim loại, chỉ một số ít là cầu và chỉ một hoặc hai là cầu đủ tốt. Nguyên nhân có thể là một ký tự trong tệp văn bản hoặc máy chủ bị lỗi, nhưng mọi phần phải đúng cho toàn bộ điều đúng. Tôi cần phải sẵn sàng kỹ lưỡng và tỉ mỉ nếu cần. Các hệ thống không thể làm "chương trình phải tiếp tục".
- Bạn bắt đầu với toàn bộ hệ thống như bản đồ, bạn tưởng tượng một đám mây xác suất nổi trên bản đồ thể hiện "vấn đề là ở đâu" và công việc của bạn là sử dụng kinh nghiệm và tìm các bài kiểm tra để đẩy xác suất ra khỏi một số khu vực và về phía những người khác và để ngưng tụ nó xuống các điểm có vị trí có vấn đề xác suất cao, sau đó tấn công chúng. Điều này trở lại điểm nguyên nhân và kết quả - vấn đề nằm ở hệ thống, nó không phải là phép thuật. Đó là một vấn đề tồn tại vì vậy nó phải tồn tại ở đâu đó.
- Bất cứ điều gì có thể được thiết lập bất cứ cách nào bất cứ ai muốn. Cách duy nhất chúng ta có thể định nghĩa một hành vi là "OK" và hành vi khác là "vấn đề" là bởi vì những gì ai đó nhận được không phải là điều họ muốn. Bạn phải hiểu những gì họ muốn, những gì họ đang nhận được rõ ràng và cụ thể.
Quy trình xử lý sự cố:
- Vấn đề là gì Hãy chắc chắn rằng bạn thấy nó đang xảy ra và có thể tự tái tạo nó để không có thông tin sai lệch. Vì vậy, thường có nhiều vấn đề xảy ra với một số người trong bộ phận trợ giúp của chúng tôi khi họ đến với tôi vẫn không ai có thể giải thích cho tôi vấn đề thực sự là gì.
- Đó là phép chia đệ quy một lần nữa - phân chia và chinh phục, tìm kiếm nhị phân - bạn đưa ra một bài kiểm tra sẽ chứng minh nếu vấn đề nằm ở phía bên này của thử nghiệm, hay bên đó, và thực hiện thử nghiệm để loại bỏ càng nhiều càng tốt. Lặp lại cho đến khi giải quyết.
- Đừng tìm hiểu nếu bạn có thể tránh nó - tốt hơn là khóa tài khoản cơ sở dữ liệu và chứng minh rằng sự cố vẫn xảy ra khi cơ sở dữ liệu không liên quan hơn là dành hàng giờ để tìm hiểu cách sử dụng cơ sở dữ liệu.
- Thật quá dễ dàng để thấy mình nghĩ rằng "Tôi không biết phải làm gì tiếp theo". Lưu ý khi điều đó xảy ra và quay trở lại để đưa ra các bài kiểm tra xác định vấn đề.
Internet không hoạt động? Kiểm tra vấn đề, tìm một trang web mà họ không thể truy cập. Kiểm tra nhanh liên quan đến kết nối internet của họ (làm việc), nó có tải cho tôi không (không). Kiểm tra nhanh chỉ ra nó là trang web. Khi thấy vấn đề xảy ra với tôi, tôi đã nhanh chóng đẩy xác suất ra khỏi PC, trình duyệt, DNS, tường lửa văn phòng tài khoản người dùng, v.v.
Vì vậy, các trang web không tải, bây giờ những gì? Điều đó chưa thể khắc phục được, vì vậy hãy tìm những nơi khắc phục vấn đề thành một vấn đề nhỏ hơn. Là máy chủ trên? Nó có ping không? DNS có hoạt động không? Vâng. Dịch vụ có trả lời trên cổng 80 không? Không. Dịch vụ có chạy không? Không. Nó có bắt đầu không? Không. Nó có lỗi trong logfiles / logfiles không? Vâng! Họ nói cái gì?
Đây là cách khắc phục sự cố hiệu quả và nhanh chóng vì nó không ngừng tập trung vào việc thu hẹp phạm vi của vấn đề. Nếu tôi chấp nhận báo cáo của họ rằng internet không hoạt động, tôi sẽ lầm tưởng đó là lỗi kết nối. Nếu tôi chấp nhận lần đầu tiên nhìn thấy rằng nó không tải cho họ, tôi sẽ lãng phí thời gian trên máy tính của họ vì nghĩ rằng đó là lỗi.
Thực hiện các phần của "những thứ không thể" lớn nhất có thể.
Hiểu hệ thống. Tôi càng có nhiều kiến thức tổng quát về một hệ thống, nó càng dễ dàng hơn. Khi tôi có sự hiểu biết yếu, các vấn đề đáng sợ hơn, khó khăn hơn, đi chậm hơn và có khả năng kết thúc với một cách giải quyết hơn là sửa chữa, hoặc với một sửa chữa chậm câm lớn (cài đặt lại) so với một sửa chữa phẫu thuật nhỏ, chính xác.