Người dùng không thể nhận e-mail của họ, Giám đốc điều hành không thể truy cập trang chủ của công ty và máy nhắn tin của bạn đã tắt mã "911". Bạn làm gì khi mọi thứ nổ tung?
Người dùng không thể nhận e-mail của họ, Giám đốc điều hành không thể truy cập trang chủ của công ty và máy nhắn tin của bạn đã tắt mã "911". Bạn làm gì khi mọi thứ nổ tung?
Câu trả lời:
Câu trả lời đầu tiên là giữ bình tĩnh! Tôi đã học được rằng cách khó mà hoảng loạn thường chỉ làm cho mọi thứ tồi tệ hơn. Một khi điều đó đạt được, điều tiếp theo là thực sự xác định vấn đề là gì. Khiếu nại từ người dùng và người quản lý sẽ đến với bạn từ mọi góc độ, cho bạn biết HỌ không thể làm gì, nhưng không phải vấn đề là gì.
Một khi bạn biết vấn đề, bạn có thể bắt đầu kế hoạch khắc phục và bắt đầu cho người dùng tức giận của bạn một khoảng thời gian!
Bình tĩnh
Đừng sợ hãi. Thở đi! (Từ cơ hoành, nó có ích.) Nếu bạn đã học thiền, điều đó cũng có thể giúp.
Khi phải đối mặt với căng thẳng cực độ, cơ thể bạn sẽ chuyển sang chế độ bay hoặc chiến đấu, bởi vì cơ thể bạn nghĩ rằng đó là tình huống sống hay chết. Lúc này cơ thể bạn sẽ thực sự bơm ít máu đến một số bộ phận trong não, làm giảm các chức năng như lý luận. Điều này có hiệu quả làm giảm chỉ số IQ của bạn như bản năng, thay vì sự hợp lý, bắt đầu chi phối các chức năng não của bạn. Nếu bạn đã từng tham gia hoặc chứng kiến một cuộc tranh cãi gay gắt, bạn có thể nhận ra những triệu chứng này khi cảm xúc của mọi người bùng lên và sự hợp lý sẽ có một kỳ nghỉ. Sau này, khi mọi người có cơ hội hạ nhiệt, họ sẽ có nhiều khả năng chấp nhận đã phạm sai lầm hoặc đã sai, và có nhiều khả năng nhìn thấy phía bên kia, nhưng trong thời điểm nóng, ít như vậy.
Duy trì sự điềm tĩnh của bạn và giữ cho trí thông minh của bạn về bạn sẽ giữ cho bộ não của bạn hoạt động hết công suất và đảm bảo bạn đưa ra quyết định hợp lý dựa trên bằng chứng và lý do thay vì cảm xúc và sợ hãi.
Bộ ba
Áp dụng hiệu quả các nguồn lực hạn chế để đạt được lợi ích lớn nhất với chi phí thấp nhất là vô cùng quan trọng ở đây. Đưa ra quyết định càng sớm càng tốt mà mọi thứ phải được sửa NGAY BÂY GIỜ, có thể đợi một chút (giờ, ngày) và có thể chờ đợi vô thời hạn. Ngoài ra, hãy học cách nhận ra khi một thứ gì đó không thể sửa chữa và không đáng để lưu (ví dụ: một nửa bộ định tuyến bị tan chảy, ngay cả khi đó là thứ duy nhất của bạn, bạn không thể lưu nó, mua một cái mới và lấy nó trên trang web sau khi vội vàng hoặc tìm thứ gì đó có thể điền vào chỗ trống tạm thời).
Giữ lại nhận thức tình huống
Đừng để sự chú ý của bạn bị mắc kẹt bởi một số vấn đề thú vị hoặc bởi điều gì đó bạn chưa hiểu rõ. Hãy tập trung vào bức tranh lớn và làm cho những điều quan trọng nhất hoạt động.
Sử dụng phương pháp khoa học
Hình thành một giả thuyết. Xác định cách bạn sẽ kiểm tra giả thuyết này. Thu thập dữ liệu để kiểm tra giả thuyết. Tìm kiếm dữ liệu không xác nhận là tốt. Tinh chỉnh giả thuyết của bạn và lặp lại chu kỳ nhiều lần nếu cần thiết cho đến khi bạn có đủ tự tin vào giả thuyết của mình để hành động.
Hãy thực dụng
Bây giờ không phải là thời gian cho giáo điều. Bạn có thể dùng một vài phím tắt ở đây và ở đó khi phục hồi sau thảm họa. Điều này về cơ bản là tích lũy nợ kỹ thuật. Tại nhiều công ty, thất bại thảm hại có nghĩa là mất doanh thu thảm khốc. Tốt hơn là để mọi thứ hoạt động, ngay cả khi đang run rẩy, hơn là dilly-dally và mạo hiểm sinh kế của công ty bạn. Như mọi khi, sự phán xét là vô cùng quan trọng ở đây. Đôi khi nó có ý nghĩa để chống đỡ một chiếc quạt hộp chỉ vào giá đỡ máy chủ, đôi khi không.
Chăm sóc chính mình
Bao lâu bạn đã làm việc trong trường hợp khẩn cấp này? Lần cuối bạn uống nước là khi nào? Lần cuối bạn ăn là khi nào? Bạn thức dậy bao lâu rồi Đừng đốt cháy bản thân chỉ vì có trường hợp khẩn cấp, hãy dành thời gian để giữ nước, cho ăn và nghỉ ngơi (trong trường hợp đó là một việc lâu dài, nhiều ngày).
Tuyển dụng Trợ giúp
Gần như chắc chắn có nhiều người tài năng trong công ty của bạn vừa có động lực vừa có khả năng cho vay giúp đỡ. Mặc dù vậy, hãy cảnh giác khi có quá nhiều người chạy xung quanh và gây rắc rối cho nhau. Ngoài ra, hãy cảnh giác với những người gây phiền nhiễu bằng cách đưa họ qua một "vụ nổ". Tìm những người muốn giúp đỡ, giúp họ thực hiện các nhiệm vụ được nhắm mục tiêu và đảm bảo mọi người đang liên lạc với nhau.
Giao tiếp
Truyền thông là rất quan trọng. Không có gì đáng sợ như những điều chưa biết. Khi mọi người không biết gì khác ngoài thứ gì đó bị hỏng, một tuyên bố trống rỗng rằng nó sẽ được sao lưu sau X giờ chỉ yên tâm nhẹ (thậm chí ít yên tâm hơn sau khi X giờ trôi qua và mọi thứ vẫn bị phá vỡ). Những áp lực khi chơi có thể khiến bạn phải đưa ra ước tính thời gian của WAG quá lạc quan, nhưng đây là khóa học sai. Đừng chỉ nói rằng bạn đang làm việc với nó, đừng chỉ nói rằng mọi thứ sẽ được sửa chữa theo thời gian X. Hãy cởi mở, thể hiện quá trình của bạn, chi tiết tiến trình của bạn và những thất bại của bạn. Cung cấp cái nhìn sâu sắc về vấn đề, quy trình của bạn trong việc theo dõi vấn đề và kế hoạch sửa chữa mọi thứ (mặc dù không nhấn chìm mọi người trong những chi tiết vụn vặt). Cho thấy rằng vấn đề không phải là khó hiểu, cho thấy rằng mọi thứ cuối cùng sẽ được thực hiện, cho thấy rằng có những người có thẩm quyền về vấn đề này,
Đừng hoảng sợ.
Bước 0. Kiểm tra xem đó không phải là hệ thống giám sát của bạn có lỗi
Đặt ngay một chuyến bay đến một quốc gia không dẫn độ
Kiểm tra những điều cơ bản trước, nó có vẻ ngớ ngẩn, nhưng những thứ như
Tôi biết rằng rất nhiều thời gian có thể bị lãng phí khi tìm kiếm một giải pháp khi vấn đề ngược dòng
Tôi ping công cụ. Điều gì xảy ra sau đó thay đổi rất nhiều tùy thuộc vào kết quả của ping.
Xin lỗi, nhưng câu hỏi này đã được trả lời hoàn hảo trong phim hoạt hình sysadmin yêu thích :
RTFLF - Đọc tệp nhật ký của Frakkin
(Tôi không thể tin vào điều này, tất cả đều thuộc về Scott Hanselman )
Đừng cố gắng sửa chữa bất cứ điều gì.
Hãy chắc chắn rằng bạn biết chính xác vấn đề thực sự, tiềm ẩn là gì. Bây giờ bắt đầu sửa chữa mọi thứ. Nếu có nhiều thứ cần khắc phục, hãy xem xét cẩn thận những thứ có thể bị trì hoãn (hy vọng cho đến ngày làm việc tiếp theo, ít nhất là!) Và những thứ hoàn toàn phải được sửa chữa ngay bây giờ.
Nhưng quan trọng nhất: Một khi mọi thứ đang hoạt động, hãy hỏi tại sao "mọi thứ nổ tung"? Bạn sẽ làm gì để ngăn chặn điều này xảy ra lần nữa? Có bất kỳ bước mà sẽ làm cho giải pháp dễ dàng hơn nếu nó không xảy ra lần nữa?
Cho mọi người biết, rằng bạn đang ở trên đó và nếu có thể hãy cho họ ước tính khi nào mọi thứ sẽ trở lại bình thường.
Đối với xử lý sự cố thực tế rõ ràng phụ thuộc vào những gì sai. Tôi thường giữ một tập hợp các tập lệnh "kiểm tra trạng thái" cho các dịch vụ khác nhau.
Kiểm tra hệ thống cáp! Tôi đã mất hàng giờ để kiểm tra những thứ khác khi trao đổi cáp Eth0 đơn giản sẽ giải quyết được vấn đề ...
Bạn nên có kế hoạch dự phòng.
Các hệ thống thiết yếu nên được thiết kế với chuyển đổi dự phòng tự động hoặc kế hoạch khôi phục được ghi lại và thử nghiệm.
Hệ thống càng quan trọng, bạn càng cần phải có khả năng phục hồi và cần tự động hơn.
Nếu bạn không có, thì nó không quan trọng, phải không!
Hãy chắc chắn rằng bản sao lưu của sơ yếu lý lịch của bạn là an toàn :) Sau đó,
Tìm điểm tương đồng. Những gì chung cho tất cả các hệ thống bị ảnh hưởng.
Tìm những gì đã thay đổi. Bạn nên có một số quản lý thay đổi chính thức diễn ra trong tổ chức của bạn.
Anh chàng mới ... ông chủ đâu ...? Có ai trong số họ đi đường tắt không? (nó chỉ là một khởi động lại máy chủ nhanh chóng, những gì nó có thể làm tổn thương)
Tôi thích danh sách khắc phục sự cố này Ứng dụng xử lý sự cố đơn giản Bây giờ sửa mọi thứ =)
Thật khó khăn từ tuyên bố để cung cấp một bộ hành động cụ thể. Bước đầu tiên của bạn sẽ dựa trên:
Rõ ràng, bạn cần giữ bình tĩnh và cảnh giác về vấn đề trong tầm tay. Kinh nghiệm của bạn về khắc phục sự cố mạng sẽ dạy bạn rằng điều này rất có thể là một cái gì đó tầm thường, như:
Đã nói rằng, nó cũng có thể là một cái gì đó nghiêm trọng trong các loại:
Thành phần chính là bạn BIẾT bao nhiêu về vấn đề này. Điểm tham chiếu của bạn là gì? (từ góc độ nào là 'hệ thống xuống'?).