Chaos Monkey này là ai và tại sao anh ta đánh sập máy chủ của tôi?


28

Tôi đã có một máy chủ hoàn hảo, nó rất đẹp và chắc chắn và vì vậy tôi đặt tên cho nó là Petra. Nó hoàn hảo về mọi mặt, mọi thứ đều được cấu hình và điều chỉnh vừa phải, nó có hồ sơ dịch vụ hoàn hảo 100% và 753 ngày hoạt động. Tôi đã dành rất nhiều thời gian và nỗ lực để đảm bảo nó chạy tốt như vậy. Không có máy chủ nào khác trong công ty tốt như vậy. Nhưng đêm qua con quái vật độc ác này đã đánh sập máy chủ của tôi mà không có lý do.

Khỉ hỗn loạn

Tất nhiên tôi đã được thông báo vào lúc 2 giờ sáng và tôi phải mất đến sáng để chạy và chạy, mọi thứ được cấu hình và điều chỉnh, nhưng tôi sợ nó sẽ không còn tốt như trước. Có thể mất vài tuần trước khi nó trở lại vinh quang trước đây. Bây giờ thời gian hoạt động của tôi không còn nữa, tôi thậm chí không có ba 9 giây và ai biết điều này sẽ làm gì cho danh tiếng của tôi. Con khỉ hỗn loạn này là ai và tại sao anh ta lại làm thế với máy chủ của tôi và tại sao anh ta lại cố gắng hủy hoại tôi?


12
Cần phải có một huy hiệu cho câu hỏi hài hước nhất :)
Richard Slater

Máy chủ đơn? Cái gì vậy Tại sao bạn lại đặt cơ sở kinh doanh của mình vào một tác phẩm nghệ thuật độc đáo thay vì một mặt hàng dễ dàng thay đổi và thay thế khi nó chắc chắn thất bại hoặc ngừng cho thuê?
Không hoàn lại tiền Không trả lại

Chúng tôi có thực sự coi đây là một câu hỏi hay để chọn trước trang web không? Có phải chúng ta đang mong đợi các kỹ sư cài đặt, định cấu hình và chạy Chaos Monkey, sau đó quên nó là gì, nhưng phát hiện ra rằng nó đang chạy trên mạng của họ và hỏi trên Stack Exchange thay vì truy cập trang web chính thức? Có rất nhiều bước ở đó là không thể tin được.
Xiong Chiamiov

2
Rõ ràng, nó không phải là một câu hỏi thực sự. Đó là một trò đùa để thể hiện chân dung đỉnh cao của lĩnh vực cũ, người chỉ đơn giản là bị ngành công nghiệp vượt xa. Nhưng những lời chỉ trích của bạn cho rằng có một người hoặc thậm chí một nhóm duy nhất chăm sóc cơ sở hạ tầng. Khá thường xuyên trong các công ty lớn, cơ sở hạ tầng và các đội hiện có được giữ nguyên ngay cả khi chúng đang được thay thế. Một điều khá hợp lý là một nhóm mới bắt đầu với cơ sở hạ tầng và cài đặt Chaos Monkey mới và cái rắm cũ chỉ đơn giản là bị tấn công vào thời điểm sau khi thành công ban đầu được triển khai rộng rãi.
Jiri Klouda

Câu hỏi rõ ràng là nếu bạn có một máy chủ như vậy thì tại sao bạn lại thiết lập Chaos Monkey?
dùng253751

Câu trả lời:


32

TL; DR : Chaos Monkey được phát triển vào năm 2010 tại Netflixđược phát hành vào năm 2012 là một phần của Quân đội Simian , cực kỳ phổ biến trong số những người theo dõi tận tụy . Được xây dựng trên các nguyên tắc của kỹ thuật hỗn loạn , quân đội tăng khả năng phục hồi thất bại bằng cách tiêm thất bại liên tục vào hệ thống.

Khái niệm

Chaos Monkey được phát triển riêng cho AWS, nơi nó sẽ giết ngẫu nhiên các cá thể trong Nhóm tự động nhân rộng. Nó có nghĩa là chạy trong giờ làm việc khi các kỹ sư cảnh giác và có thể nhanh chóng phản ứng với những thất bại được phát hiện.

Quân đội Simian

Các thành viên của quân đội sẽ gieo rắc hỗn loạn thông qua các phương tiện khác:

  • Latency Monkey sẽ giới thiệu sự chậm trễ ngẫu nhiên cho các dịch vụ.

  • Chaos Gorilla (Kong) sẽ mô phỏng việc ngừng hoạt động của toàn bộ khu vực sẵn có.

Những con khỉ khác rất hữu ích và loại bỏ những thành viên yếu trong đàn:

  • Conformity Monkey tắt các trường hợp không tuân theo các thực tiễn tốt nhất.

  • Security Monkey tìm kiếm các lỗ hổng bảo mật đã biết trong cấu hình và dịch vụ.

  • Doctor Monkey tắt các trường hợp không lành mạnh không tuân theo các số liệu nhất định.

  • Khỉ Janitor tìm kiếm các tài nguyên không sử dụng để đòi lại.

Thất bại là không thể tránh khỏi

Thất bại trong Hệ thống là không thể tránh khỏi, một cái gì đó sẽ luôn luôn đi sai . Bạn có thể không thể chọn những gì, nhưng bạn có thể cố gắng chọn khi nào. Bằng cách giới thiệu các lỗi nhỏ trong suốt cả ngày, bạn đảm bảo rằng các kỹ sư của bạn có mặt. Bằng cách nhanh chóng tiêu diệt các dịch vụ không tuân thủ, bạn đảm bảo rằng các lỗi sẽ xảy ra thường xuyên trước khi triển khai. Bằng cách làm cho môi trường trở nên bất lợi hơn, bạn đảm bảo rằng đó sẽ là các nhà phát triển gặp vấn đề từ lâu trước khi bất kỳ dịch vụ nào được đưa vào sản xuất. Thất bại sẽ nhanh chóng xuất hiện trong giai đoạn tích hợp các dịch vụ mới với các dịch vụ cũ, nhưng điều đó không sao, bởi vì các dịch vụ sản xuất cũ đã được phục hồi.

Gia súc không Thú cưng

Mọi người sẽ nói với bạn gần đây: Đừng coi máy chủ của bạn là thú cưng . Có một sức mạnh về số lượng và bất kỳ điểm thất bại duy nhất sẽ làm giảm hệ thống. Cho dù bạn có thể điều chỉnh và tối ưu hóa máy chủ của mình tốt đến mức nào, cho dù bạn có thể nhận được phần cứng mạnh mẽ như thế nào, có thể xử lý được bao nhiêu, nó sẽ không bao giờ phù hợp với các trường hợp có thể mở rộng nhỏ. Chaos Monkey khuyến khích bạn suy nghĩ về việc loại bỏ tất cả các điểm thất bại, vì sớm hay muộn, Khỉ sẽ đến! Mọi người đều thất bại và ngay cả Amazon S3 cũng gặp sự cố mất điện khó lường .

Chống mong manh

Vậy lý thuyết là gì và tại sao nó hoạt động? Nassim Nicholas Taleb trong cuốn sách Antifragile của ông mô tả một khái niệm trong đó các hệ thống tự nhận thức sống, sẽ được hưởng lợi từ một mức độ ngẫu nhiên nhỏ và thực sự trở nên tốt hơn khi đối mặt với nghịch cảnh. Điều này tương tự như ủ.

Ông cũng mô tả một cách tiến hóa, trong đó sự mong manh của các bộ phận trong một hệ thống được chuyển thành chống đông của toàn bộ . Việc chuyển tiền xảy ra ở hai cấp độ:

  1. Bằng một biến thể ngẫu nhiên nhỏ - nhà phát triển thực hiện thay đổi - phù hợp nhất với môi trường sẽ tồn tại và lan truyền - vượt qua các thử nghiệm và được triển khai . Vòng đời phát triển tiêu chuẩn .

  2. Do sự thất bại của các bộ phận không có khả năng chịu được mức độ ngẫu nhiên lớn hơn trong môi trường, các bộ phận còn lại có thể chịu được nó tạo thành một hệ thống có khả năng đối phó với môi trường thay đổi tốt hơn trước đây. Đây thực chất là Chaos Monkey .

Mức độ ngẫu nhiên lớn hơn có thể được ngăn chặn bằng cách sử dụng phương pháp thứ hai.


"Thất bại là không thể tránh khỏi" - câu thần chú tuyệt vời!
Wogsland

Ủng hộ vì bạn đã đề cập đến Nassim Taleb. Anh chàng siêu thông minh, và ý tưởng của anh ta có thể được áp dụng cho bất cứ điều gì về cơ bản.
maplebird

8

Một số bổ sung cho câu trả lời của riêng bạn cho câu hỏi này ...

Khỉ bổ sung

Bài viết về " Làm thế nào hỗn loạn tăng hiệu suất " mô tả thêm một vài trong số những con khỉ này, tức là:

  • 10-18 Monkey : tìm cấu hình và chạy các vấn đề về thời gian trong các trường hợp phục vụ khách hàng ở nhiều khu vực.
  • Chaos Kong : mô phỏng sự cố ngừng hoạt động của một khu vực Amazon.

Lưu ý: Bài báo tương tự cũng đề cập đến "Chaos Gorilla: mô phỏng sự ngừng hoạt động của vùng sẵn có của Amazon", mặc dù hiện tại nó có thể được đổi tên thành "Chaos Kong: mô phỏng sự ngừng hoạt động của một khu vực Amazon" ... Nói về Hỗn loạn ! Tôi không thể tìm thấy bất kỳ xác nhận / tài liệu nào về điều đó cho đến nay, ít nhất là dường như không có vấn đề gì trong hàng đợi vấn đề . Một thay đổi không có giấy tờ có thể đã được đưa vào sản xuất trên github ... Gggggggrrrrrreat!

Thiết lập và sử dụng Monkeys của riêng bạn.

Đi qua github để liên lạc với Quân đội Simian (liên kết tương tự như liên kết đầu tiên trong câu trả lời của riêng bạn). Đây là một trích dẫn về những gì bạn sẽ tìm thấy ở đó:

Quân đội Simian bao gồm các dịch vụ (Khỉ) trong đám mây để tạo ra các loại thất bại khác nhau, phát hiện các điều kiện bất thường và kiểm tra khả năng của chúng tôi để sống sót. Mục tiêu là giữ cho đám mây của chúng ta an toàn, bảo mật và khả dụng cao. Thông tin chi tiết có thể được tìm thấy tại blog này .

Hiện tại những người mô phỏng bao gồm Chaos Monkey , Janitor MonkeyConformity Monkey .

Tham khảo Hướng dẫn bắt đầu nhanh để bắt đầu thiết lập và sử dụng Monkeys.

Bạn thậm chí có thể định cấu hình các monkyes, để chúng phù hợp với nhu cầu kinh doanh của bạn.

Nếu bạn đào đủ sâu trong các liên kết Github đó (tức là trong liên kết Hỗ trợ ), bạn cũng sẽ tìm thấy một liên kết để tham gia Nhóm Google SimianArmy .


Chaos Kong được đổi tên thành Chaos Gorilla, tôi nghĩ hoặc ngược lại.
Jiri Klouda

@JiriKlouda bạn dường như xác nhận những gì tôi đã bắt đầu tự hỏi về. Đó là lý do tại sao tôi đã thêm nhận xét của tôi trong câu trả lời của tôi bây giờ cũng.
Pierre.Vriens

2

Một máy chủ để thống trị tất cả, Một máy chủ để tìm thấy chúng,
Một máy chủ để mang tất cả chúng và trong thời gian ngừng hoạt động liên kết chúng

Bạn, Sauron, đã giả mạo Máy chủ Một này, trong Bóng tối của Núi Doom Trung tâm dữ liệu của bạn với mong muốn thống trị tất cả các ứng dụng.
Hy vọng rằng Hội đồng tín đồ đã đoàn kết nói với bạn:

Gandalf - Bạn sẽ PAAS

Sau một thời gian dài chiến đấu, Frodo the Chaos Monkey đã có thể làm tan chảy Máy chủ Một của bạn và mang lại sự tự do cho tất cả các ứng dụng, đưa bạn đến con đường của Máy chủ có thể tái tạo cùng một lúc.

Tín dụng:

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.