Lỗi bộ xử lý trong điện toán phân tán không bị sập hoặc Byzantine


13

Có hai loại lỗi bộ xử lý chính trong các mô hình điện toán phân tán:

(1) Lỗi sự cố: bộ xử lý dừng và không bao giờ khởi động lại. (2) Thất bại của Byzantine: bộ xử lý hành xử bất lợi, độc hại.

Câu hỏi của tôi là:

Một số loại lỗi bộ xử lý khác đã được nghiên cứu, không làm giảm sự cố hoặc lỗi Byzantine?

Ngoài ra, một câu hỏi cụ thể hơn:

Có một mô hình đã được nghiên cứu ở đâu, với một số xác suất, một quá trình được thực hiện ở bước , và nếu không thì tắt? Vì vậy, mỗi quá trình là nháy mắt và tắt, như nó đã được.t

Tôi quan tâm nhất đến việc những thất bại này liên quan đến sự đồng thuận và các vấn đề thỏa thuận phân tán khác.

Cảm ơn bạn.


@Aaron: Tôi đã có một khóa học về "hệ thống phân tán" và một khóa học khác về "hệ thống chịu lỗi" vài năm trước, nhưng tôi không thực sự thích những chủ đề đó. Tuy nhiên, tôi nghĩ rằng mô hình lỗi từ khóa động có thể giúp bạn.
MS Dousti

1
Tôi đoán mô hình thất bại được sử dụng trong lĩnh vực tự ổn định không làm giảm sự cố sự cố hoặc thất bại Byzantine. Một cách để liên hệ với những thất bại của Byzantine: bạn có thể có hành vi Byzantine tạm thời , nhưng nếu và khi hành vi đó dừng lại, một hệ thống tự ổn định phải đạt đến trạng thái chính xác.
Jukka Suomela

1
Về câu hỏi cụ thể hơn của bạn: Nếu một bộ xử lý nếu "bật" với xác suất , thì nó nghe có vẻ rất giống với một mô hình không đồng bộ trong đó các bộ xử lý luôn bật nhưng các thông báo sẽ đưa ra các vòng 1 / p để mong đến đích. Có lẽ bạn có thể làm rõ điều này khác với mô hình mà bạn có trong tâm trí như thế nào? p1/p
Jukka Suomela

1
@Aaron: Tôi không thực sự biết loại mô hình này đã được nghiên cứu bao nhiêu. Nhưng tôi đoán nếu bạn có bất kỳ thuật toán đồng bộ xác định với thời gian chạy T , bạn có thể chỉ cần sử dụng bộ đồng bộ hóa α để mô phỏng A trong mô hình không đồng bộ và tôi đoán thời gian chạy dự kiến ​​sẽ giống như T / p . (Các α -synchroniser chỉ đơn giản là đảm bảo rằng hàng xóm của bạn không bao giờ nhiều hơn 1 lần bước về phía trước hoặc phía sau bạn trong mô phỏng của Một .)MộtTαMộtT/pαMột
Jukka Suomela

2
@Aaron: Tôi đã lấy lý thuyết về điện toán phân tán với Michel Raynal và ông đã mô tả một mô hình thứ ba, trong đó các thông điệp có thể được loại bỏ ngẫu nhiên. Trong mô hình đó, một thông điệp có thể thất bại trong việc gửi âm thầm, nhưng điều đó không nhất thiết có nghĩa là nút bị lỗi. Đó là về lỗi liên kết chứ không phải lỗi nút "mô hình kênh mất công bằng", bạn có thể đọc thêm về nó ở đây: Phát thanh đáng tin cậy thống nhất như một cuộc khảo sát giới thiệu về máy dò tìm thất bại - Michel Raynal ( ftp.irisa.fr/techreports/2000/ PI-1356.ps.gz )
M. Alaggan

Câu trả lời:


12

Sao chép từ các ý kiến ​​về câu hỏi theo yêu cầu.

Tôi đã lấy lý thuyết về điện toán phân tán với Michel Raynal và ông đã mô tả một mô hình thứ ba, trong đó các thông điệp có thể được loại bỏ ngẫu nhiên. Trong mô hình đó, một thông điệp có thể thất bại trong việc gửi âm thầm, nhưng điều đó không nhất thiết có nghĩa là nút bị lỗi. Đó là về lỗi liên kết chứ không phải lỗi nút "mô hình kênh bị mất công bằng", bạn có thể đọc thêm về nó ở đây: Phát thanh đồng nhất đáng tin cậy như một cuộc khảo sát giới thiệu về máy dò tìm thất bại - Michel Raynal (ftp.irisa.fr/techreports/2000/ PI-1356.ps.gz)


10

Do chi phí tài nguyên cao liên quan đến khả năng chịu lỗi của Byzantine, các mô hình lỗi với các giả định ngày càng mạnh hơn tất nhiên đã được phân tích, đặc biệt là sử dụng các yêu cầu tài nguyên để chịu các lỗi thuộc loại hạn chế. ( Azadmanesh và Kieckhafer, 2002 ) cung cấp một phân loại rất hay (xem Hình 1.)

3f+1f+12f+1f

Một cách khác để mô hình các giả định chế độ thất bại là di chuyển ra khỏi điểm quan sát trung tâm nút, trong đó mất thông báo được mô hình hóa là lỗi của người gửi, đối với mô hình lỗi liên kết, chỉ là chế độ xem kép, một khi sự không nhất quán mà chúng có thể gây ra hệ thống được xem xét. Mô hình này đã được điều tra bởi ( Schmid, Weiss và Rushby, 2002 ), phá vỡ kết quả không thể thực hiện được ( Gray, 1978 ) cho thấy một giải pháp xác định cho vấn đề Tấn công phối hợp trong các lỗi liên kết.


8

Tôi không biết nếu @M. Alaggan đã nói về loại lỗi này, nhưng chúng chắc chắn trông giống nhau: lỗi tạm thời.

Trong mô hình DVFS , nơi người ta có thể sửa đổi tần số và điện áp để giảm mức tiêu thụ năng lượng, Zhu và Aydin trong bài báo này (pdf) đã sử dụng mô hình lỗi cho DVFS. Họ xem xét các lỗi tạm thời, đó là lỗi gây ra bởi lỗi phần mềm chẳng hạn. Họ chỉ vô hiệu hóa việc thực thi tác vụ hiện tại và bộ xử lý chịu sự cố đó sẽ có thể khôi phục và thực thi tác vụ tiếp theo được giao cho nó (nếu có).

λ

λ(f)= =λpedfmmộtx-ffmmộtx-fmTôin,
fmTôinffmmộtxd0λpfmmộtxpTTôipfTôi
RTôi(fTôi)= =e-λ(fTôi)×ExecbạntTôion TTôime(TTôi,fTôi).

Xin lỗi để đăng bài này rất lâu sau bài viết gốc, nhưng tôi thấy câu hỏi này khi tôi đang làm việc về chủ đề này :). Khi không nghiên cứu DVFS, những lỗi này vẫn tồn tại, các công thức có thể vẫn còn hiệu lực (hoặc có thể thích nghi). Bạn có thể tìm thêm thông tin về những thất bại thoáng qua mà không cần DVFS tại đây .


4

Liên quan đến các mô hình thất bại đã được đề cập đã xem xét NeigerToueg , trong đó xem xét các loại khác nhau.

Có một mô hình đã được nghiên cứu ở đâu, với một số xác suất, một quá trình được thực hiện ở bước t, và nếu không thì tắt? Vì vậy, mỗi quá trình là nháy mắt và tắt, như nó đã được.

Điều này nghe giống như một mô hình phục hồi sự cố. Tôi không biết về bất kỳ mô hình nào trong đó các quy trình được bật / tắt theo xác suất. Cũng có các biến thể trong đó các quy trình là Byzantine trong một thời gian và sau đó phục hồi, trong đó theo thời gian, tất cả các quy trình có thể là Byzantine (mặc dù chủ yếu được xem xét để đồng bộ hóa đồng hồ).

Lưu ý rằng nếu tắt, bạn chỉ có nghĩa là một quá trình chỉ không đạt được tiến bộ (nó không mất trạng thái và không bị mất tin nhắn do người nhận bị "tắt") thì những gì bạn đang xem được gọi là không đồng bộ hệ thống. Trong ngữ cảnh bộ nhớ dùng chung, câu hỏi của bạn có thể liên quan chặt chẽ với bài báo Aspnes này.


1

Có thể có những loại thất bại khác. Ví dụ: một số bộ xử lý (ví dụ: theo giao thức quảng bá hoặc phát đa hướng) có thể bị quá tải và sẽ không thể xử lý tất cả các tin nhắn đến. Điều này dẫn đến việc làm cho bộ xử lý xuất hiện ngoại tuyến với một số bộ xử lý trong hệ thống phân tán.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.