Chúng tôi có một trung tâm dữ liệu nhỏ với khoảng một trăm máy chủ trỏ đến 3 máy chủ dns nội bộ (liên kết 9). Vấn đề của chúng tôi xảy ra khi một trong các máy chủ dns nội bộ không khả dụng. Tại thời điểm đó, tất cả các máy khách trỏ đến máy chủ đó bắt đầu hoạt động rất chậm.
Vấn đề dường như là trình phân giải linux stock không thực sự có khái niệm "thất bại" đối với một máy chủ dns khác. Bạn có thể điều chỉnh thời gian chờ và số lần thử lại mà nó sử dụng, (và đặt xoay để nó hoạt động thông qua danh sách), nhưng bất kể cài đặt nào người ta sử dụng dịch vụ của chúng tôi sẽ hoạt động chậm hơn nhiều nếu máy chủ dns chính không khả dụng. Tại thời điểm này, đây là một trong những nguồn gây gián đoạn dịch vụ lớn nhất đối với chúng tôi.
Câu trả lời lý tưởng của tôi sẽ là một cái gì đó như "RTFM: chỉnh /etc/resolv.conf như thế này ...", nhưng nếu đó là một lựa chọn thì tôi chưa thấy nó.
Tôi đã tự hỏi làm thế nào những người khác xử lý vấn đề này?
Tôi có thể thấy 3 loại giải pháp có thể:
Sử dụng linux-ha / Pacemaker và failover ips (vì vậy các VIP IP của dns luôn "có sẵn". Than ôi, chúng tôi không có cơ sở hạ tầng đấu kiếm tốt, và nếu không đấu kiếm thì máy tạo nhịp tim không hoạt động tốt (theo kinh nghiệm của tôi Máy tạo nhịp làm giảm tính khả dụng mà không cần đấu kiếm).
Chạy một máy chủ dns cục bộ trên mỗi nút và có điểm decv.conf đến localhost. Điều này sẽ làm việc, nhưng nó sẽ cung cấp cho chúng tôi nhiều dịch vụ hơn để giám sát và quản lý.
Chạy một bộ đệm cục bộ trên mỗi nút. Mọi người dường như coi nscd là "hỏng", nhưng dnrd dường như có bộ tính năng phù hợp: nó đánh dấu các máy chủ dns là lên hoặc xuống và sẽ không sử dụng máy chủ 'xuống' dns.
Bất kỳ truyền nào dường như chỉ hoạt động ở cấp định tuyến ip và phụ thuộc vào cập nhật tuyến cho lỗi máy chủ. Đa truyền có vẻ như đó là một câu trả lời hoàn hảo, nhưng liên kết không hỗ trợ truyền phát hoặc đa truyền, và các tài liệu tôi có thể tìm thấy dường như cho rằng dns đa hướng nhằm mục đích khám phá dịch vụ và cấu hình tự động hơn là giải quyết dns thông thường .
Tôi có thiếu một giải pháp rõ ràng không?