Tôi đã dần dần tích hợp Prometheus vào quy trình giám sát của mình, để thu thập các số liệu chi tiết về việc chạy cơ sở hạ tầng.
Trong thời gian này, tôi nhận thấy rằng tôi thường gặp phải một vấn đề đặc biệt: đôi khi một nhà xuất khẩu mà Prometheus có nhiệm vụ kéo dữ liệu trở nên không phản hồi. Có thể do cấu hình sai mạng - nó không còn truy cập được nữa - hoặc chỉ do nhà xuất khẩu bị sập.
Dù lý do có thể là gì đi nữa, tôi thấy rằng một số dữ liệu tôi muốn thấy trong Prometheus bị thiếu và không có gì trong chuỗi trong một khoảng thời gian nhất định. Đôi khi, một nhà xuất khẩu thất bại (hết thời gian?) Dường như cũng khiến những người khác thất bại (thời gian chờ đầu tiên đã đẩy toàn bộ công việc lên trên thời gian chờ cấp cao nhất? Chỉ là suy đoán).
Tất cả những gì tôi thấy là một khoảng trống trong loạt bài, như thể hiện trong hình dung ở trên. Không có gì trong nhật ký khi điều này xảy ra. Prometheus tự đo cũng có vẻ khá cằn cỗi. Tôi vừa phải dùng đến cách tự mình cố gắng sao chép những gì Prometheus đang làm và xem nó bị vỡ ở đâu. Điều này thật khó chịu. Phải có cách tốt hơn! Mặc dù tôi không cần thông báo theo thời gian thực, nhưng ít nhất tôi muốn có thể thấy rằng một nhà xuất khẩu không cung cấp dữ liệu. Ngay cả một cờ "hey kiểm tra dữ liệu của bạn" sẽ là một sự khởi đầu.
Làm cách nào để tôi có được thông tin có ý nghĩa về Prometheus không lấy được dữ liệu từ các nhà xuất khẩu? Làm thế nào để tôi hiểu tại sao các khoảng trống tồn tại mà không phải thực hiện mô phỏng thủ công thu thập dữ liệu Prometheus? Các thực tiễn hợp lý trong vấn đề này, có lẽ ngay cả khi được mở rộng để giám sát các bộ sưu tập dữ liệu nói chung, ngoài Prometheus?