Không có số lượng thùng tốt nhất để ước tính thông tin lẫn nhau (MI) với biểu đồ. Cách tốt nhất là chọn nó thông qua xác nhận chéo nếu bạn có thể, hoặc dựa vào quy tắc ngón tay cái. Đây là lý do tại sao nhiều công cụ ước tính khác của MI không dựa trên biểu đồ đã được đề xuất.
Số lượng thùng sẽ phụ thuộc vào tổng số điểm dữ liệu . Bạn nên cố gắng tránh quá nhiều thùng để tránh lỗi ước tính cho phân phối chung giữa hai biến. Bạn cũng nên tránh quá ít thùng để có thể nắm bắt mối quan hệ giữa hai biến. Cho rằng tạo ra một biểu đồ 2D với thùng chiều rộng bình đẳng cho cả hai và cá nhân tôi sẽ chọn:
D = ⌊ √nnp.histogram2d(x, y, D)
D
x
y
Trong trường hợp này trung bình cho hai biến ngẫu nhiên phân bố đều, bạn sẽ có ít nhất5điểm cho mỗi tế bào của biểu đồ:
n
D = ⌊ n / 5---√⌋
5
Đây là một lựa chọn khả thi mô phỏng phương pháp phân vùng thích ứng được đề xuất trong
(Cellucci, 2005). Cách tiếp cận thứ hai thường được sử dụng để ước tính MI để suy ra các mạng di truyền: ví dụ như trong
MIDER.
nDXDY≥ 5 ⇒ nD2≥ 5 ⇒ D2≤ n / 5 ⇒ D = ⌊ n / 5---√⌋
Nếu bạn có nhiều điểm dữ liệu và không có giá trị thiếu, bạn không nên lo lắng quá nhiều về việc tìm số thùng tốt nhất; ví dụ: nếu n = 100 , 000 . Nếu đây không phải là trường hợp, bạn có thể xem xét để sửa MI cho các mẫu hữu hạn. (Steuer et al., 2002) thảo luận về một số hiệu chỉnh cho MI cho nhiệm vụ suy luận mạng di truyền.nn = 100 , 000
Ước tính số lượng thùng cho biểu đồ là một vấn đề cũ. Bạn có thể quan tâm đến bài nói chuyện này của Lauritz Dieckman về việc ước tính số lượng thùng cho MI. Bài nói chuyện này dựa trên một chương trong cuốn sách của Mike X Cohen về chuỗi thời gian thần kinh.
DXDY
IQR
DX= ⌈ tối đa X- phút X2 ⋅ IQR ⋅ n- 1 / 3⌉
IQR
Quy tắc của Scott (giả định quy tắc ):
trong đó là độ lệch chuẩn cho .sXX
DX= ⌈ tối đa X- phút X3,5 ⋅ sX⋅ n- 1 / 3⌉
SXX
Quy tắc của Sturges (có thể đánh giá thấp số lượng thùng nhưng tốt cho lớn ):
D X = ⌈ 1 + log 2 n ⌉n
DX= ⌈ 1 + nhật ký2n ⌉
Rất khó để ước tính chính xác MI với biểu đồ. Sau đó, bạn có thể chọn một công cụ ước tính khác nhau:
- Công cụ ước tính NN của Kraskov , ít nhạy cảm hơn với lựa chọn tham số: hoặc hàng xóm gần nhất thường được sử dụng làm mặc định. Báo cáo: (Kraskov, 2003)k = 4 k = 6kk = 4k = 6
- Ước tính MI với Kernels (Moon, 1995) .
Có rất nhiều gói để ước tính MI:
- Hộp công cụ ước tính Entropy không tham số cho Python. trang web .
- Bộ công cụ động lực thông tin trong Java nhưng cũng có sẵn cho Python. trang web .
- Hộp công cụ ITE trong Matlab. trang web .