Tôi đang sử dụng Bayes để giải quyết vấn đề phân cụm. Sau khi thực hiện một số tính toán, tôi kết thúc với sự cần thiết phải đạt được tỷ lệ của hai xác suất:
để có thể có được . Những xác suất này có được bằng cách tích hợp hai KDE đa biến 2D khác nhau như được giải thích trong câu trả lời này :
trong đó và là các KDE và việc tích hợp được thực hiện cho tất cả các điểm dưới ngưỡng và . Cả hai KDE đều sử dụng nhân Gaussian . Có thể xem hình ảnh đại diện của KDE tương tự như hình ảnh tôi đang làm việc ở đây: Tích hợp công cụ ước tính mật độ hạt nhân trong 2D .
Tôi tính toán các KDE bằng một python
hàm stats.gaussian_kde , vì vậy tôi giả sử dạng tổng quát sau cho nó:
trong đó n
độ dài của mảng điểm của tôi và h
là băng thông được sử dụng.
Các tích phân ở trên được tính toán áp dụng quy trình Monte Carlo khá tốn kém về mặt tính toán. Tôi đã đọc ở đâu đó (quên ở đâu, xin lỗi) rằng trong những trường hợp như thế này, có thể thay thế tỷ lệ xác suất bằng tỷ lệ PDF (KDE) được đánh giá ở các điểm ngưỡng để có kết quả hợp lệ như nhau. Tôi quan tâm đến điều này bởi vì tính toán tỷ lệ KDEs là các đơn đặt hàng có cường độ nhanh hơn so với việc tính tỷ lệ của các tích phân với MC.
Vì vậy, câu hỏi được giảm xuống tính hợp lệ của biểu thức này:
Trong trường hợp nào, nếu có, tôi có thể nói rằng mối quan hệ này là đúng không?
[lỗi đánh máy (EDIT)]
Thêm :
Về cơ bản đây là cùng một câu hỏi nhưng được thực hiện dưới dạng toán học hơn .
P(X)
đó là những gì tôi đang cố gắng tránh tính toán. Bạn có thể mở rộng một chút về sự liên quan của tham số đó?