Giả sử bạn có tập dữ liệu từ một phân phối liên tục với mật độ p ( y ) được hỗ trợ trên [ 0 , 1 ] mà không được biết đến, nhưng n là khá lớn do đó, một mật độ hạt nhân (ví dụ) ước tính, p ( y ) , là khá chính xác. Đối với một ứng dụng cụ thể, tôi cần chuyển đổi dữ liệu quan sát thành số lượng danh mục hữu hạn để mang lại tập dữ liệu mới Z 1 , . . . , Z nvới hàm khối lượng ngụ ý .
Một ví dụ đơn giản sẽ là khi Y i ≤ 1 / 2 và Z i = 1 khi Y i > 1 / 2 . Trong trường hợp này, hàm khối lượng cảm ứng sẽ là
Hai "các thông số điều chỉnh" ở đây là số lượng các nhóm, , và ( m - 1 ) vector chiều dài ngưỡng λ . Biểu thị các chức năng hàng loạt gây ra bởi g m , λ ( y ) .
Tôi muốn một thủ tục mà câu trả lời, ví dụ, "sự lựa chọn tốt nhất của là gì để tăng số lượng các nhóm để m + 1 (và lựa chọn tối ưu λ có) sẽ mang lại một sự cải thiện đáng kể?". Tôi cảm thấy có lẽ một thống kê kiểm tra có thể được tạo ra (có thể với sự khác biệt về phân kỳ KL hoặc một cái gì đó tương tự) có phân phối có thể được lấy. Bất kỳ ý tưởng hoặc tài liệu có liên quan?
Chỉnh sửa: Tôi có các phép đo thời gian cách đều nhau của một biến liên tục và đang sử dụng chuỗi Markov không đồng nhất để mô hình hóa sự phụ thuộc theo thời gian. Thành thật mà nói, chuỗi markov nhà nước rời rạc dễ xử lý hơn nhiều và đó là động lực của tôi. Các dữ liệu quan sát là tỷ lệ phần trăm. Tôi hiện đang sử dụng một biện pháp phân biệt quảng cáo có vẻ rất tốt đối với tôi nhưng tôi nghĩ đây là một vấn đề thú vị khi có thể có giải pháp chính thức (và chung chung).
Chỉnh sửa 2: Trên thực tế việc giảm thiểu phân kỳ KL sẽ tương đương với việc không phân biệt dữ liệu, vì vậy ý tưởng đó hoàn toàn bị loại bỏ. Tôi đã chỉnh sửa cơ thể cho phù hợp.