Xác định sự phân tách dữ liệu tối ưu từ phân phối liên tục


11

Giả sử bạn có tập dữ liệu từ một phân phối liên tục với mật độ p ( y ) được hỗ trợ trên [ 0 , 1 ] mà không được biết đến, nhưng n là khá lớn do đó, một mật độ hạt nhân (ví dụ) ước tính, p ( y ) , là khá chính xác. Đối với một ứng dụng cụ thể, tôi cần chuyển đổi dữ liệu quan sát thành số lượng danh mục hữu hạn để mang lại tập dữ liệu mới Z 1 , . . . , Z nY1,...,Ynp(y)[0,1]np^(y)Z1,...,Znvới hàm khối lượng ngụ ý .g(z)

Một ví dụ đơn giản sẽ là khi Y i1 / 2Z i = 1 khi Y i > 1 / 2 . Trong trường hợp này, hàm khối lượng cảm ứng sẽ làZi=0Yi1/2Zi=1Yi>1/2

g^(0)=01/2p^(y)dy,   g^(1)=1/21p^(y)dy

Hai "các thông số điều chỉnh" ở đây là số lượng các nhóm, , và ( m - 1 ) vector chiều dài ngưỡng λ . Biểu thị các chức năng hàng loạt gây ra bởi g m , λ ( y ) .m(m1)λg^m,λ(y)

Tôi muốn một thủ tục mà câu trả lời, ví dụ, "sự lựa chọn tốt nhất của là gì để tăng số lượng các nhóm để m + 1 (và lựa chọn tối ưu λ có) sẽ mang lại một sự cải thiện đáng kể?". Tôi cảm thấy có lẽ một thống kê kiểm tra có thể được tạo ra (có thể với sự khác biệt về phân kỳ KL hoặc một cái gì đó tương tự) có phân phối có thể được lấy. Bất kỳ ý tưởng hoặc tài liệu có liên quan?m,λm+1λ

Chỉnh sửa: Tôi có các phép đo thời gian cách đều nhau của một biến liên tục và đang sử dụng chuỗi Markov không đồng nhất để mô hình hóa sự phụ thuộc theo thời gian. Thành thật mà nói, chuỗi markov nhà nước rời rạc dễ xử lý hơn nhiều và đó là động lực của tôi. Các dữ liệu quan sát là tỷ lệ phần trăm. Tôi hiện đang sử dụng một biện pháp phân biệt quảng cáo có vẻ rất tốt đối với tôi nhưng tôi nghĩ đây là một vấn đề thú vị khi có thể có giải pháp chính thức (và chung chung).

Chỉnh sửa 2: Trên thực tế việc giảm thiểu phân kỳ KL sẽ tương đương với việc không phân biệt dữ liệu, vì vậy ý ​​tưởng đó hoàn toàn bị loại bỏ. Tôi đã chỉnh sửa cơ thể cho phù hợp.


1
Trong hầu hết các trường hợp, nhu cầu của ứng dụng tiếp theo sẽ quyết định mức độ tốt của bất kỳ giải pháp nào. Có lẽ, để cung cấp cho chúng tôi một số hướng dẫn, bạn có thể nói thêm về điều đó.
whuber

Đầu tiên, xác định những gì bạn có nghĩa là không đáng kể . Ngoài ra, điều này dường như liên quan đến một vấn đề biến dạng tỷ lệ . Văn bản Cover & Thomas cung cấp một giới thiệu dễ đọc cho các chủ đề như vậy.
Đức hồng y

Tôi nghĩ về sự rời rạc với các mức như một mô hình với các tham số k - 1 (cho các ngưỡng). Trong cài đặt này khi tôi nói không đáng kể, tôi có nghĩa là "không đáng để thêm tham số phụ" theo nghĩa thống kê. kk1
Macro

Tôi không chắc chắn nếu rời rạc thực sự là một động thái tốt. Bạn sẽ không thể khái quát hóa qua các đường viền mà các giá trị rời rạc tạo ra trên không gian ban đầu của các quan sát của bạn.
bayerj

Câu trả lời:


3

Tôi sẽ chia sẻ giải pháp mà tôi đã đưa ra cho vấn đề này một thời gian trước - đây không phải là một thử nghiệm thống kê chính thức nhưng có thể cung cấp một heuristic hữu ích.


Y1,Y2,...,Yn[0,1]m0<λ1<λ2<<λm1<1

YiZi(m,λ)λ={λ1,λ2,,λm1}Yim,λ

var(Yi)=var(E(Yi|Zi(m,λ)))+E(var(Yi|Zi(m,λ))).

E(var(Yi|Zi(m,λ))Yivar(E(Yi|Zi(m,λ))mλm

λm=argminλE(var(Yi|Zi(m,λ)))

mE(var(Yi|Zi(m,λm)))m

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.