Các phương pháp không tham số khác nhau để ước tính phân phối xác suất của dữ liệu


10

Tôi có một số dữ liệu và đã cố gắng để phù hợp với một đường cong trơn tru với nó. Tuy nhiên, tôi không muốn thực thi quá nhiều niềm tin trước đó hoặc những quan niệm trước quá mạnh mẽ (ngoại trừ những điều được ngụ ý bởi phần còn lại của câu hỏi của tôi) về nó, hoặc bất kỳ phân phối cụ thể nào.

Tôi chỉ muốn khớp nó với một số đường cong mượt mà (hoặc có một ước tính tốt về phân phối xác suất mà nó có thể đến từ đó). Phương pháp duy nhất mà tôi biết để làm điều này là ước tính mật độ hạt nhân (KDE). Tôi đã tự hỏi, nếu mọi người biết các phương pháp khác để ước tính một điều như vậy. Tôi chỉ muốn một danh sách về chúng và từ đó tôi có thể tự nghiên cứu để tìm ra cái nào tôi muốn sử dụng.

Đưa ra bất kỳ liên kết hoặc tài liệu tham khảo tốt (hoặc trực giác nào là tốt) luôn được chào đón (và được khuyến khích)!


3
" Tôi không muốn thực thi bất kỳ niềm tin trước đó vào nó " - sau đó bạn không thể cho rằng nó trơn tru, hoặc thậm chí liên tục (đó sẽ là niềm tin trước). Trong trường hợp đó, ecdf là về cách truy đòi duy nhất của bạn.
Glen_b -Reinstate Monica

1
Để tin tưởng tôi là một cách tốt hơn để đặt câu hỏi của tôi. Tôi có nghĩa là tôi không muốn giả sử rằng, Bernoulli hoặc một cái gì đó có thể là hạn chế. Tôi không biết ecdf là gì btw. Nếu bạn có một gợi ý hay danh sách gợi ý, hãy đăng nó.
Pinocchio

Tôi đã cập nhật câu hỏi của tôi. Điều đó có tốt hơn không? Rõ hơn? Nhân tiện, không có câu trả lời đúng cho câu hỏi của tôi, chỉ có những câu hỏi hay và ít hữu ích. :)
Pinocchio

2
ecdf = cdf theo kinh nghiệm , xin lỗi. Chúng tôi chỉ có thể trả lời câu hỏi bạn hỏi, không phải câu hỏi bạn muốn hỏi, vì vậy bạn phải cẩn thận để rõ ràng khi bạn bày tỏ giả định của mình.
Glen_b -Reinstate Monica

Một biểu đồ được chuẩn hóa có thể được xem như là một ước tính mật độ
Dason

Câu trả lời:


5

Bạn không xác định rằng bạn đang nói về các biến ngẫu nhiên liên tục, nhưng tôi sẽ giả sử, vì bạn đề cập đến KDE, rằng bạn có ý định này.

Hai phương pháp khác để phù hợp với mật độ mịn:

1) ước tính mật độ log-spline. Ở đây một đường cong spline được gắn vào mật độ log.

Một ví dụ:

Kooperberg và Stone (1991),
"Một nghiên cứu về ước tính mật độ logspline" ,
Phân tích dữ liệu và thống kê tính toán , 12 , 327-347

Kooperberg cung cấp một liên kết đến một bản pdf của bài báo của mình ở đây , dưới "1991".

Nếu bạn sử dụng R, có một gói cho việc này. Một ví dụ về sự phù hợp được tạo ra bởi nó ở đây . Dưới đây là biểu đồ của các bản ghi của dữ liệu được đặt ở đó và sao chép các ước tính mật độ hạt nhân và logspline từ câu trả lời:

biểu đồ dữ liệu log

Ước tính mật độ logspline:

lô logspline

Ước tính mật độ hạt nhân:

ước tính mật độ hạt nhân

2) Mô hình hỗn hợp hữu hạn . Ở đây một số họ phân phối thuận tiện được chọn (trong nhiều trường hợp, bình thường) và mật độ được coi là hỗn hợp của một số thành viên khác nhau của gia đình đó. Lưu ý rằng ước tính mật độ hạt nhân có thể được xem như một hỗn hợp như vậy (với hạt nhân Gaussian, chúng là hỗn hợp của Gaussian).

Nói chung, những thứ này có thể được trang bị thông qua ML, hoặc thuật toán EM, hoặc trong một số trường hợp thông qua khớp thời điểm, mặc dù trong những trường hợp cụ thể, các phương pháp khác có thể khả thi.

(Có rất nhiều gói R thực hiện nhiều dạng mô hình hỗn hợp khác nhau.)

Đã thêm vào chỉnh sửa:

3) Biểu đồ chuyển dịch trung bình
(không thực sự trơn tru, nhưng có lẽ đủ trơn tru cho các tiêu chí không được nêu của bạn):

Hãy tưởng tượng tính toán một chuỗi biểu đồ ở một số độ rộng cố định ( ), trên một nguồn gốc bin thay đổi cho một số nguyên mỗi lần, và sau đó tính trung bình. Cái nhìn này thoạt nhìn giống như một biểu đồ được thực hiện ở mức độ băng thông , nhưng mượt mà hơn nhiều.bb/kkb/k

Ví dụ, tính toán 4 biểu đồ cho mỗi biểu đồ ở độ rộng 1, nhưng bù lại bằng + 0, + 0,25, + 0,5, + 0,75 và sau đó tính trung bình các độ cao ở bất kỳ . Bạn kết thúc với một cái gì đó như vậy:x

Biểu đồ chuyển dịch trung bình

Sơ đồ lấy từ câu trả lời này . Như tôi nói ở đó, nếu bạn đạt đến mức nỗ lực đó, bạn cũng có thể thực hiện ước tính mật độ hạt nhân.


Để thêm vào điều này. Đối với mô hình hỗn hợp - Tôi đoán bạn có thể phù hợp với hỗn hợp gồm 2, rồi 3, rồi 4 phân phối và dừng lại sau khi không có sự gia tăng đáng kể về khả năng đăng nhập hoặc một số như vậy ...
waferthin

4

Theo các ý kiến ​​trên về các giả định như độ mịn, v.v. Bạn có thể thực hiện ước tính mật độ không theo tỷ lệ Bayes bằng các mô hình hỗn hợp với quy trình Dirichlet trước đó.

Hình dưới đây cho thấy các đường viền mật độ xác suất được phục hồi từ ước tính MCMC của mô hình hỗn hợp DP bình thường chia đôi cho dữ liệu 'trung thành cũ'. Các điểm được tô màu IIRC theo cách phân cụm thu được ở bước MCMC cuối cùng.

nhập mô tả hình ảnh ở đây

Teh 2010 cung cấp một số nền tảng tốt.


1

Một lựa chọn phổ biến là rừng ngẫu nhiên (xem cụ thể chương năm của " Rừng quyết định: Khung thống nhất để phân loại, hồi quy, ước tính mật độ, học tập đa dạng và học bán giám sát ".

Nó mô tả chi tiết thuật toán và đánh giá nó dựa trên các lựa chọn phổ biến khác như k-mean, GMM và KDE. Rừng ngẫu nhiên được thực hiện trong R và scikit-learn.

Rừng ngẫu nhiên là cây quyết định đóng gói một cách thông minh.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.