Tôi có thể sử dụng các khoảnh khắc của một bản phân phối để lấy mẫu phân phối không?


14

Tôi nhận thấy trong các phương pháp thống kê / học máy, một phân phối thường được xấp xỉ bởi một Gaussian, và sau đó Gaussian được sử dụng để lấy mẫu. Họ bắt đầu bằng cách tính toán hai khoảnh khắc đầu tiên của phân phối và sử dụng chúng để ước tính μσ2 . Sau đó, họ có thể lấy mẫu từ Gaussian đó.

Dường như với tôi càng nhiều khoảnh khắc tôi tính toán, tôi càng phải có khả năng xấp xỉ phân phối mà tôi muốn lấy mẫu.

Điều gì sẽ xảy ra nếu tôi tính 3 khoảnh khắc ... làm thế nào tôi có thể sử dụng chúng để lấy mẫu từ bản phân phối? Và điều này có thể được mở rộng đến N khoảnh khắc?


2
Ba khoảnh khắc không xác định một hình thức phân phối *; nếu bạn chọn một famiy phân phối có ba tham số liên quan đến ba khoảnh khắc dân số đầu tiên, bạn có thể thực hiện khớp thời điểm ("phương pháp của các khoảnh khắc") để ước tính ba tham số và sau đó tạo các giá trị từ phân phối đó. Có nhiều phân phối như vậy.[* Thật vậy, đôi khi thậm chí có tất cả các khoảnh khắc không đủ để xác định phân phối.]
Glen_b -Reinstate Monica

Cảm ơn, @Glen_b! Tôi sẽ đọc về "phương pháp của những khoảnh khắc" để hiểu khi nào có thể. Bạn có thể chỉ cho tôi lý thuyết mô tả khi những khoảnh khắc không đủ để xác định phân phối không?
tò mò_dan

"Phương pháp của khoảnh khắc" chỉ cho bạn biết cách ước tính các tham số từ các khoảnh khắc. Phần còn lại của bình luận của bạn là một câu hỏi mới (tôi nghĩ rằng nó đã được trả lời trên trang web); một cách ngắn gọn - nếu hàm tạo thời điểm tồn tại (trong vùng lân cận bằng 0) thì nó sẽ xác định duy nhất một phân phối (về mặt kỹ thuật, về nguyên tắc, bạn có thể thực hiện một phép biến đổi Laplace ngược). Chắc chắn nếu một số khoảnh khắc không hữu hạn thì điều này có nghĩa là mgf không tồn tại, nhưng cũng có trường hợp tất cả các khoảnh khắc là hữu hạn nhưng mgf vẫn không tồn tại trong vùng lân cận 0 ..
Glen_b -Reinstate Monica

Tôi đang viết một câu trả lời dựa trên nhận xét của tôi.
Glen_b -Reinstate Monica

Câu trả lời:


22

Ba khoảnh khắc không xác định một hình thức phân phối; nếu bạn chọn một famiy phân phối có ba tham số liên quan đến ba khoảnh khắc dân số đầu tiên, bạn có thể thực hiện khớp thời điểm ("phương pháp của các khoảnh khắc") để ước tính ba tham số và sau đó tạo các giá trị từ phân phối đó. Có nhiều phân phối như vậy.

Đôi khi thậm chí có tất cả các khoảnh khắc không đủ để xác định phân phối. Nếu hàm tạo mô men tồn tại (trong vùng lân cận bằng 0) thì nó sẽ xác định duy nhất một phân phối (về nguyên tắc bạn có thể thực hiện một phép biến đổi Laplace ngược để có được nó).

[Nếu một số khoảnh khắc không hữu hạn, điều này có nghĩa là mgf không tồn tại, nhưng cũng có trường hợp tất cả các khoảnh khắc là hữu hạn nhưng mgf vẫn không tồn tại trong vùng lân cận 0.]

Do có sự lựa chọn phân phối, người ta có thể muốn xem xét một giải pháp entropy tối đa với ràng buộc trong ba khoảnh khắc đầu tiên, nhưng không có phân phối nào trên dòng thực sự đạt được nó (vì khối kết quả trong số mũ sẽ không bị ràng buộc).


Làm thế nào quá trình sẽ làm việc cho một sự lựa chọn phân phối cụ thể

Chúng ta có thể đơn giản hóa quá trình lấy một kết hợp phân phối ba khoảnh khắc bằng cách bỏ qua phương sai trung bình và và làm việc với một khoảnh khắc thứ ba quy mô - khoảnh khắc độ lệch của ( γ1=μ3/μ23/2 ).

Chúng ta có thể làm điều này bởi vì đã chọn một phân phối với độ lệch có liên quan, sau đó chúng ta có thể sao lưu trung bình và phương sai mong muốn bằng cách chia tỷ lệ và dịch chuyển.

Hãy xem xét một ví dụ. Hôm qua tôi đã tạo một tập dữ liệu lớn (vẫn xảy ra trong phiên R của tôi) có phân phối mà tôi chưa thử tính dạng hàm (đó là một tập hợp lớn các giá trị của nhật ký phương sai mẫu của Cauchy tại n = 10). Chúng ta có ba khoảnh khắc thô đầu tiên lần lượt là 1.519, 3.597 và 11.479 hoặc tương ứng là trung bình 1.518, độ lệch chuẩn * là 1.136 và độ lệch là 1.429 (vì vậy đây là các giá trị mẫu từ một mẫu lớn).

Chính thức, phương pháp của các khoảnh khắc sẽ cố gắng khớp với các khoảnh khắc thô, nhưng phép tính đơn giản hơn nếu chúng ta bắt đầu với độ lệch (biến ba phương trình trong ba ẩn số thành giải một tham số tại một thời điểm, một nhiệm vụ đơn giản hơn nhiều).

* Tôi sẽ xóa bỏ sự khác biệt giữa việc sử dụng mẫu số n trên phương sai - tương ứng với phương pháp chính thức của khoảnh khắc - và mẫu số n-1 và chỉ cần sử dụng các phép tính mẫu.

Độ lệch này (~ 1,43) cho thấy chúng ta tìm kiếm một phân phối là lệch phải. Tôi có thể lựa chọn, ví dụ, một chuyển phân phối lognormal (ba tham số loga chuẩn, hình dạng σ , quy mô μ và vị trí ca γ ) với những khoảnh khắc như vậy. Hãy bắt đầu bằng cách kết hợp độ lệch. Độ lệch dân số của hai tham số lognatural là:

γ1=(eσ2+2)eσ21

σ2σ~2

γ12(τ+2)2(τ1)τ=eσ2τ3+3τ24=γ12τ~1.1995σ~20.1819γ1

μ

Nhưng chúng ta có thể dễ dàng chọn một phân phối đã thay đổi hoặc phân phối Weibull đã chuyển (hoặc thay đổi-F hoặc bất kỳ số lượng các lựa chọn nào khác) và thực hiện cùng một quy trình. Mỗi người trong số họ sẽ khác nhau.

[Đối với mẫu mà tôi đang xử lý, một gamma đã thay đổi có lẽ là một lựa chọn tốt hơn đáng kể so với lognatural đã thay đổi, vì phân phối các bản ghi của các giá trị bị lệch và phân phối của khối lập phương của chúng rất gần với đối xứng; những điều này phù hợp với những gì bạn sẽ thấy với mật độ gamma (không bị dịch chuyển), nhưng mật độ sai lệch của các bản ghi không thể đạt được với bất kỳ logn bình thường thay đổi nào.]

Người ta thậm chí có thể lấy sơ đồ độ lệch-kurtosis trong một biểu đồ Pearson và vẽ một đường thẳng ở độ lệch mong muốn và nhờ đó có được phân phối hai điểm, chuỗi phân phối beta, phân phối gamma, chuỗi phân phối beta-Prime, nghịch đảo- phân phối gamma và một chuỗi các phân phối Pearson loại IV tất cả đều có cùng độ lệch.

β1=γ12β2

Âm mưu Pearson với đường xiên mong muốn được vẽ trong

γ12=2.042σ


Thêm khoảnh khắc

Khoảnh khắc không phân phối rất tốt, vì vậy ngay cả khi bạn chỉ định nhiều khoảnh khắc, vẫn sẽ có rất nhiều phân phối khác nhau (đặc biệt liên quan đến hành vi cực đoan của chúng) sẽ khớp với chúng.

Tất nhiên bạn có thể chọn một số họ phân phối có ít nhất bốn tham số và cố gắng khớp nhiều hơn ba khoảnh khắc; ví dụ: các bản phân phối Pearson ở trên cho phép chúng tôi khớp bốn thời điểm đầu tiên và có các lựa chọn phân phối khác cho phép mức độ linh hoạt tương tự.

Người ta có thể áp dụng các chiến lược khác để chọn các bản phân phối có thể phù hợp với các tính năng phân phối - phân phối hỗn hợp, mô hình hóa mật độ log bằng cách sử dụng spline, v.v.

Tuy nhiên, thường thì, nếu người ta quay trở lại mục đích ban đầu mà người ta đang cố gắng tìm một bản phân phối, thì thường thì có một điều gì đó tốt hơn có thể được thực hiện hơn là chiến lược được nêu ở đây.


2

Vì vậy, câu trả lời thường là KHÔNG, bạn không thể làm điều này, nhưng đôi khi bạn có thể.

Khi bạn không thể

Những lý do bạn không thể làm điều này thường là hai lần.

Đầu tiên, nếu bạn có N quan sát, thì nhiều nhất bạn có thể tính được N khoảnh khắc. Còn những khoảnh khắc khác thì sao? Bạn không thể đơn giản đặt chúng về 0.

γ100= =ΣTôixTôi100n

Khi bạn có thể

Bây giờ, đôi khi bạn có thể nhận được phân phối từ khoảnh khắc. Đó là khi bạn đưa ra một giả định về việc phân phối một số loại. Ví dụ, bạn tuyên bố rằng đó là bình thường. Trong trường hợp này, tất cả những gì bạn cần chỉ là hai khoảnh khắc, thường có thể được tính toán với độ chính xác khá. Lưu ý rằng phân phối bình thường những khoảnh khắc cao hơn, thực sự, ví dụ như kurtosis, nhưng chúng ta không cần chúng. Nếu bạn tính toán tất cả các khoảnh khắc của phân phối bình thường (mà không cho rằng đó là bình thường), thì đã thử khôi phục hàm đặc trưng để lấy mẫu từ phân phối, nó sẽ không hoạt động. Tuy nhiên, khi bạn quên đi những khoảnh khắc cao hơn và bám lấy hai cái đầu tiên, nó sẽ hoạt động.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.