Làm cách nào để kiểm tra xem một mẫu dữ liệu có phù hợp với họ phân phối Gamma không?


13

Tôi có một mẫu dữ liệu được tạo từ một biến ngẫu nhiên liên tục X. Và từ biểu đồ tôi vẽ bằng R, tôi đoán rằng có thể phân phối của X tuân theo một phân phối Gamma nhất định. Nhưng tôi không biết các thông số chính xác của bản phân phối Gamma này.

Câu hỏi của tôi là làm thế nào để kiểm tra xem phân phối của X có thuộc họ phân phối Gamma không? Có tồn tại một số điểm tốt của các thử nghiệm phù hợp như thử nghiệm Kolmogorov-Smirnov, thử nghiệm Anderson-Darling, v.v., nhưng một trong những hạn chế khi sử dụng các thử nghiệm này là các thông số của phân phối lý thuyết nên được biết trước. Bất cứ ai sẽ cho tôi biết làm thế nào để giải quyết vấn đề này?


Có lẽ tôi đang thiếu một cái gì đó, nhưng nếu bạn đã biết về một thử nghiệm để kiểm tra sự phù hợp của phân phối và tất cả những gì bạn cần biết là các giá trị của phân phối lý thuyết, thì bạn có thể chỉ cần sử dụng các ước tính khả năng tối đa của các tham số của gamma phân phối trên dữ liệu của bạn để có được ước tính của các tham số. Sau đó, bạn có thể sử dụng các ước tính đó để xác định phân phối lý thuyết trong bài kiểm tra của mình.
David

David, cảm ơn bạn đã trả lời. Câu trả lời cũng là những gì tôi đã suy nghĩ, nhưng tôi không chắc liệu có một số lý thuyết có thể hỗ trợ ý tưởng này không, bạn có thể trả lời nó cho tôi không?
dùng8363

Nếu bạn sử dụng R, bạn có thể quan tâm đến việc xem xét gói fitdistrplus , nơi có các phương tiện để thực hiện loại điều này.
gung - Phục hồi Monica

Câu trả lời:


8

Tôi nghĩ rằng câu hỏi yêu cầu kiểm tra thống kê chính xác, không phải để so sánh biểu đồ. Khi sử dụng thử nghiệm Kolmogorov-Smirnov với các tham số ước tính , việc phân phối số liệu thống kê thử nghiệm dưới giá trị phụ thuộc vào phân phối được thử nghiệm, trái ngược với trường hợp không có tham số ước tính. Chẳng hạn, sử dụng (trong R)

x <- rnorm(100)
ks.test(x, "pnorm", mean=mean(x), sd=sd(x))

dẫn đến

        One-sample Kolmogorov-Smirnov test

data:  x 
D = 0.0701, p-value = 0.7096
alternative hypothesis: two-sided

trong khi chúng ta nhận được

> ks.test(x, "pnorm")

        One-sample Kolmogorov-Smirnov test

data:  x 
D = 0.1294, p-value = 0.07022
alternative hypothesis: two-sided 

cho cùng một mẫu x. Do đó, mức ý nghĩa hoặc giá trị p phải được xác định bằng mô phỏng Monte Carlo dưới giá trị null, tạo ra phân phối số liệu thống kê Kolmogorov - Smirnov từ các mẫu được mô phỏng theo phân phối ước tính (với kết quả xấp xỉ nhẹ trong mẫu cho thấy đến từ một phân phối khác, thậm chí dưới null).


1
(+1) Tôi không hiểu tại sao việc mô phỏng các mẫu theo phân phối ước tính là chính xác. Tôi có thể nghĩ rằng chúng tôi cần một ưu tiên cho các tham số và lấy mẫu từ tất cả các bản phân phối có thể ... bạn có thể giải thích thêm một chút không?
Elvis

1
Xi'an, câu trả lời của bạn chính xác là những gì tôi lo lắng. Bạn có nghĩa là "Khi sử dụng thử nghiệm Kolmogorov-Smirnov với các tham số ước tính, việc phân phối số liệu thống kê thử nghiệm dưới giá trị phụ thuộc vào phân phối được thử nghiệm". Tuy nhiên, chúng tôi không biết phân phối của X, chính xác hơn, chúng tôi không biết tham số phân phối của X theo giả thuyết null, do đó phân phối thống kê kiểm tra, do đó, chúng tôi sử dụng monte carlo. Bạn có thể giải quyết nó bằng cách không sử dụng monte carlo để lấy giá trị P không? Cảm ơn bạn
dùng8363

Để tính đến thực tế là "mẫu được quan sát đến từ một phân phối khác ngay cả dưới giá trị null", liệu có phù hợp để khởi động lại mẫu, ước tính lại các tham số ở mỗi lần lặp không?
Elvis

1
@Elvis (1): đây là số liệu thống kê cổ điển, không phải là giải pháp Bayes về tính tốt của vấn đề phù hợp. Đối với các bản phân phối có tham số tỷ lệ vị trí, việc lựa chọn các tham số được sử dụng để mô phỏng các mẫu mô phỏng không quan trọng.
Tây An

1
@Elvis (2): Một lần nữa tôi vừa thảo luận với các học sinh của mình! Bootstrap sẽ giúp đánh giá hành vi của khoảng cách Kolmogorov-Smirnov dưới sự phân phối dữ liệu thực sự, không phải dưới giá trị null! Nguyên tắc của Fisher-Neyman-Pearson là vấn đề quan trọng là hành vi của khoảng cách Kolmogorov-Smirnov dưới giá trị null, do đó nó bị từ chối nếu khoảng cách quan sát quá lớn sẽ phân phối phân phối này dưới giá trị null.
Tây An

4

Tính toán MLE của các tham số giả định phân phối gamma cho dữ liệu của bạn và so sánh mật độ lý thuyết với biểu đồ dữ liệu của bạn. Nếu cả hai rất khác nhau, phân phối gamma là xấp xỉ dữ liệu của bạn. Đối với một bài kiểm tra chính thức, bạn có thể tính toán, ví dụ, thống kê kiểm tra Kolmogorov - Smirnoff so sánh phân phối gamma phù hợp nhất với phân phối theo kinh nghiệm và kiểm tra mức độ quan trọng.


3
+1, đây là một câu trả lời chắc chắn. Tuy nhiên, tôi sẽ đề nghị kiểm tra một âm mưu qq chống lại gamma lý thuyết hơn là biểu đồ - sẽ dễ dàng hơn để đánh giá độ lệch.
gung - Phục hồi Monica

1
Vấn đề là kiểm tra KS giả định phân phối lý thuyết sẽ được đưa ra trước, không được ước tính từ dữ liệu. Xi'an (một phần) đã trả lời đến thời điểm đó ...
Elvis

ý bạn là trước tiên chúng tôi sử dụng mẫu dữ liệu này để lấy công cụ ước tính MLS và sử dụng giá trị của công cụ ước tính MLS trong phân phối Gamma, sau đó so sánh dữ liệu với phân phối Gamma (với tham số ước tính) bằng cách sử dụng kiểm tra KS?
dùng8363

Elvis, xin vui lòng cho tôi biết làm thế nào để giải quyết vấn đề mà khi tham số của phân phối lý thuyết là không biết và cần phải được ước tính. Trong trường hợp này, làm thế nào người ta có thể sử dụng thử nghiệm KS để có được phán đoán tương đối chính xác về giả thuyết, cảm ơn bạn!
dùng8363

1
@Elvis: Tôi không nghĩ rằng phái sinh chính xác là có thể trong trường hợp phân phối gamma. Bản thân cdf không có sẵn ở dạng đóng. Hơn nữa, thực tế là tham số hình dạng không phải là tỷ lệ cũng như vị trí có nghĩa là có một phân phối khác nhau cho mỗi giá trị của tham số hình dạng ...
Xi'an
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.