Các kiểm tra thống kê tiêu chuẩn để xem liệu dữ liệu tuân theo phân phối theo cấp số nhân hay bình thường là gì?


12

Các kiểm tra thống kê tiêu chuẩn để xem liệu dữ liệu tuân theo phân phối theo cấp số nhân hay bình thường là gì?


2
Thử nghiệm tốt nhất có thể phụ thuộc vào lý do tại sao chính xác bạn đang kiểm tra tính quy tắc / hàm mũ (vì vậy một số nền tảng sẽ hữu ích) nhưng bạn luôn có thể sử dụng thử nghiệm Kolmogorov Smirnov để kiểm tra xem một bộ dữ liệu nhất định có phù hợp với bất kỳ phân phối được chỉ định trước nào không ( en.wikipedia .org / wiki / Kolmogorov% E2% 80% 93Smirnov_test ). Có rất nhiều phương thức được sử dụng cho phân phối bình thường cụ thể: en.wikipedia.org/wiki/Normality_test
Macro

Các biến tôi đang xử lý có khả năng tuân theo các phân phối bình thường hoặc theo cấp số nhân. Ngoài ra, tôi có một yếu tố mà tôi không quan tâm. Tuy nhiên, nó áp đặt một số thay đổi trên dữ liệu của tôi. Do đó, tôi muốn bình thường hóa các biến để triệt tiêu ảnh hưởng của yếu tố phiền toái này. Vì vậy, tôi nghĩ tốt hơn hết là bình thường hóa từng biến dựa trên phân phối cơ bản của chúng. Đó là lý do tại sao tôi cần một bài kiểm tra để quyết định giữa hai bản phân phối này.
smo

1
Bình thường hóa có nghĩa gì trong câu này: Tôi nghĩ tốt hơn là bình thường hóa mỗi biến dựa trên phân phối cơ bản của chúng ?
Macro

2
Mặc dù không phải là một thử nghiệm, các lô QQ rất tuyệt vời để thực hiện kiểm tra trực quan nhanh xem dữ liệu của bạn có khớp với phân phối hay không.
ness101

Câu trả lời:


13

Có vẻ như bạn đang cố gắng quyết định nên mô hình hóa dữ liệu của mình bằng phân phối bình thường hay phân phối theo cấp số nhân. Điều này có vẻ hơi lạ đối với tôi, vì những phân phối này rất khác nhau.

Phân phối bình thường là đối xứng trong khi phân phối theo cấp số nhân bị lệch nhiều về bên phải, không có giá trị âm. Thông thường, một mẫu từ phân bố mũ sẽ chứa nhiều quan sát tương đối gần với và một vài sự cản trở lệch về bên phải từ 0 . Sự khác biệt này thường dễ dàng nhìn thấy bằng đồ họa.00

Dưới đây là một ví dụ trong đó tôi đã mô phỏng quan sát từ phân phối bình thường với trung bình 2 và phương sai 4 và phân phối theo cấp số nhân với trung bình 2 và phương sai 4 :n=1002424

Bình thường so với số mũ: dữ liệu mô phỏng

Sự đối xứng của phân phối chuẩn và độ lệch của hàm mũ có thể được nhìn thấy bằng cách sử dụng biểu đồ, hình hộp và biểu đồ tán xạ, như được minh họa trong hình trên.

Một công cụ rất hữu ích khác là một cốt truyện QQ . Trong ví dụ dưới đây, các điểm sẽ xấp xỉ theo dòng nếu mẫu đến từ phân phối bình thường. Như bạn có thể thấy, đây là trường hợp của dữ liệu bình thường, nhưng không phải cho dữ liệu theo cấp số nhân.

QQ-lô cho dữ liệu mô phỏng

+1

TE,N=x¯x(1)s
x¯x(1)sTE,N

Thử nghiệm này thực sự là phiên bản thử nghiệm một mặt của Grubbs cho các ngoại lệ . Bạn sẽ thấy điều này được triển khai trong hầu hết các phần mềm thống kê (nhưng hãy đảm bảo rằng bạn sử dụng đúng phiên bản - có một số thống kê kiểm tra thay thế được sử dụng cho thử nghiệm ngoại lệ!).

TE,N


OP đã hỏi nếu bạn kiểm tra tính quy phạm, bạn sẽ chọn thử nghiệm nào trong một tình huống riêng biệt nếu bạn kiểm tra theo cấp số nhân, bạn sẽ sử dụng thử nghiệm nào. Tôi đã không đọc được thông báo rằng anh ta đang đề nghị thử cả hai bài kiểm tra trên cùng một tập dữ liệu.
Michael R. Chernick

Tôi đã giải thích nó theo cách đó, vì trong một bình luận tiếp theo cho câu hỏi, OP đã viết "Các biến tôi đang xử lý có khả năng tuân theo các phân phối bình thường hoặc theo cấp số nhân. [...] Đó là lý do tại sao tôi cần kiểm tra quyết định giữa hai bản phân phối này. "
MånsT

Tôi đã không nhận thấy điều đó. Trong trường hợp đó câu trả lời của bạn là rất thích hợp. Tôi đang trả lời như thể anh ta đang thử nghiệm từng cái một.
Michael R. Chernick

@Michael: Tôi đã giải thích nó theo cách đó khi tôi đọc câu hỏi ban đầu, nhưng quyết định viết câu trả lời của tôi sau khi đọc bình luận. Mặt khác, tôi không nghĩ rằng sẽ có nhiều điều để thêm vào câu trả lời (+1) của bạn (ngoài những nhận xét nhỏ mà tôi đã đưa ra trong một nhận xét ở đó).
MånsT

5

BnY¯logY¯Yi

Bn=bn×{logY¯logY¯}bn=2n×{1+(n+1)/(6n)}1
Bnχ2(n1)

Xem độ tin cậy của KC Kapur và LR Lamberson trong thiết kế kỹ thuật . Wiley 1977.


2
Tôi đã xem qua một số nguồn tài liệu gần đây và rộng rãi hơn về thử nghiệm theo cấp số nhân. 1) Một bài báo: Một Henze, N. và Meintanis, SG (2005): 'Các thử nghiệm gần đây và cổ điển về cấp số nhân: đánh giá một phần với các so sánh'. Metrika, tập. 61, trang 29 Vang45. 2) Gói CRAN R có tên 'exptest' thực hiện các thử nghiệm của bài viết được đề cập.
Yves

Phân phối B_n không rõ ràng lắm. Là Chi vuông với n-1 df, hay Chi vuông với n-1 df nhân với n-1?
Dovini Jayasinghe

Hoạt động như văn bản. Bạn có thể kiểm tra nó bằng cách sử dụng một vài dòng mã R.
Yves

Cảm ơn. Vì vậy, nó nên được nhân lên như tôi có thể thấy. Theo nghĩa, mức độ tự do nên là n-1?
Dovini Jayasinghe

Bnn1

4

Đối với tính bình thường Anderson-Darling và Shapiro-Wilk được coi là tốt nhất. Đối với bài kiểm tra Lillerfors theo cấp số nhân được thiết kế dành riêng cho nó.


5
câu trả lời này có thể được cải thiện với một chi tiết nhỏ về lý do tại sao mỗi bài kiểm tra được coi là tốt / tốt hơn những bài kiểm tra khác.
ness101

Những thử nghiệm này tốt hơn theo nghĩa là mạnh nhất để khởi hành từ bình thường (Anderson-Darling) và theo cấp số nhân (Lillefors). Tôi không nghĩ nó dễ dàng dựa trên hình thức kiểm tra để đưa ra lời giải thích trực quan.
Michael R. Chernick

3
@Michael: Bài kiểm tra Anderson-Darling về tính bình thường (như Shapiro-Wilk dito) có sức mạnh đáng nể đối với một loạt các lựa chọn thay thế, nhưng chắc chắn nó không phải là mạnh nhất (nói chung hoặc trung bình). Việc lựa chọn kiểm tra nên phụ thuộc vào sự thay thế trong tầm tay. Tôi chưa bao giờ nghe về bài kiểm tra Lillerfors - ý bạn là bài kiểm tra Lilliefors (thực ra là bài kiểm tra về tính quy tắc và không phải là bài kiểm tra về cấp số nhân)?
MånsT

Tất nhiên, tôi đã đề cập đến thử nghiệm của Lillefors về cấp số nhân vì đó là thử nghiệm mà tôi đã đề xuất cho các giả định phân phối theo cấp số nhân. Tôi liệt kê Shapiro-Wilk adn Anderson-Darling bởi vì theo hiểu biết tốt nhất của tôi, họ là một trong những người mạnh nhất trong số các bài kiểm tra về tính bình thường. Các bài kiểm tra mạnh mẽ hơn mà bạn đang đề cập đến là gì?
Michael R. Chernick

1
Nó phụ thuộc vào loại thay thế bạn có. Chẳng hạn, đối với các lựa chọn thay thế, độ lệch mẫu thường mạnh hơn SW và AD. Loại thứ hai là các thử nghiệm omnibus trung bình khá tốt, nhưng nếu bạn biết loại nào không bình thường mà bạn lo lắng, tốt hơn là sử dụng thử nghiệm có hướng (như thử nghiệm độ lệch mẫu, được hướng vào các phương án nghiêng) .
MånsT

4

Bạn đã xem xét các phương pháp đồ họa để xem dữ liệu ứng xử như thế nào chưa?

Các kỹ thuật đồ thị xác suất thường liên quan đến việc xếp hạng dữ liệu, áp dụng CDF nghịch đảo và sau đó vẽ kết quả trên mặt phẳng Cartesian. Điều này cho phép bạn xem nếu một số giá trị đi chệch khỏi phân phối giả định và có thể giải thích cho lý do sai lệch.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.