Tại sao tất cả các bài kiểm tra về tính quy phạm đều bác bỏ giả thuyết khống?


12

Thử nghiệm Koleimorov-Smirnov, thử nghiệm Shapiro, v.v .... tất cả đều bác bỏ giả thuyết rằng một phân phối là bình thường. Tuy nhiên, khi tôi vẽ các lượng tử và biểu đồ bình thường, dữ liệu rõ ràng là bình thường. Có lẽ vì sức mạnh của các bài kiểm tra cao?

Cỡ mẫu vào khoảng 650. Vì vậy, ít nhất một trong những thử nghiệm này không thể bác bỏ giả thuyết khống?

Các kết quả:

           Kolmogorov-Smirnov    D          0.05031          Pr > D       <0.010
           Cramer-von Mises      W-Sq       0.30003          Pr > W-Sq    <0.005
           Anderson-Darling      A-Sq       1.66965          Pr > A-Sq    <0.005
           Chi-Square            Chi-Sq  3250.43596     18   Pr > Chi-Sq  <0.001

1
Chào mừng đến với trang web. Sức mạnh thực sự có thể là một vấn đề. Bạn có thể đăng kết quả của bạn, để chúng tôi có thể được cụ thể hơn?
StasK

1
Hầu như không thể đánh giá tính chuẩn với nhiều độ chính xác bằng cách nhìn vào biểu đồ hoặc lượng tử. Ba thử nghiệm đầu tiên đo lường độ lệch trong một biểu đồ xác suất (Biểu đồ qq bình thường), vậy biểu đồ tuyến tính đó trông như thế nào?
whuber

Câu trả lời:


13

Kiểm tra định mức là một sự lãng phí thời gian và ví dụ của bạn minh họa tại sao. Với các mẫu nhỏ, kiểm tra tính quy tắc có sức mạnh thấp, do đó, quyết định về việc sử dụng mô hình thống kê nào cần phải dựa trên kiến thức tiên nghiệm . Trong những trường hợp này, việc từ chối null không chứng minh rằng null thậm chí gần đúng ở cấp độ dân số.

Khi bạn có các mẫu lớn, các bài kiểm tra tính quy tắc trở nên mạnh mẽ một cách lố bịch, nhưng chúng không cho bạn biết bất cứ điều gì bạn chưa biết. Không có số lượng thực được phân phối chính xác bình thường. Phân phối bình thường chỉ là một sự trừu tượng hóa toán học, đó là một xấp xỉ đủ tốt trong nhiều trường hợp. Bằng chứng đơn giản nhất về điều này là không có số lượng thực (ít nhất là không có gì tôi có thể nghĩ ra) có thể lấy bất kỳ số thực nào làm giá trị của nó. Chẳng hạn, chỉ có rất nhiều phân tử trong vũ trụ. Chỉ có rất nhiều đô la trong cung tiền. Tốc độ của ánh sáng là hữu hạn. Máy tính chỉ có thể lưu trữ các số có kích thước hữu hạn, vì vậy ngay cả khi có thứ gì đó có sự hỗ trợ của tất cả các số thực, bạn sẽ không thể đo được.

Vấn đề là bạn đã biết dữ liệu của mình không được phân phối chính xác nhưng các kiểm tra tính quy tắc không cho bạn biết gì về việc dữ liệu không bình thường như thế nào. Họ cung cấp cho bạn hoàn toàn không có gợi ý về việc liệu dữ liệu của bạn được xấp xỉ thường được phân phối như vậy mà phương pháp suy luận thống kê giả bình thường sẽ cung cấp câu trả lời chính xác. Trớ trêu thay, các thử nghiệm phổ biến (ví dụ: thử nghiệm T và ANOVA) cho rằng tính quy tắc mạnh hơn so với tính không quy tắc ở các cỡ mẫu lớn.


Tiếp theo câu trả lời của bạn, tôi đã đăng một câu hỏi về điều gì tạo nên một chỉ số tốt về tính phi quy tắc : stats.stackexchange.com/questions/16646/ núi Bạn có suy nghĩ gì không?
Jeromy Anglim

Về mọi thứ trên thế giới đang được lượng tử hóa: dữ liệu rời rạc cũng không thể được phân phối bình thường?
xmjx

Thêm một nhận xét về vấn đề máy tính: xin lưu ý rằng cơ chế thường được sử dụng để lưu trữ số thập phân trong máy tính có độ chi tiết khác nhau cho phạm vi số nhỏ và số lớn. Vì vậy, sự khác biệt tối thiểu giữa các số mà máy tính có thể lưu trữ là nhỏ hơn đối với số nhỏ và lớn hơn đối với số lớn. Đối với máy tính, 100000.1 và 100000.2 có thể giống nhau trong khi 0.1 và 0.2 thì không. (Chỉ là một ví dụ - trong thế giới thực, nó không tệ đến vậy.)
xmjx

@xmjx: Dữ liệu rời rạc có thể được phân phối một cách bình thường, có nghĩa là nó đủ gần cho bất kỳ mục đích thực tế nào. Tuy nhiên, về mặt lý thuyết, bất kỳ phân phối rời rạc nào cũng sẽ thất bại trong một số thử nghiệm về tính quy phạm nếu kích thước mẫu đủ lớn. Phân phối bình thường là liên tục và không có cách nào xung quanh đó.
dsimcha

@dsimcha Nhưng phân phối bình thường chỉ là một hàm mật độ xác suất có thể dự đoán số lượng quan sát trong một thùng nhất định của biến rời rạc. Vì vậy, tôi sẽ hiểu nếu bạn nói "không có biến thực được phân phối chính xác thông thường và đây là lý do tại sao các bài kiểm tra tính chuẩn sẽ thất bại tại một số điểm". Nhưng đối với "dữ liệu rời rạc không thể được phân phối bình thường vì nó không liên tục" Tôi muốn một số tài liệu tham khảo. Tôi thực sự thích thú với những thứ đó. Không muốn bắt đầu một cuộc chiến ở đây.
xmjx

4

Điều này không làm tôi ngạc nhiên --- với cỡ mẫu đủ lớn, mọi thử nghiệm tốt sẽ từ chối giả thuyết khống, trừ khi phân phối tạo dữ liệu thực sự (và chính xác) bình thường.

Với thử nghiệm giả thuyết, người ta thường quan tâm đến việc tìm kiếm một thử nghiệm "mạnh mẽ", đây là một thử nghiệm có thể tìm thấy những sai lệch rất nhỏ so với giả thuyết null, với càng ít dữ liệu càng tốt.

Hãy thử chạy thử nghiệm với một mẫu con có kích thước 20, 50, 100, 200 và xem kích thước mà các thử nghiệm bắt đầu từ chối. Thật dễ dàng để xem liệu biểu đồ có đối xứng và thường có hình chuông hay không, nhưng đuôi của phân phối khó đánh giá bằng mắt hơn. Có lẽ có những ngoại lệ trong dữ liệu đang khiến các bài kiểm tra từ chối? Nếu có, hãy xem điều gì xảy ra khi bạn tỉa chúng ra.


Cảm ơn câu trả lời. Mục đích là kiểm tra xem phần dư có bình thường không. Tôi đoán nhìn vào một âm mưu lượng tử bình thường và xem liệu nó nằm trên y = x là đặt cược tốt nhất?
Robbie

@Robbie Nếu bạn chỉ muốn thử tìm hiểu xem phần dư của bạn có bình thường không, kiểm tra trực quan sẽ ổn. Kiểm tra thống kê phân phối không thực sự cần thiết cho điều đó - như đã lưu ý, nó sẽ nhận được bất kỳ sai lệch nào so với tính quy tắc, ngay cả một điều không thực sự quan trọng.
Fomite

@EpiGrad Tôi không đồng ý. Các thử nghiệm cho tính bình thường có sức mạnh thấp. Xem câu trả lời của tôi ở trên. Mặt khác, chỉnh sửa , hồi quy khá mạnh mẽ đối với tính phi quy tắc, vì vậy tôi đồng ý rằng nếu nó trông bình thường, có lẽ bạn sẽ ổn cho mục đích đó.
David J. Harris

@David J. Harris: "Sức mạnh thấp khét tiếng"? Đối với cỡ mẫu 650? Điều này trái với tất cả những gì tôi đã đọc hoặc trải nghiệm. Bạn có một trích dẫn?
whuber

@ DavidJ.Harris Tôi nghĩ ở cốt lõi, công suất thấp hoặc có ý nghĩa giả do một mẫu lớn, toàn bộ bài tập là không cần thiết để kiểm tra định kỳ về giả định quy tắc.
Fomite

3

Nguyên nhân có thể là do dữ liệu của bạn hơi không bình thường và kích thước mẫu của bạn đủ lớn để tiết lộ điều này.

Nếu phân phối thực sự là bình thường thì nó thường sẽ vượt qua các thử nghiệm này, như trong ví dụ R sau đây, nơi tất cả trừ một trong các thử nghiệm được thông qua.

> require(nortest)
> 
> set.seed(1)
> dat <- rnorm(650,mean=100, sd=5)
> 
> ad.test(dat)

        Anderson-Darling normality test

data:  dat 
A = 0.439, p-value = 0.2924

> cvm.test(dat)

        Cramer-von Mises normality test

data:  dat 
W = 0.0882, p-value = 0.1619

> lillie.test(dat)

        Lilliefors (Kolmogorov-Smirnov) normality test

data:  dat 
D = 0.0334, p-value = 0.08196

> pearson.test(dat)

        Pearson chi-square normality test

data:  dat 
P = 37.96, p-value = 0.035

> sf.test(dat)

        Shapiro-Francia normality test

data:  dat 
W = 0.9978, p-value = 0.5186

> shapiro.test(dat)

        Shapiro-Wilk normality test

data:  dat 
W = 0.9981, p-value = 0.675

Bạn có thể muốn thực hiện một qqplot và nếu điều này đủ gần với một đường thẳng thì bạn có thể quyết định coi nó là đủ gần với sự bình thường cho mục đích của bạn. Nó phụ thuộc vào những mục đích đó là gì.


Các mục đích là để thử nghiệm để xem liệu phần dư có bình thường trong hồi quy tuyến tính hay không.
Robbie

1
@Robbie. Rõ ràng là họ không, nhưng họ có thể đủ gần để điều này không quan trọng. Hãy thử qqplot.
Henry

Kết quả Pearson chi vuông trông giống như dữ liệu thường không được phân phối. Chỉ cần nói. Phải làm gì với kết quả như vậy?
xmjx

@xmjx: Không nhiều - Nếu bạn áp dụng tiêu chí 0,05, thì bạn không nên ngạc nhiên nếu bạn nhận được 5% dương tính giả.
Henry

@Henry tôi biết. Ý tôi là: chọn bất kỳ trả trước kiểm tra tính chuẩn có một số xác suất để chọn một trong đó sẽ nói "đáng kể". Vì vậy, tốt hơn là chạy một pin và sau đó ... những gì? Trung bình cộng? Đi với số phiếu đa số?
xmjx

2

Hãy để tôi không đồng ý với câu trả lời từ dsimcha: "Kiểm tra định mức là lãng phí thời gian và ví dụ của bạn minh họa tại sao.". Kiểm tra định mức không bao giờ là lãng phí thời gian, bạn luôn có thể học hỏi từ dữ liệu của mình. Hơn nữa, có một số điều kiện bạn phải kiểm tra trước khi thực hiện một số phân tích (ví dụ ANOVA, hồi quy, v.v.). Kích thước mẫu tương đối lớn sẽ tốt hơn để được thử nghiệm với cốt truyện (QQplot, biểu đồ). Trong những trường hợp như vậy, trực quan hóa cung cấp nhiều thông tin hơn về hành vi đa phương thức và vân vân.

ANOVA và hồi quy mạnh mẽ đến phi quy tắc khi xử lý các cỡ mẫu lớn nhưng loại dữ liệu chính gây ra vấn đề là các mẫu dữ liệu đa phương thức.

Với kích thước mẫu nhỏ, xét nghiệm Koleimorov-Smirnov là lựa chọn tốt nhất chủ yếu do độ nhạy của nó.


1

Tôi sẽ không đồng ý một chút với các câu trả lời khác được đăng cho đến nay: các bài kiểm tra về tính bình thường này có sức mạnh rất nhỏ, ngay cả với cỡ mẫu tương đối lớn, ít nhất là đối với một số loại sai lệch.

Đây là một ví dụ nhanh. Tôi đã tạo ra một hỗn hợp gồm hai quy tắc có phương tiện được phân tách bằng toàn bộ sd.

set.seed(1)
reps = replicate(
  10000, 
  shapiro.test(c(rnorm(325, mean = 0), rnorm(325, mean = 1)))$p.value
)
mean(reps < .05)
[1] 0.0525

Xem xét rằng nó sẽ "phát hiện" độ lệch so với tính chuẩn 5% ngay cả khi nó thực sự bình thường, điều đó không ấn tượng lắm.

Đây là một ví dụ khác: Tôi thêm nhiễu đồng nhất trên một phạm vi kích thước của hai độ lệch chuẩn. Điều này là khá rõ ràng không bình thường.

set.seed(1)
reps = replicate(
  10000, 
  shapiro.test(rnorm(650) + 2 * runif(650))$p.value
)
mean(reps < .05)
[1] 0.0523

Một lần nữa, sức mạnh cực kỳ thấp cho một sự khởi đầu khá lớn từ sự bình thường.

Bạn có chắc là bạn đang đọc qqplot chính xác? Bạn có thể tải nó lên để chúng tôi có thể nhìn thấy nó?

Mặt khác, chỉnh sửa hồi quy khá mạnh mẽ đối với tính phi quy tắc, vì vậy tôi đồng ý rằng kiểm tra trực quan có thể là đủ cho hầu hết các mục đích.


3
073/2575/25
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.