Phiên dịch QQplot - Có bất kỳ quy tắc nào để quyết định cho tính phi quy tắc không?


47

Tôi đã đọc đủ các chủ đề trên QQplots ở đây để hiểu rằng một QQplot có thể có nhiều thông tin hơn các bài kiểm tra quy tắc khác. Tuy nhiên, tôi thiếu kinh nghiệm trong việc diễn giải QQplots. Tôi googled rất nhiều; Tôi đã tìm thấy rất nhiều biểu đồ của QQplots không bình thường, nhưng không có quy tắc rõ ràng nào về cách diễn giải chúng, ngoài những gì nó dường như được so sánh với phân phối biết cộng với "cảm giác ruột".

Tôi muốn biết nếu bạn có (hoặc bạn biết) bất kỳ quy tắc ngón tay cái nào để giúp bạn quyết định cho sự không bình thường.

Câu hỏi này xuất hiện khi tôi thấy hai biểu đồ này: đồ thị 2 đồ thị 1

Tôi hiểu rằng quyết định phi quy phạm phụ thuộc vào dữ liệu và những gì tôi muốn làm với họ; tuy nhiên, câu hỏi của tôi là: nói chung, khi nào các khởi hành được quan sát từ đường thẳng tạo thành đủ bằng chứng để làm cho không hợp lý sự gần đúng của tính chuẩn tắc?

Đối với những gì nó có giá trị, thử nghiệm Shapiro-Wilk đã không bác bỏ giả thuyết về tính không quy tắc trong cả hai trường hợp.


3
các dải tin cậy xung quanh dòng QQ khá tuyệt. Bạn có thể chia sẻ mã R bạn đã sử dụng để có được chúng?
dùng603

7
Đó chỉ là qqPlot () từ {qualityTools} :)
greymatter0

Câu trả lời:


43

Lưu ý rằng Shapiro-Wilk là một bài kiểm tra mạnh mẽ về tính bình thường.

Cách tiếp cận tốt nhất là thực sự có một ý tưởng tốt về mức độ nhạy cảm của bất kỳ thủ tục nào bạn muốn sử dụng là đối với các loại phi quy tắc khác nhau (nó không bình thường đến mức nào để nó ảnh hưởng đến suy luận của bạn nhiều hơn bạn có thể chấp nhận).

Một cách tiếp cận không chính thức để xem xét các ô sẽ là tạo ra một số bộ dữ liệu thực sự bình thường có cùng cỡ mẫu với mẫu bạn có - (ví dụ: 24 trong số chúng). Vẽ dữ liệu thực của bạn trong một lưới các ô như vậy (5x5 trong trường hợp 24 bộ ngẫu nhiên). Nếu nó không đặc biệt trông có vẻ khác thường (nói xấu nhất), thì nó hợp lý với sự bình thường.

nhập mô tả hình ảnh ở đây

Trước mắt tôi, tập dữ liệu "Z" ở trung tâm trông gần ngang tầm với "o" và "v" và thậm chí có thể là "h", trong khi "d" và "f" trông hơi tệ hơn. "Z" là dữ liệu thực. Mặc dù tôi không tin rằng nó thực sự bình thường, nhưng nó không đặc biệt khác thường khi bạn so sánh nó với dữ liệu bình thường.

[Chỉnh sửa: Tôi chỉ thực hiện một cuộc thăm dò ngẫu nhiên - tốt, tôi đã hỏi con gái mình, nhưng tại một thời điểm khá ngẫu nhiên - và sự lựa chọn của cô ấy cho một đường thẳng giống như "d". Vì vậy, 100% những người được khảo sát nghĩ rằng "d" là số lẻ nhất.]

Cách tiếp cận chính thức hơn sẽ là thực hiện thử nghiệm Shapiro-Francia (dựa trên hiệu quả tương quan trong cốt truyện QQ), nhưng (a) nó thậm chí không mạnh bằng thử nghiệm Shapiro Wilk và (b) thử nghiệm chính thức trả lời câu hỏi (đôi khi) mà bạn nên biết câu trả lời dù sao (phân phối dữ liệu của bạn được rút ra từ không chính xác bình thường), thay vì câu hỏi bạn cần trả lời (vấn đề đó tệ đến mức nào?).


Theo yêu cầu, mã cho màn hình trên. Không có gì lạ mắt liên quan:

z = lm(dist~speed,cars)$residual
n = length(z)
xz = cbind(matrix(rnorm(12*n),nr=n),z,matrix(rnorm(12*n),nr=n))
colnames(xz) = c(letters[1:12],"Z",letters[13:24])

opar = par()
par(mfrow=c(5,5));
par(mar=c(0.5,0.5,0.5,0.5))
par(oma=c(1,1,1,1));

ytpos = (apply(xz,2,min)+3*apply(xz,2,max))/4
cn = colnames(xz)

for(i in 1:25) {
  qqnorm(xz[,i],axes=FALSE,ylab= colnames(xz)[i],xlab="",main="")
  qqline(xz[,i],col=2,lty=2)
  box("figure", col="darkgreen")
  text(-1.5,ytpos[i],cn[i])
}

par(opar)

x

(Tôi đã tạo ra các lô như thế này từ giữa những năm 80. Làm thế nào bạn có thể diễn giải các âm mưu nếu bạn không quen với cách chúng hành xử khi các giả định nắm giữ - và khi chúng không hoạt động?)

Xem thêm:

Buja, A., Cook, D. Hofmann, H., Lawrence, M. Lee, E.-K., Swayne, DF và Wickham, H. (2009) Suy luận thống kê để phân tích dữ liệu khám phá và chẩn đoán mô hình Phil. Xuyên. R. Sóc. A 2009 367, 4361-4383 doi: 10.1098 / rsta.2009.0120


8
+1. Tôi thực sự thích ý tưởng so sánh các lô QQ của mẫu của bạn với một số mẫu được tạo ngẫu nhiên!
COOLSerdash

Cảm ơn bạn @Glen_b. Tôi có thể hỏi bạn làm thế nào bạn tạo ra lưới đồ thị?
greymatter0

3
Tôi chỉ phát hiện ra tôi không bao giờ trả lời yêu cầu của bạn, greymatter0. Không thực sự có chỗ, để đặt toàn bộ kịch bản của tôi, nhưng tôi sẽ phác thảo ý chính của nó. Tôi đã chơi với các tùy chọn cốt truyện - opar=par(); par(mfrow=c(5,5)); par(mar=c(0.5,0.5,0.5,0.5)); par(oma=c(1,1,1,1))sau đó trong một vòng lặp itôi đã làm qqnorm(xz[,i],axes=FALSE,ylab= colnames(xz)[i],xlab="",main=""); qqline(xz[,i],col=2,lty=2); box("figure", col="darkgreen")sau đó par(opar)để đặt các tùy chọn trở lại bất cứ thứ gì trước đây. Điều đó bỏ qua một số chi tiết nhưng bạn sẽ có thể quản lý từ đó.
Glen_b

@ greymatter0 ... và bây giờ tôi phát hiện ra mình đã không ping bạn đúng cách khi cuối cùng tôi đã trả lời. Lời xin lỗi của tôi.
Glen_b

Đừng lo lắng Glen_b, cảm ơn bạn rất nhiều vì đã nhớ!
greymatter0

22

Không mâu thuẫn với bất kỳ câu trả lời xuất sắc nào ở đây, tôi có một quy tắc ngón tay cái thường (nhưng không phải luôn luôn) quyết định. (Một bình luận qua trong câu trả lời của @Dante dường như cũng thích hợp.)

Nó đôi khi có vẻ quá rõ ràng để nêu, nhưng bạn đang ở đây.

Tôi rất vui khi gọi một phân phối không bình thường nếu tôi nghĩ rằng tôi có thể cung cấp một mô tả khác rõ ràng phù hợp hơn.

Vì vậy, nếu có độ cong nhỏ và / hoặc không đều trong các đuôi của âm mưu lượng tử lượng tử thông thường, nhưng gần đúng độ thẳng trên biểu đồ lượng tử lượng tử gamma, tôi có thể nói "Điều đó không đặc trưng như bình thường, nó giống như một gamma ".

Không phải ngẫu nhiên mà điều này lặp lại một lập luận chuẩn trong lịch sử và triết học khoa học, không kể đến thực tiễn khoa học nói chung, rằng một giả thuyết được bác bỏ rõ ràng và hiệu quả nhất khi bạn có một lý do tốt hơn để đặt vào vị trí của nó. (Cue: ám chỉ Karl Popper, Thomas S. Kuhn, v.v.)

Đúng là đối với người mới bắt đầu và thực sự đối với mọi người, có một sự chuyển tiếp suôn sẻ giữa "Điều đó là bình thường, ngoại trừ những bất thường nhỏ mà chúng ta luôn mong đợi" và "Điều đó rất khác so với bình thường, ngoại trừ một số tương tự thô mà chúng ta thường gặp ".

Phong bì tự tin (giống như) và nhiều mẫu mô phỏng có thể giúp ích rất nhiều, và tôi sử dụng và giới thiệu cả hai, nhưng điều này cũng có thể hữu ích. (Ngẫu nhiên, so sánh với một danh mục mô phỏng là một phát minh lại gần đây lặp đi lặp lại, nhưng quay trở lại ít nhất là cho đến khi Shewhart vào năm 1931.)

Tôi sẽ lặp lại dòng trên cùng của tôi. Đôi khi không có phân phối tên thương hiệu nào phù hợp cả, và bạn phải tiến về phía trước một cách tốt nhất có thể.


12

Giống như @Glen_b đã nói, bạn có thể so sánh dữ liệu của mình với dữ liệu bạn chắc chắn là bình thường - dữ liệu bạn tự tạo và sau đó dựa vào cảm giác ruột của mình :)

Sau đây là một ví dụ từ sách giáo khoa Thống kê OpenIntro

Chúng ta hãy xem QQ Plot này:

qq1

Nó có bình thường không? Hãy so sánh nó với dữ liệu được phân phối bình thường:

qq2

Dữ liệu này có vẻ tốt hơn dữ liệu của chúng tôi, vì vậy dữ liệu của chúng tôi có vẻ không bình thường. Hãy chắc chắn bằng cách mô phỏng nó nhiều lần và vẽ cạnh nhau

qq3

Vì vậy, cảm giác ruột của chúng ta cho chúng ta biết rằng mẫu không có khả năng được phân phối bình thường.

Đây là mã R để làm điều này

load(url("http://www.openintro.org/stat/data/bdims.RData"))
fdims = subset(bdims, bdims$sex == 0)

qqnorm(fdims$wgt, col=adjustcolor("orange", 0.4), pch=19)
qqline(fdims$wgt)

qqnormsim = function(dat, dim=c(2,2)) {
  par(mfrow=dim)
  qqnorm(dat, col=adjustcolor("orange", 0.4), 
         pch=19, cex=0.7, main="Normal QQ Plot (Data)")
  qqline(dat)
  for (i in 1:(prod(dim) - 1)) {
    simnorm = rnorm(n=length(dat), mean=mean(dat), sd=sd(dat))
    qqnorm(simnorm, col=adjustcolor("orange", 0.4), 
           pch=19, cex=0.7,
           main="Normal QQ Plot (Sim)")
    qqline(simnorm)
  }
  par(mfrow=c(1, 1))
}
qqnormsim(fdims$wgt)

9

H0:F=Normal

Thông thường, các thử nghiệm coi bất kỳ phân phối nào khác là giả thuyết thay thế có công suất thấp khi so sánh với các thử nghiệm với giả thuyết thay thế phù hợp (xem, ví dụ, 12 ).

Có một gói R thú vị với việc thực hiện một số thử nghiệm tính quy phạm không theo tỷ lệ ('nortest', http://cran.r-project.org/web/packages/nortest/index.html). Như đã đề cập trong các bài báo ở trên, thử nghiệm tỷ lệ khả năng, với giả thuyết thay thế phù hợp, mạnh hơn các thử nghiệm này.

Ý tưởng được đề cập bởi @Glen_b về việc so sánh mẫu của bạn với các mẫu ngẫu nhiên từ mô hình (được trang bị) của bạn được đề cập trong tài liệu tham khảo thứ hai của tôi. Họ được gọi là "QQ-Envelopes" hoặc "QQ-Fans". Điều này ngầm đòi hỏi phải có một mô hình để tạo dữ liệu từ đó và do đó, một giả thuyết thay thế.


4

nY


1
+1. Nếu bạn có năm phút @Franck, bạn có thể xem chủ đề này không: stats.meta.stackexchange.com/questions/4743 và cân nhắc ở đó? Đó là về các thẻ của chúng tôi cho logit / probit theo thứ tự / có thứ tự - có cả bó hoặc các thẻ liên quan và một số điểm không nhất quán trong cách sử dụng thẻ [ordinal], vì vậy tôi đề nghị thu dọn các thẻ này. Sẽ thật tuyệt khi biết ý kiến ​​của bạn về cách tốt nhất để tổ chức chúng.
amip nói rằng Phục hồi lại

1
Y
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.