Giải thích cốt truyện QQ


11

Hãy xem xét các mã và đầu ra sau đây:

  par(mfrow=c(3,2))
  # generate random data from weibull distribution
  x = rweibull(20, 8, 2)
  # Quantile-Quantile Plot for different distributions
  qqPlot(x, "log-normal")
  qqPlot(x, "normal")
  qqPlot(x, "exponential", DB = TRUE)
  qqPlot(x, "cauchy")
  qqPlot(x, "weibull")
  qqPlot(x, "logistic")

nhập mô tả hình ảnh ở đây

Có vẻ như âm mưu QQ cho log-normal gần giống như âm mưu QQ cho weibull. Làm thế nào chúng ta có thể phân biệt chúng? Ngoài ra nếu các điểm nằm trong vùng được xác định bởi hai đường màu đen bên ngoài, điều đó có cho biết rằng chúng tuân theo phân phối đã chỉ định không?


Tôi tin rằng bạn đang sử dụng gói xe hơi , phải không? Nếu vậy, bạn nên bao gồm câu lệnh library(car)trong mã của mình để mọi người dễ theo dõi hơn. Nói chung, bạn cũng có thể muốn đặt hạt giống (ví dụ set.seed(1):) để làm cho ví dụ có thể lặp lại, để bất kỳ ai cũng có thể nhận được chính xác các điểm dữ liệu bạn đã nhận được, mặc dù điều này có thể không quan trọng ở đây.
gung - Phục hồi Monica

2
Điều này sẽ không chạy trên máy tính của tôi như được viết. Ví dụ: qqPlot từ gói xe hơi muốn định mức cho bình thường và lnorm cho log-normal. Tôi đang thiếu gì?
Tom

2
@Tom, mình bị nhầm về gói. Rõ ràng, đó là gói qualityTools . Hơn nữa, ví dụ dường như được lấy từ đây .
gung - Tái lập Monica

Một sự thay thế thú vị là Cullen và Frey đồ thị, xem stats.stackexchange.com/questions/243973/... cho một ví dụ
Kjetil b Halvorsen

Câu trả lời:


12

Có một vài điều cần nói ở đây:

  1. hình dạng của CDF cho log-normal tương tự như hình dạng của CDF của Weibull để khiến chúng khó phân biệt hơn mức độ tương đồng giữa Weibull và những cái khác.
  2. các đường màu đen bên ngoài tạo thành một dải tin cậy . Việc sử dụng dải tin cậy trong suy luận cũng giống như bất kỳ hình thức suy luận thống kê thường xuyên nào khác. Đó là, khi các giá trị nằm trong dải, chúng ta không thể bác bỏ giả thuyết khống rằng phân phối được đặt là chính xác. Điều này không giống như nói rằng chúng ta biết phân phối được đặt là chính xác. (Lưu ý rằng đây là một ví dụ tuyệt vời về những gì tôi đã thảo luận trong câu trả lời khác ở đây về tình huống mà quan điểm của Ngư dân về kiểm tra giả thuyết sẽ thích hợp hơn với Neyman-Pearson.)
  3. N

Có cách nào để kiểm tra phân phối cho kích thước mẫu nhỏ?
proton

trong thực tế, dường như các điểm nằm trong các dải tin cậy cho tất cả các bản phân phối. Vì vậy, chúng ta không thể phân biệt các bản phân phối?
proton

1
n=205%

2
+1 trên cỡ mẫu nhỏ. Sử dụng 300 mẫu sẽ giúp phân biệt nhiều thứ. Proton: Không, bạn thực sự không thể phân biệt phân phối với một mẫu nhỏ. Làm thế nào bạn có thể? Nó giống như cố gắng xác định một khuôn mặt với 20 pixel.
Wayne

3

Có vẻ như âm mưu QQ cho log-normal gần giống như âm mưu QQ cho weibull.

Đúng.

Làm thế nào chúng ta có thể phân biệt chúng?

Ở cỡ mẫu đó, bạn có thể không thể.

Ngoài ra nếu các điểm nằm trong vùng được xác định bởi hai đường màu đen bên ngoài, điều đó có cho biết rằng chúng tuân theo phân phối đã chỉ định không?

Không. Nó chỉ cho biết rằng bạn không thể nói phân phối dữ liệu khác với phân phối đó. Đó là thiếu bằng chứng về sự khác biệt, không phải bằng chứng về sự khác biệt.

Bạn có thể gần như chắc chắn rằng dữ liệu là từ một bản phân phối không phải là bất kỳ dữ liệu nào bạn đã xem xét (tại sao nó lại chính xác từ bất kỳ trong số đó?).


Giống như cụm từ: "Đó là thiếu bằng chứng về sự khác biệt, không phải bằng chứng về sự thiếu khác biệt."
jlandercy
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.