Tôi nên kiểm tra tính quy phạm: dữ liệu thô hoặc số dư?


27

Tôi đã học được rằng tôi phải kiểm tra tính thông thường không phải trên dữ liệu thô mà là phần dư của chúng. Tôi có nên tính toán số dư và sau đó làm bài kiểm tra W của Shapiro tầm Wilk không?

Là số dư được tính là: ?Ximean

Xin vui lòng xem câu hỏi trước cho dữ liệu của tôi và thiết kế.


Bạn đang làm điều này bằng phần mềm (và nếu vậy phần mềm nào) hoặc bạn đang cố gắng thực hiện các phép tính bằng tay?
Chris Simokat

@Chris Simokat: Tôi đang cố gắng làm điều này với R và Statistica ...
stan

3
Câu hỏi này có thể được quan tâm: what-if-Residuals-are-normal-phân phối-but-y-is-not ; nó cũng bao gồm vấn đề liệu tính quy phạm được yêu cầu của dữ liệu thô hay phần dư.
gung - Phục hồi Monica

1
Xin lỗi, tôi không đủ hiểu biết về w / SAS để biết cách làm cho nó tự động làm điều này trong các tình huống khác nhau. Tuy nhiên, khi bạn chạy hồi quy, bạn sẽ có thể lưu phần dư vào bộ dữ liệu đầu ra, và sau đó có thể tạo một biểu đồ qq.
gung - Tái lập Monica

1
Thông tin tốt của Karen Grace-Martin: cái nàycái này
stan

Câu trả lời:


37

Tại sao bạn phải kiểm tra tính bình thường?

Giả định tiêu chuẩn trong hồi quy tuyến tính là phần dư lý thuyết là độc lập và phân phối bình thường. Phần dư quan sát được là ước tính của phần dư lý thuyết, nhưng không độc lập (có các biến đổi trên phần dư loại bỏ một số phần phụ thuộc, nhưng vẫn chỉ đưa ra xấp xỉ phần dư thực). Vì vậy, một thử nghiệm trên phần dư quan sát không đảm bảo rằng phần dư lý thuyết phù hợp.

Nếu phần dư lý thuyết không được phân phối chính xác thông thường, nhưng cỡ mẫu đủ lớn thì Định lý giới hạn trung tâm nói rằng suy luận thông thường (các phép thử và khoảng tin cậy, nhưng không nhất thiết là các khoảng dự đoán) dựa trên giả định về tính chuẩn .

Cũng lưu ý rằng các bài kiểm tra về tính quy tắc là các bài kiểm tra loại trừ, chúng có thể cho bạn biết rằng dữ liệu không có khả năng đến từ một bản phân phối bình thường. Nhưng nếu thử nghiệm không đáng kể, điều đó không có nghĩa là dữ liệu đến từ phân phối bình thường, điều đó cũng có nghĩa là bạn không có đủ sức mạnh để thấy sự khác biệt. Kích thước mẫu lớn hơn cung cấp nhiều năng lượng hơn để phát hiện tính phi quy tắc, nhưng các mẫu lớn hơn và CLT có nghĩa là tính phi quy tắc là ít quan trọng nhất. Vì vậy, đối với các cỡ mẫu nhỏ, giả định về tính chuẩn là quan trọng nhưng các phép thử là vô nghĩa, đối với các cỡ mẫu lớn, các phép thử có thể chính xác hơn, nhưng câu hỏi về tính chuẩn tắc chính xác trở nên vô nghĩa.

Vì vậy, kết hợp tất cả những điều trên, điều quan trọng hơn một bài kiểm tra về tính quy phạm chính xác là sự hiểu biết về khoa học đằng sau dữ liệu để xem liệu dân số có đủ gần với bình thường hay không. Các biểu đồ như qqplots có thể là chẩn đoán tốt, nhưng cũng cần có sự hiểu biết về khoa học. Nếu có lo ngại rằng có quá nhiều sai lệch hoặc tiềm năng cho các ngoại lệ, thì các phương pháp không tham số có sẵn mà không yêu cầu giả định quy tắc.


6
Để trả lời câu hỏi trên dòng đầu tiên: Tính quy tắc gần đúng là rất quan trọng để áp dụng các thử nghiệm F trong ANOVA và để tạo giới hạn độ tin cậy xung quanh phương sai. (+1) cho những ý tưởng hay.
whuber

4
@whuber, có tính quy phạm gần đúng là quan trọng, nhưng các bài kiểm tra kiểm tra tính chính xác, không gần đúng. Và đối với các cỡ mẫu lớn, gần đúng không cần phải rất gần (trong đó các thử nghiệm có khả năng từ chối cao nhất). Một âm mưu và kiến ​​thức tốt về khoa học tạo ra dữ liệu hữu ích hơn nhiều so với một bài kiểm tra chính quy về tính quy phạm nếu bạn biện minh cho việc sử dụng các bài kiểm tra F (hoặc suy luận dựa trên bình thường khác).
Greg Snow

Greg, OK Tôi thực hiện phân phối phù hợp và xem dữ liệu của tôi là từ, giả sử, phân phối Beta hoặc Gamma và tôi nên làm gì sau đó? ANOVA giả định định luật Gaussian?
stan

2
(+1) Điều này diễn ra tốt đẹp trừ khi kết thúc. Bạn không phải lựa chọn giữa (a) hồi quy dựa trên giả định quy tắc và (b) quy trình không tham số. Các biến đổi trước khi hồi quy và / hoặc mô hình tuyến tính tổng quát chỉ là hai lựa chọn thay thế chính. Tôi nhận ra rằng bạn không cố gắng tóm tắt tất cả về mô hình thống kê, nhưng phần cuối cùng có thể được khuếch đại một chút.
Nick Cox

Vì vậy, cuối cùng, trong hồi quy tuyến tính, chúng ta nên kiểm tra tính quy phạm của dữ liệu thô hoặc tính chuẩn của phần dư?
vasili111

7

Asuumptions Gaussian đề cập đến phần dư từ mô hình. Không có giả định cần thiết về dữ liệu gốc. Như một trường hợp phân phối doanh số bán bia hàng ngày nhập mô tả hình ảnh ở đây. Sau khi một mô hình hợp lý nắm bắt được các hiệu ứng ngày, tuần lễ / sự kiện, thay đổi mức độ / xu hướng thời gian chúng ta nhận đượcnhập mô tả hình ảnh ở đây


Cảm ơn vì đã trả lời. Bạn muốn nói rằng chúng ta có thể chuyển đổi dữ liệu của mình sang phân phối Gaussian ...?
stan

3
Stan, vai trò của mô hình hóa là làm chính xác điều đó để có thể suy luận và đưa ra giả thuyết.
IrishStat

6

Trước tiên, bạn có thể "cầu mắt" bằng cách sử dụng cốt truyện QQ để hiểu tổng quát ở đây là cách tạo một cái trong R.

Theo hướng dẫn sử dụng R, bạn có thể đưa vectơ dữ liệu của mình trực tiếp vào hàm shapiro.test ().

Nếu bạn muốn tự tính toán số dư thì mỗi phần dư được tính theo cách đó qua tập hợp các quan sát của bạn. Bạn có thể xem thêm về nó ở đây .


Vì vậy, theo như tôi hiểu các phương pháp cho Normality thực sự kiểm tra tính quy phạm của phần dư của dữ liệu thô của chúng tôi. Họ làm điều đó tự động và chúng tôi không nên tính toán số dư và kiểm tra chúng. Và trong lời nói hàng ngày, chúng tôi thường chuyển sang "dữ liệu của tôi thường được phân phối" giả sử phần dư của dữ liệu của tôi là "bình thường". Xin vui lòng, sửa cho tôi.
stan

6
Tôi không đồng ý với điểm cuối cùng của bạn. Những người nói rằng dữ liệu của tôi thường được phân phối thường không đề cập đến phần dư. Tôi nghĩ mọi người nói rằng vì họ nghĩ mọi quy trình thống kê đều yêu cầu tất cả dữ liệu là bình thường.
Glen

@Glen thẳng thắn nói rằng tôi (giả dối) nghĩ giống nhau cho đến nay ... Tôi không thể hiểu (đây là rắc rối của tôi) nếu tôi có gamma hoặc beta hoặc bất kỳ dữ liệu phân tán nào tôi nên thống kê cho chúng giống như bình thường phân phối mặc dù phân phối thật / tự nhiên của họ? Và thực tế phân phối chỉ để chỉ? Tôi chỉ biết phân phối Gaussian trước trang web này ...
stan
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.