Định mức của biến phụ thuộc = tính chuẩn của phần dư?


34

Vấn đề này dường như luôn ủng hộ cái đầu xấu xí của nó mọi lúc, và tôi đang cố gắng giải mã nó để hiểu sự thống kê của riêng tôi (và sự tỉnh táo!).

Các giả định của các mô hình tuyến tính nói chung (kiểm tra t, ANOVA, hồi quy, v.v.) bao gồm "giả định về tính quy tắc", nhưng tôi đã thấy điều này hiếm khi được mô tả rõ ràng.

Tôi thường đi qua thống kê giáo trình / hướng dẫn / vv chỉ đơn giản nói rằng "giả định về trạng thái bình thường" áp dụng cho mỗi nhóm (ví dụ, các biến X phân loại), và chúng tôi chúng ta nên xem xét khởi hành từ bình thường cho mỗi nhóm .

Câu hỏi :

  1. giả định có đề cập đến các giá trị của Y hoặc phần của Y không?

  2. cho một cụ thể nhóm , là nó có thể để có một mạnh phân phối không bình thường của Y giá trị (ví dụ, lệch) NHƯNG một xấp xỉ (hoặc ít nhất là bình thường hơn) phân phối của của Y?

    Các nguồn khác mô tả rằng giả định liên quan đến phần dư của mô hình (trong trường hợp có các nhóm, ví dụ: t-tests / ANOVA), và chúng ta nên kiểm tra sự ra đi của tính quy tắc của các phần dư này (nghĩa là chỉ có một âm mưu / thử nghiệm QQ để chạy).

  3. sự quy phạm của phần dư cho mô hình có ngụ ý tính quy phạm của phần dư cho các nhóm không? Nói cách khác, chúng ta có nên kiểm tra phần dư của mô hình (trái với hướng dẫn trong nhiều văn bản) không?

    Để đặt điều này trong một bối cảnh, hãy xem xét ví dụ giả thuyết này:

    • Tôi muốn so sánh chiều cao cây (Y) giữa hai quần thể (X).
    • Trong một quần thể, sự phân bố của Y bị lệch rất mạnh (nghĩa là hầu hết các cây đều ngắn, rất ít chiều cao), trong khi các cây khác hầu như bình thường
    • Chiều cao tổng thể cao hơn trong dân số phân phối bình thường (cho thấy có thể có sự khác biệt 'thực').
    • Chuyển đổi dữ liệu không cải thiện đáng kể sự phân bố của dân số đầu tiên.
  4. Thứ nhất, có hợp lệ để so sánh các nhóm được phân phối chiều cao hoàn toàn khác nhau không?

  5. Làm thế nào để tôi tiếp cận "giả định về tính quy tắc" ở đây? Nhớ lại chiều cao trong một dân số thường không được phân phối. Tôi có kiểm tra phần dư cho cả hai quần thể HOẶC phần dư cho mô hình (kiểm tra t) không?


Vui lòng tham khảo các câu hỏi theo số trong câu trả lời, kinh nghiệm đã cho tôi thấy mọi người bị lạc hoặc bị bỏ rơi dễ dàng (đặc biệt là tôi!). Hãy nhớ rằng tôi không phải là một nhà thống kê; mặc dù tôi có một cách hợp lý khái niệm (tức là, không! kỹ thuật) sự hiểu biết của thống kê.

Tái bút, tôi đã tìm kiếm tài liệu lưu trữ và đọc các chủ đề sau mà không củng cố sự hiểu biết của tôi:


2
" Câu hỏi 1) giả định có đề cập đến các giá trị của Y hoặc phần dư của Y không? " - Nói đúng ra, không , mặc dù thứ hai là thứ bạn kiểm tra . Những gì được giả định là bình thường là các lỗi không quan sát được hoặc tương đương là phân phối có điều kiện của Y ở mỗi tổ hợp các yếu tố dự đoán. Phân phối vô điều kiện của Y không được coi là bình thường.
Glen_b -Reinstate Monica

1
+1 Cảm ơn bạn đã nỗ lực tổ chức và củng cố một số (nhiều) chủ đề trong đó vấn đề này phát sinh; Đó chắc chắn là một Câu hỏi thường gặp.
whuber

Tôi chỉ muốn cảm ơn bạn cho câu hỏi này. Cả hai đối với vấn đề mà nó đang giải quyết và nó được tổ chức và liên kết tốt như thế nào. Tôi biết rằng bạn đã hỏi điều này từ lâu nhưng đây chỉ là một câu hỏi rất hay!
hmmmm

Câu trả lời:


14

Một điểm có thể giúp bạn hiểu:

xaby=xab

Vì phần dư chỉ là giá trị y trừ đi giá trị trung bình ước tính (phần dư được chuẩn hóa cũng được chia cho ước tính sai số chuẩn), nếu giá trị y được phân phối bình thường thì phần dư cũng như vậy và ngược lại. Vì vậy, khi chúng ta nói về lý thuyết hoặc các giả định, chúng ta không nói đến vấn đề gì bởi vì cái này ám chỉ cái kia.

Vì vậy, đối với các câu hỏi này dẫn đến:

  1. vâng, cả hai, một trong hai
  2. Không, (tuy nhiên các giá trị y riêng lẻ sẽ đến từ các quy tắc với các phương tiện khác nhau có thể khiến chúng trông không bình thường nếu được nhóm lại với nhau)
  3. Tính quy phạm của phần dư có nghĩa là tính quy tắc của các nhóm, tuy nhiên, có thể tốt khi kiểm tra phần dư hoặc giá trị y của các nhóm trong một số trường hợp (gộp chung có thể che khuất tính phi quy tắc rõ ràng trong một nhóm) hoặc nhìn chung trong các trường hợp khác (không đủ quan sát mỗi nhóm để xác định, nhưng tất cả cùng nhau bạn có thể nói).
  4. Điều này phụ thuộc vào ý nghĩa của bạn khi so sánh, kích thước mẫu của bạn lớn như thế nào và cảm xúc của bạn về "Xấp xỉ". Giả định về tính quy tắc chỉ được yêu cầu cho các thử nghiệm / khoảng trên kết quả, bạn có thể phù hợp với mô hình và mô tả các ước tính điểm cho dù có tính quy tắc hay không. Định lý giới hạn trung tâm nói rằng nếu kích thước mẫu đủ lớn thì các ước tính sẽ xấp xỉ bình thường ngay cả khi phần dư không.
  5. Nó phụ thuộc vào câu hỏi mà bạn đang cố gắng trả lời và mức độ "gần đúng" mà bạn hài lòng.

Một điểm quan trọng khác để hiểu (nhưng thường bị bó hẹp trong học tập) là có 2 loại dư ở đây: Phần dư lý thuyết là sự khác biệt giữa các giá trị quan sát và mô hình lý thuyết thực và phần dư được quan sát là sự khác biệt giữa các giá trị quan sát và các ước tính từ mô hình hiện đang được trang bị. Chúng tôi giả định rằng phần dư lý thuyết là iid bình thường. Phần dư quan sát được không phải là i, i hoặc phân phối bình thường (nhưng có giá trị trung bình là 0). Tuy nhiên, đối với các mục đích thực tế, phần dư quan sát được ước tính phần dư lý thuyết và do đó vẫn hữu ích cho chẩn đoán.


Để biết thêm thông tin về lỗi và phần dư, tôi nghĩ thật hữu ích khi đọc bài viết này trên wiki en.wikipedia.org/wiki/Errors_and_residuals
Lil'Lobster 20/07/2016

1
yy^

yy^

Trên Q1 (được biết đến trong câu trả lời cho Câu hỏi 2): Rõ ràng đó là phần dư chứ không phải Ys. Khi hiệp phương sai khác nhau giữa các quan sát, bạn có thể dễ dàng có phân phối biên hai phương thức mặc dù phần dư là bình thường. Do đó, người ta không thể chỉ nhìn vào Ys, chỉ nhìn vào phần dư.
Bjorn

@Bjorn, đây là một sự làm rõ tốt. Các biến y là bình thường, có điều kiện trên x, vì vậy các giá trị y thô là hỗn hợp của các quy tắc và một biểu đồ chỉ các giá trị y có thể không hiển thị quy tắc mặc dù chúng phù hợp với giả định là có điều kiện bình thường trên x. Để chẩn đoán, chúng tôi thường sử dụng phần dư (vì phần điều kiện đã bị loại bỏ phần lớn). Giả định về tính quy phạm (có điều kiện) đề cập đến cả phần dư lý thuyết và giá trị y.
Greg Snow

7

Các câu trả lời ngắn:

  1. Không
  2. phụ thuộc, cả hai cách tiếp cận đều có ưu điểm và nhược điểm
  3. tại sao không? Nó có thể có ý nghĩa hơn để so sánh trung bình thay vì phương tiện.
  4. từ những gì bạn đã nói với chúng tôi, giả định về tính quy tắc có thể bị vi phạm

Câu trả lời dài hơn:

Giả định là biến phụ thuộc (y) thường được phân phối nhưng với các phương tiện khác nhau cho các nhóm khác nhau. Kết quả là, nếu bạn vẽ sơ đồ phân phối của y, nó có thể dễ dàng trông rất khác với đường cong thông thường hình chuông tiêu chuẩn của bạn. Phần dư thể hiện sự phân phối của y với những khác biệt về phương tiện "được lọc ra".

Ngoài ra, bạn có thể xem xét phân phối y trong mỗi nhóm một cách riêng biệt. Điều này cũng lọc ra sự khác biệt về phương tiện giữa các nhóm. Ưu điểm là theo cách này bạn cũng có được thông tin về phân phối trong mỗi nhóm, trong trường hợp của bạn có vẻ phù hợp. Nhược điểm là mỗi nhóm chứa ít quan sát hơn so với tập dữ liệu kết hợp mà bạn sẽ nhận được khi xem phần dư. Ngoài ra, bạn sẽ không thể so sánh một cách có ý nghĩa các nhóm nếu bạn có nhiều nhóm, ví dụ: vì bạn đã nhập nhiều biến dự đoán cho mô hình của mình hoặc biến dự báo liên tục (gần đúng) với mô hình của bạn. Vì vậy, nếu mô hình của bạn chỉ bao gồm một biến dự đoán phân loại và số lượng quan sát trong mỗi nhóm đủ lớn, thì việc kiểm tra phân phối y trong mỗi nhóm một cách có ý nghĩa.


7
Nghiêm túc, phần dư chỉ là ước tính của các lỗi hoặc nhiễu không xác định và không thể biết được, do đó, ngay cả khi nguyên tắc là chính xác, bạn không thể có chính xác phần dư bình thường trong thực tế. Quan trọng hơn, tính quy phạm của các lỗi là giả định ít quan trọng nhất trong các phương pháp này!
Nick Cox

@NickCox (+1) đã đồng ý về cả hai tội danh
Maarten Buis

1

YX
XY


eYϵX
YY|XN(Xβ,σ2)
XYY|X


YX

Câu hỏi 3)
Điều quan trọng để sử dụng các mô hình tuyến tính đòi hỏi tính quy tắc là phần dư không bình thường, dù điều này có nằm trong một nhóm hay không, là một chỉ số quan trọng mà mô hình của bạn có thể không phù hợp với dữ liệu của bạn.
Nếu bạn đang làm ANOVA, thì tất nhiên phần dư tổng thể của bạn không phải là bình thường (hay đúng hơn là homoscedastic), điều đó sẽ không có ý nghĩa. Trong một hồi quy mặc dù, tốt hơn là bạn có một mô hình kết thúc với tổng dư bình thường. Nếu không, ước tính khoảng thời gian của bạn và kiểm tra sẽ sai. Đây có thể là trường hợp tự động tương quan nhất định hoặc thiếu thiên vị biến. Nếu mô hình đúng 100% (bao gồm cả phá vỡ cấu trúc và trọng số nếu cần thiết), sẽ không quá xa để giả sử các thuật ngữ lỗi thông thường, thậm chí tập trung vào khoảng 0. Thực tế câu hỏi thường trở thành: Chúng ta có thể thoát khỏi những điều này nếu mẫu có đủ lớn không? Không có câu trả lời dứt khoát, nhưng đối với cách tiếp cận đúng 100% có, tất cả các phần dư sẽ là bình thường.

Câu hỏi 4 & 5)
Nó phụ thuộc vào ý của bạn bằng cách so sánh. Giả định các điều khoản lỗi thông thường, bạn có thể kiểm tra dựa trên giả định của hai phân phối khác nhau. Bạn cũng có thể sử dụng ước tính GLS cho hồi quy để tính các tham số phân phối khác nhau - NẾU bạn có mô hình phù hợp ... và tôi đoán rằng các nhóm của bạn hoạt động như một biến chỉ báo / nhị phân?
Sau đó, có lẽ sẽ rất khó để lý giải rằng việc phân phối số dư sẽ là bình thường - hậu quả là trong khi bạn có thể làm công cụ với dữ liệu của mình, thì nó sẽ không dựa trên OLS thông thường.
Nhưng nó phụ thuộc vào những gì bạn muốn làm với dữ liệu.


Y|X

Tôi nghĩ rằng một cách tiếp cận tốt sẽ là xem xét đại số của OLS thông thường với trọng tâm là các phân phối kết quả.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.