Tại sao một số người kiểm tra các giả định mô hình giống như hồi quy trên dữ liệu thô của họ và những người khác kiểm tra chúng trên phần dư?


12

Tôi là một sinh viên tiến sĩ về tâm lý học thực nghiệm và tôi cố gắng cải thiện các kỹ năng và kiến ​​thức về cách phân tích dữ liệu của mình.

Cho đến năm thứ 5 ngành Tâm lý học, tôi đã nghĩ rằng các mô hình giống như hồi quy (ví dụ: ANOVA) đảm nhận những điều sau đây:

  • tính quy phạm của dữ liệu
  • phương sai đồng nhất cho dữ liệu và như vậy

Các khóa học đại học của tôi khiến tôi tin rằng các giả định là về dữ liệu. Tuy nhiên, vào năm thứ 5 của tôi, một số giáo viên hướng dẫn của tôi đã nhấn mạnh thực tế rằng các giả định là về lỗi (ước tính bằng số dư) chứ không phải dữ liệu thô.

Gần đây tôi đã nói về câu hỏi giả định với một số đồng nghiệp của tôi, những người cũng thừa nhận rằng họ đã phát hiện ra tầm quan trọng của việc kiểm tra các giả định chỉ còn lại trong những năm cuối đại học.

Nếu tôi hiểu rõ, các mô hình giống như hồi quy sẽ đưa ra các giả định về lỗi. Vì vậy, nó có ý nghĩa để kiểm tra các giả định trên phần dư. Nếu vậy, tại sao một số người kiểm tra các giả định về dữ liệu thô? Có phải bởi vì quy trình kiểm tra như vậy gần đúng với những gì chúng ta sẽ có được bằng cách kiểm tra phần dư?

Tôi sẽ rất xen vào một cuộc tranh luận về vấn đề này với một số người có kiến ​​thức chính xác hơn các đồng nghiệp của tôi và tôi. Tôi cảm ơn bạn trước câu trả lời của bạn.

Câu trả lời:


13

Về cơ bản, bạn đang đi đúng hướng. Bạn sẽ tìm thấy một cuộc thảo luận về khía cạnh của tính quy phạm trong Định mức của biến phụ thuộc = tính quy tắc của phần dư?

Một số giả định của mô hình tuyến tính cổ điển thực sự là về các lỗi (sử dụng phần dư làm hiện thực hóa chúng):

  • Có phải họ không quan tâm? (Có liên quan đến suy luận và sự tối ưu của các công cụ ước tính OLS)
  • Họ có phương sai bằng nhau không? (Có liên quan đến suy luận và sự tối ưu của các công cụ ước tính OLS)
  • Có phải họ tập trung vào khoảng 0? (Giả định chính để có được các ước tính và dự đoán không thiên vị)
  • Nếu mẫu rất nhỏ: chúng có bình thường hoặc ít nhất là phân bố đối xứng không? (Có liên quan để suy luận)

Các điều kiện khác là về "dữ liệu thô":

  • Không có tổng số ngoại lệ trong hồi quy? (Quan sát đòn bẩy cao có thể phá hủy toàn bộ mô hình)
  • Không có đa hình hoàn hảo? (Sẽ gây ra sự cố tính toán, ít nhất là trong một số gói phần mềm)

Bây giờ, giáo viên đại học của bạn cũng có thể đúng:

  • Có thể bạn đang tập trung vào các bài kiểm tra đơn biến như bài kiểm tra một mẫu. Ở đó, các giả định là về dữ liệu thô.
  • R2
  • Làm thế nào bạn sẽ kiểm tra homoscedasticity, vv dựa trên dữ liệu thô? Có thể bạn đã hiểu lầm anh ấy hoặc cô ấy.

Ok cảm ơn bạn rất nhiều vì câu trả lời của bạn và cho các liên kết rất hữu ích. Một số đồng nghiệp của tôi và tôi tin rằng gần đây rằng dữ liệu thô nên có phương sai bằng nhau. Như bạn đã nói, chúng tôi có thể bỏ lỡ điều gì đó trong các khóa học của chúng tôi. Trong một số cuốn sách chúng ta có thể đọc như sau:
Psychokwak

"Hầu hết các quy trình thống kê phổ biến đưa ra hai giả định có liên quan đến chủ đề này: (a) một giả định rằng các biến (hoặc thuật ngữ lỗi của chúng, về mặt kỹ thuật hơn) thường được phân phối và (b) một giả định về sự bình đẳng của phương sai (tính đồng nhất hoặc tính đồng nhất của phương sai), có nghĩa là phương sai của biến không đổi trong phạm vi quan sát của một số biến khác. " Điều đó có nghĩa là khi một người nói về "biến", anh ta hoặc cô ta nói một cách có hệ thống về "các điều khoản lỗi của họ"? Nếu vậy tôi ổn với điều đó nhưng không đề cập rõ ràng thì nó không rõ ràng (ít nhất là đối với tôi).
Psychokwak

Cuối cùng, tôi có một câu hỏi cuối cùng về câu trả lời của bạn. Nếu thử nghiệm t và ANOVA là các trường hợp cụ thể của hồi quy, tại sao các giả định là về dữ liệu trong thử nghiệm t một mẫu? Cảm ơn một lần nữa cho câu trả lời hữu ích của bạn.
Psychokwak

1
Để trả lời nhận xét cuối cùng của bạn: Bài kiểm tra một mẫu cũng có thể được xem như một trường hợp hồi quy đặc biệt. Mô hình đơn giản chỉ bao gồm phần chặn (= trung bình) và thuật ngữ lỗi, tức là phản hồi là lỗi dịch chuyển. Vì các ca làm việc không liên quan đến bất kỳ giả định nào, nên nó tương đương với việc nói về dữ liệu hoặc số dư.
Michael M

4

Tôi thấy sự khác biệt giữa phần dư và dữ liệu thô không có ích vì cả hai đều đề cập nhiều hơn đến mẫu thực tế của bạn chứ không phải phân phối dân số cơ bản. Tốt hơn nên nghĩ về một số yêu cầu là "yêu cầu trong nhóm" và những yêu cầu khác "giữa các giả định nhóm".

Ví dụ, sự đồng nhất phương sai là một "giả định giữa các nhóm" vì nó nói rằng phương sai trong nhóm là giống nhau cho tất cả các nhóm.

Bình thường là một giả định "trong nhóm" đòi hỏi rằng trong mỗi nhóm y được phân phối bình thường.

Lưu ý rằng có sự bình thường trên toàn bộ y thô của bạn thường có nghĩa là bạn không có tác dụng - hãy nhìn vào sự phân bố giới tính mà không phân biệt giữa nữ và nam. Nó sẽ không được phân phối bình thường, vì hiệu ứng giới mạnh mẽ. Nhưng trong mỗi giới tính, nó giữ khá tốt.


1
Cảm ơn câu trả lời của bạn quá. Đó là một cách thú vị để xem câu hỏi. Tôi chưa bao giờ nghĩ về tính quy tắc theo cách như vậy (nghĩa là "có sự bình thường trên [toàn bộ] toàn bộ y thường có nghĩa là [chúng tôi] không có hiệu lực").
Psychokwak
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.