Giả định của mô hình tuyến tính tổng quát


14

Tôi đã thực hiện một mô hình tuyến tính tổng quát với một biến trả lời duy nhất (liên tục / phân phối bình thường) và 4 biến giải thích (3 trong số đó là các yếu tố và thứ tư là một số nguyên). Tôi đã sử dụng phân phối lỗi Gaussian với chức năng liên kết nhận dạng. Tôi hiện đang kiểm tra xem mô hình có thỏa mãn các giả định của mô hình tuyến tính tổng quát không, đó là:

  1. sự độc lập của Y
  2. chức năng liên kết chính xác
  3. thang đo chính xác của các biến giải thích
  4. không có quan sát ảnh hưởng

Câu hỏi của tôi là: làm thế nào tôi có thể kiểm tra xem mô hình có thỏa mãn các giả định này không? Điểm khởi đầu tốt nhất dường như đang vẽ đồ thị cho biến trả lời theo từng biến giải thích. Tuy nhiên, 3 trong số các biến giải thích là phân loại (với các mức 1-4), vậy tôi nên tìm kiếm gì trong các ô?

Ngoài ra, tôi có cần kiểm tra tính đa hình và tương tác giữa các biến giải thích không? Nếu có, làm thế nào để tôi làm điều này với các biến giải thích phân loại?

Câu trả lời:


20

Tôi nghĩ rằng cố gắng nghĩ về điều này như một mô hình tuyến tính tổng quát là quá mức cần thiết. Những gì bạn có là một mô hình hồi quy cũ đơn giản. Cụ thể hơn, vì bạn có một số biến giải thích phân loại và EV liên tục, nhưng không có tương tác giữa chúng, đây cũng có thể được gọi là ANCOVA cổ điển.

Tôi muốn nói rằng # 3 không thực sự là một giả định ở đây mà bạn cần phải lo lắng. Cũng không, đối với vấn đề đó, bạn có cần thực sự lo lắng về # 2. Thay vào đó, tôi sẽ thay thế những điều này bằng hai giả định khác nhau:

2 '. Tính đồng nhất của phương sai
3 '. Định mức của phần dư

Hơn nữa, # 4 là một điều quan trọng để kiểm tra, nhưng tôi thực sự không nghĩ đó là một giả định . Hãy suy nghĩ về cách giả định có thể được kiểm tra.

Độc lập thường được 'kiểm tra' trước tiên bằng cách suy nghĩ về những gì dữ liệu đại diện và cách chúng được thu thập. Ngoài ra, nó có thể được kiểm tra bằng cách sử dụng những thứ như kiểm tra chạy , kiểm tra Durbin-Watson hoặc kiểm tra mô hình tự động tương quan - bạn cũng có thể xem xét tự động một phần . (Lưu ý rằng, những điều này chỉ có thể được đánh giá liên quan đến hiệp phương sai liên tục của bạn.)

Với các biến giải thích chủ yếu là phân loại, tính đồng nhất của phương sai có thể được kiểm tra bằng cách tính toán phương sai ở mỗi cấp độ của các yếu tố của bạn. Sau khi tính toán những điều này, có một số thử nghiệm được sử dụng để kiểm tra xem chúng có giống nhau không, chủ yếu là thử nghiệm của Levene , nhưng cũng là thử nghiệm Brown-Forsyth . Các kiểm tra, hay còn gọi là thử nghiệm Hartley đang không được đề nghị; nếu bạn muốn biết thêm một chút thông tin về điều đó tôi sẽ thảo luận ở đâyFmmộtx. .

Tính quy phạm của phần dư có thể được đánh giá thông qua một số thử nghiệm, như Shapiro-Wilk , hoặc các thử nghiệm Kolmogorov-Smirnov , nhưng thường được đánh giá trực quan nhất qua âm mưu qq . (Lưu ý rằng giả định này thường là ít quan trọng nhất của tập hợp; nếu nó không được đáp ứng, các ước tính beta của bạn sẽ vẫn không thiên vị , nhưng giá trị p của bạn sẽ không chính xác.)

Có một số cách để đánh giá ảnh hưởng của các quan sát cá nhân của bạn. Có thể nhận được các giá trị số lập chỉ mục này, nhưng cách yêu thích của tôi, nếu bạn có thể làm điều đó, là để xác định dữ liệu của bạn. Nghĩa là, bạn lần lượt thả từng điểm dữ liệu và điều chỉnh lại mô hình của bạn. Sau đó, bạn có thể kiểm tra số lượng betas của bạn nảy xung quanh nếu quan sát đó không phải là một phần của bộ dữ liệu của bạn. Biện pháp này được gọi là dfbeta . Điều này đòi hỏi một chút lập trình, nhưng có những cách tiêu chuẩn mà phần mềm thường có thể tự động tính toán cho bạn. Chúng bao gồm đòn bẩykhoảng cách của Cook .

Về câu hỏi của bạn như đã nêu ban đầu, nếu bạn muốn biết thêm về các hàm liên kết và mô hình tuyến tính tổng quát, tôi đã thảo luận khá rộng rãi ở đây . Về cơ bản, điều quan trọng nhất cần xem xét để chọn một chức năng liên kết phù hợp là bản chất của phân phối phản hồi của bạn; vì bạn tin rằng là Gaussian, liên kết nhận dạng là phù hợp và bạn chỉ có thể nghĩ về tình huống này bằng cách sử dụng các ý tưởng tiêu chuẩn về mô hình hồi quy. Y

Liên quan đến "thang đo chính xác của các biến giải thích", tôi đưa bạn đến tham khảo các mức đo lường của Steven (nghĩa là phân loại, thứ tự, khoảng thời gian & tỷ lệ). Điều đầu tiên cần nhận ra là các phương pháp hồi quy (bao gồm cả GLiM) không đưa ra các giả định về các biến giải thích, thay vào đó, cách bạn sử dụng các biến giải thích trong mô hình của bạn phản ánh niềm tin của bạn về chúng. Hơn nữa, tôi có xu hướng nghĩ rằng các cấp độ của Steven bị chơi quá sức; Đối với một điều trị lý thuyết hơn về chủ đề đó, xem ở đây .


1
Vì Op bao gồm một hàm liên kết, tôi nghĩ rằng anh ta thực sự có nghĩa là một mô hình tuyến tính tổng quát trong đó một hàm liên kết được áp dụng cho Y. Ngoài ra, tôi sẽ gọi sự độc lập của Y là một giả định. Giả định tôi nghĩ đúng hơn là các thành phần lỗi trong mô hình là độc lập. Cho rằng tôi nghĩ phần còn lại của những gì Gung đã viết là chính xác.
Michael R. Chernick

@MichaelCécick, tôi đồng ý với bạn. Tôi đã chỉnh sửa câu trả lời của mình một chút để giải quyết những vấn đề này. Hãy cho tôi biết nếu bạn nghĩ rằng nó vẫn cần thêm công việc.
gung - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.