Tôi nghĩ rằng cố gắng nghĩ về điều này như một mô hình tuyến tính tổng quát là quá mức cần thiết. Những gì bạn có là một mô hình hồi quy cũ đơn giản. Cụ thể hơn, vì bạn có một số biến giải thích phân loại và EV liên tục, nhưng không có tương tác giữa chúng, đây cũng có thể được gọi là ANCOVA cổ điển.
Tôi muốn nói rằng # 3 không thực sự là một giả định ở đây mà bạn cần phải lo lắng. Cũng không, đối với vấn đề đó, bạn có cần thực sự lo lắng về # 2. Thay vào đó, tôi sẽ thay thế những điều này bằng hai giả định khác nhau:
2 '. Tính đồng nhất của phương sai
3 '. Định mức của phần dư
Hơn nữa, # 4 là một điều quan trọng để kiểm tra, nhưng tôi thực sự không nghĩ đó là một giả định . Hãy suy nghĩ về cách giả định có thể được kiểm tra.
Độc lập thường được 'kiểm tra' trước tiên bằng cách suy nghĩ về những gì dữ liệu đại diện và cách chúng được thu thập. Ngoài ra, nó có thể được kiểm tra bằng cách sử dụng những thứ như kiểm tra chạy , kiểm tra Durbin-Watson hoặc kiểm tra mô hình tự động tương quan - bạn cũng có thể xem xét tự động một phần . (Lưu ý rằng, những điều này chỉ có thể được đánh giá liên quan đến hiệp phương sai liên tục của bạn.)
Với các biến giải thích chủ yếu là phân loại, tính đồng nhất của phương sai có thể được kiểm tra bằng cách tính toán phương sai ở mỗi cấp độ của các yếu tố của bạn. Sau khi tính toán những điều này, có một số thử nghiệm được sử dụng để kiểm tra xem chúng có giống nhau không, chủ yếu là thử nghiệm của Levene , nhưng cũng là thử nghiệm Brown-Forsyth . Các kiểm tra, hay còn gọi là thử nghiệm Hartley đang không được đề nghị; nếu bạn muốn biết thêm một chút thông tin về điều đó tôi sẽ thảo luận ở đâyFm a x. .
Tính quy phạm của phần dư có thể được đánh giá thông qua một số thử nghiệm, như Shapiro-Wilk , hoặc các thử nghiệm Kolmogorov-Smirnov , nhưng thường được đánh giá trực quan nhất qua âm mưu qq . (Lưu ý rằng giả định này thường là ít quan trọng nhất của tập hợp; nếu nó không được đáp ứng, các ước tính beta của bạn sẽ vẫn không thiên vị , nhưng giá trị p của bạn sẽ không chính xác.)
Có một số cách để đánh giá ảnh hưởng của các quan sát cá nhân của bạn. Có thể nhận được các giá trị số lập chỉ mục này, nhưng cách yêu thích của tôi, nếu bạn có thể làm điều đó, là để xác định dữ liệu của bạn. Nghĩa là, bạn lần lượt thả từng điểm dữ liệu và điều chỉnh lại mô hình của bạn. Sau đó, bạn có thể kiểm tra số lượng betas của bạn nảy xung quanh nếu quan sát đó không phải là một phần của bộ dữ liệu của bạn. Biện pháp này được gọi là dfbeta . Điều này đòi hỏi một chút lập trình, nhưng có những cách tiêu chuẩn mà phần mềm thường có thể tự động tính toán cho bạn. Chúng bao gồm đòn bẩy và khoảng cách của Cook .
Về câu hỏi của bạn như đã nêu ban đầu, nếu bạn muốn biết thêm về các hàm liên kết và mô hình tuyến tính tổng quát, tôi đã thảo luận khá rộng rãi ở đây . Về cơ bản, điều quan trọng nhất cần xem xét để chọn một chức năng liên kết phù hợp là bản chất của phân phối phản hồi của bạn; vì bạn tin rằng là Gaussian, liên kết nhận dạng là phù hợp và bạn chỉ có thể nghĩ về tình huống này bằng cách sử dụng các ý tưởng tiêu chuẩn về mô hình hồi quy. Y
Liên quan đến "thang đo chính xác của các biến giải thích", tôi đưa bạn đến tham khảo các mức đo lường của Steven (nghĩa là phân loại, thứ tự, khoảng thời gian & tỷ lệ). Điều đầu tiên cần nhận ra là các phương pháp hồi quy (bao gồm cả GLiM) không đưa ra các giả định về các biến giải thích, thay vào đó, cách bạn sử dụng các biến giải thích trong mô hình của bạn phản ánh niềm tin của bạn về chúng. Hơn nữa, tôi có xu hướng nghĩ rằng các cấp độ của Steven bị chơi quá sức; Đối với một điều trị lý thuyết hơn về chủ đề đó, xem ở đây .