Theo thứ tự bạn nên làm chẩn đoán hồi quy tuyến tính?


24

Trong phân tích hồi quy tuyến tính, chúng tôi phân tích các ngoại lệ, điều tra tính đa hình, kiểm tra độ không đồng nhất.

Câu hỏi là: Có bất kỳ thứ tự để áp dụng những? Ý tôi là, trước tiên chúng ta phải phân tích các ngoại lệ, và sau đó kiểm tra tính đa hình? Hay ngược lại?

Có bất kỳ quy tắc của ngón tay cái về điều này?


2
Một số quy tắc rất thô sơ: bạn nên điều tra sự cộng tác trước khi thực hiện bất kỳ sự phù hợp nào. Nếu bạn thấy nó có mặt, bạn nên (a) sử dụng phương pháp xử lý cộng tuyến, (b) xóa các tính năng cộng tuyến hoặc (c) chuyển đổi các tính năng của bạn (ví dụ: sử dụng PCA). Một khi bạn đã trang bị một mô hình, bạn có thể tìm kiếm sự không đồng nhất trong phần dư. Nói chung, nếu bạn đang tạo một mô hình dự đoán, bạn không nên loại bỏ các ngoại lệ. Thay vào đó, sử dụng một phương pháp mạnh mẽ với sự hiện diện của các ngoại lệ.
Chris Taylor

1
Làm thế nào để điều tra cộng tác tốt nhất? Nhìn vào các yếu tố ngoài đường chéo của ma trận tương quan của các yếu tố dự đoán?
miura

1
Cách tốt nhất để điều tra cộng tuyến là các chỉ số điều kiện và tỷ lệ phương sai được giải thích bởi chúng. Tương quan cao không phải là điều kiện cần và cũng không phải là điều kiện đủ để cộng tác.
Peter Flom - Tái lập Monica

Câu trả lời:


28

Quá trình này được lặp đi lặp lại, nhưng có một trật tự tự nhiên:

  1. Trước tiên, bạn phải lo lắng về các điều kiện gây ra lỗi số hoàn toàn . Multicollinearity là một trong số đó, bởi vì nó có thể tạo ra các hệ phương trình không ổn định có khả năng dẫn đến câu trả lời không chính xác (đến 16 chữ số thập phân ...) Bất kỳ vấn đề nào ở đây thường có nghĩa là bạn không thể tiếp tục cho đến khi nó được sửa. Đa sắc tố thường được chẩn đoán bằng cách sử dụng các yếu tố lạm phát phương sai và kiểm tra tương tự "ma trận mũ". Kiểm tra bổ sung ở giai đoạn này có thể bao gồm đánh giá ảnh hưởng của bất kỳ giá trị bị thiếu nào trong bộ dữ liệu và xác minh tính nhận dạng của các tham số quan trọng. (Thiếu kết hợp các biến độc lập rời rạc đôi khi có thể gây rắc rối ở đây.)

  2. Tiếp theo bạn cần quan tâm xem liệu đầu ra phản ánh hầu hết dữ liệu hay nhạy cảm với một tập hợp con nhỏ. Trong trường hợp sau, mọi thứ khác mà bạn làm sau đó có thể gây hiểu lầm, vì vậy cần tránh. Các thủ tục bao gồm kiểm tra các ngoại lệ và đòn bẩy . (Một mốc thời gian sử dụng đòn bẩy cao có thể không phải là một ngoại lệ nhưng ngay cả như vậy nó có thể ảnh hưởng quá mức đến tất cả các kết quả.) Nếu tồn tại một sự thay thế mạnh mẽ cho quy trình hồi quy, đây là thời điểm tốt để áp dụng nó: kiểm tra xem nó có tạo ra kết quả tương tự không và sử dụng nó để phát hiện các giá trị bên ngoài.

  3. Cuối cùng, khi đã đạt được một tình huống ổn định về số lượng (vì vậy bạn có thể tin tưởng vào các tính toán) và phản ánh toàn bộ dữ liệu, bạn chuyển sang kiểm tra các giả định thống kê cần thiết để giải thích chính xác đầu ra . Chủ yếu những mối quan tâm này tập trung - theo thứ tự quan trọng - về sự phân phối của phần dư (bao gồm cả tính không đồng nhất, nhưng cũng mở rộng đến tính đối xứng, hình dạng phân phối, tương quan có thể với các giá trị dự đoán hoặc các biến khác và độ tương thích) có thể cần các thuật ngữ tương tác), có biểu thị lại biến phụ thuộc hay không và có thể biểu thị lại các biến độc lập hay không.

Ở bất kỳ giai đoạn nào, nếu cần sửa chữa một cái gì đó thì nên quay lại từ đầu. Lặp lại nhiều lần nếu cần thiết.


2
Tôi thực sự thích sử dụng các chỉ số điều kiện hơn là VIF. Tôi đã làm luận án của tôi về những điều này, một thời gian trở lại.
Peter Flom - Tái lập Monica

1
@Peter Điểm tốt. Tôi cũng thích các chỉ số điều kiện, nhưng đối với tôi, VIF hiện đang rất phổ biến.
whuber

whuber, tôi đã theo dõi ở đây từ bình luận của bạn đầu ngày hôm nay. Tôi đã từng tham khảo ý kiến ​​của một nhà thống kê trong postdoc của tôi về một số mối quan tâm liên quan đến đa cộng đồng. Ông tuyên bố rằng, tùy thuộc vào bản chất của IV trong hồi quy, cộng tuyến có thể được coi là một phần cấu trúc của các hiện tượng được mô hình hóa. Tôi có lẽ đang đọc sai ngôn ngữ chính xác của anh ấy, và tôi sẽ phải tìm kiếm để tìm lại tên anh ấy, nhưng bạn có biết bất kỳ văn bản nào có thể thúc đẩy một lý do sắc thái về tính đa hình dọc theo những dòng này không? Chỉ là một câu hỏi ngẫu nhiên. :)
Alexis

@Alexis Nghe có vẻ như nhà thống kê đó có một khái niệm đa sắc thái và tinh vi về tính đa hình. Tôi không thể nghĩ ra bất kỳ sách giáo khoa nào thể hiện rõ ràng nó.
whuber

Tôi sẽ chỉ phải theo dõi anh ta và hỏi anh ta về nó. :)
Alexis

3

Tôi nghĩ rằng nó phụ thuộc vào tình hình. Nếu bạn không mong đợi bất kỳ vấn đề cụ thể nào, bạn có thể kiểm tra chúng theo bất kỳ thứ tự nào. Nếu bạn mong đợi các ngoại lệ và có thể có lý do để loại bỏ chúng sau khi phát hiện ra chúng thì hãy kiểm tra các ngoại lệ trước. Các vấn đề khác với mô hình có thể thay đổi sau khi các quan sát được loại bỏ. Sau đó, thứ tự giữa tính đa hình và tính không đồng nhất không thành vấn đề. Tôi đồng ý với Chris rằng các ngoại lệ không nên được loại bỏ một cách tùy tiện. Bạn cần phải có một lý do để nghĩ rằng các quan sát là sai.

Tất nhiên, nếu bạn quan sát tính đa hình hoặc không đồng nhất, bạn có thể cần thay đổi cách tiếp cận của mình. Vấn đề đa cộng đồng được quan sát trong ma trận hiệp phương sai, nhưng có các xét nghiệm chẩn đoán cụ thể để phát hiện đa thần kinh và các vấn đề khác như các điểm đòn bẩy xem cuốn sách Hồi quy hồi quy của Belsley, Kuh và Welsch hoặc một trong những cuốn sách hồi quy của Dennis Cook .


9
Michael, trong tương lai, bạn có thể sử dụng các tùy chọn định dạng không? (khóa chính xác để chèn liên kết là ctrl-l, không phải ctrl-c).
dùng603
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.