Làm thế nào để kiểm tra xem mô hình hồi quy của tôi có tốt không


10

Một cách để tìm độ chính xác của mô hình hồi quy logistic bằng cách sử dụng 'glm' là tìm biểu đồ AUC. Làm thế nào để kiểm tra tương tự cho mô hình hồi quy được tìm thấy với biến phản ứng liên tục (Family = 'gaussian')?

Những phương pháp nào được sử dụng để kiểm tra mô hình hồi quy của tôi phù hợp với dữ liệu như thế nào?


Bạn có thể muốn xem r-squaredthẻ và goodness-of-fitthẻ ..
Macro

2
Họ "Gaussian" với một liên kết tuyến tính chỉ là hồi quy bình phương nhỏ nhất bình phương (OLS); phương pháp để kiểm tra sự phù hợp như vậy có lẽ được thảo luận trong một ngàn câu hỏi trên trang web này (tôi không phóng đại).
whuber

Câu trả lời:


15

Tôi sẽ đề nghị một tìm kiếm ngắn gọn về " chẩn đoán mô hình hồi quy tuyến tính " khi bắt đầu. Nhưng đây là một số mà tôi muốn đề nghị bạn kiểm tra:

Hãy chắc chắn rằng các giả định được đáp ứng thỏa đáng

  • Sử dụng biểu đồ phân tán hoặc thành phần cộng với biểu đồ dư để kiểm tra mối quan hệ tuyến tính giữa (các) yếu tố dự đoán độc lập và biến phụ thuộc.

  • Soạn một âm mưu với phần dư được chuẩn hóa so với giá trị dự đoán và đảm bảo không có điểm cực trị với phần dư rất cao và sự lan truyền của phần dư tương tự nhau dọc theo giá trị dự đoán, cũng như lan truyền phần lớn trên và dưới mức trung bình của phần dư, số không.

  • Bạn cũng có thể thay đổi trục y thành dư . Âm mưu này giúp xác định phương sai không bằng nhau.2

  • Kiểm tra lại thiết kế nghiên cứu để đảm bảo giả định độc lập là hợp lý.

  • Lấy hệ số lạm phát phương sai (VIF) hoặc thống kê dung sai để kiểm tra cộng tuyến có thể.

Kiểm tra điểm ảnh hưởng tiềm năng

  • Kiểm tra số liệu thống kê như D, DFits hoặc DF Beta của Cook để tìm hiểu xem một điểm dữ liệu nhất định có làm thay đổi mạnh mẽ kết quả hồi quy của bạn hay không. Bạn có thể tìm thêm ở đây .

Kiểm tra sự thay đổi trong thống kê và Điều chỉnhR2R2

  • Là tỷ lệ của tổng hồi quy của bình phương trên tổng tổng bình phương, có thể cho bạn biết có bao nhiêu% biến thiên trong biến phụ thuộc của bạn được mô hình giải thích.R2
  • Có thể sử dụng điều chỉnh để kiểm tra xem tổng số bình phương bổ sung mang lại (các) dự đoán bổ sung của tôi có thực sự xứng đáng với mức độ tự do mà họ sẽ thực hiện hay không.R2

Kiểm tra sự tương tác cần thiết

  • Nếu có một yếu tố dự đoán độc lập chính, trước khi bạn thực hiện bất kỳ giải thích nào về tác động độc lập của nó, hãy kiểm tra xem nó có tương tác với các biến độc lập khác không. Tương tác, nếu không được điều chỉnh, có thể sai lệch ước tính của bạn.

Áp dụng mô hình của bạn cho một tập dữ liệu khác và kiểm tra hiệu suất của nó

  • Bạn cũng có thể áp dụng công thức hồi quy cho các dữ liệu riêng biệt khác và xem nó dự đoán tốt như thế nào. Biểu đồ như biểu đồ phân tán và thống kê như% chênh lệch so với giá trị quan sát có thể đóng vai trò là một khởi đầu tốt.

2
(+1): Câu trả lời rất đầy đủ! Nếu bạn đang sử dụng R, plot.lmcó thể cung cấp cho bạn hầu hết các sơ đồ chẩn đoán đề cập Penguin_Knight.
Zach

4

Tôi muốn xác thực chéo các mô hình hồi quy của mình để xem chúng tổng quát hóa dữ liệu mới tốt như thế nào. Số liệu lựa chọn của tôi có nghĩa là lỗi tuyệt đối trên dữ liệu được xác thực chéo, nhưng lỗi bình phương gốc có nghĩa là phổ biến hơn và không kém phần hữu ích.

Tôi không thấy R2 là một thước đo tốt về mức độ mô hình của bạn phù hợp với dữ liệu đào tạo, vì hầu như mọi số liệu lỗi được tính toán trên dữ liệu đào tạo sẽ có xu hướng phù hợp hơn. Nếu bạn phải tính R2 trên tập huấn luyện, tôi khuyên bạn nên sử dụng R2 đã điều chỉnh .


1

Bạn có thể sử dụng để kiểm tra xem mô hình của bạn phù hợp với dữ liệu đào tạo như thế nào. Điều này sẽ cho bạn biết bao nhiêu phần trăm phương sai trong dữ liệu được giải thích bởi mô hình.R2

Tôi đề nghị sử dụng RMSE (lỗi bình phương trung bình gốc) của các dự đoán của bạn trên tập kiểm tra khi so sánh với giá trị thực tế. Đây là một phương pháp chuẩn báo cáo lỗi dự đoán của một biến liên tục.


1
@Macro Nhưng câu hỏi ban đầu yêu cầu một chỉ số hiệu suất cho Hồi quy OLS với các lỗi gaussian. Ông đang đến từ hồi quy logistic.
Erik

@Erik, cảm ơn, tôi đọc nhầm. Dù sao, liên quan đến phần đầu tiên, tôi không nghĩ , trong sự cô lập, có thể được sử dụng để "kiểm tra xem mô hình hồi quy của tôi có tốt không", để sử dụng các từ của OP. Mô hình của bạn có thể thất bại thảm hại để dự đoán hiệu quả trên phần lớn dữ liệu trong khi vẫn có . Xem ở đây để biết ví dụ - ví dụ (1), hầu như không có sức mạnh dự đoán nhưng vẫn cao. R2R2R2
Macro

@Macro, tôi đồng ý với ý kiến ​​của bạn nhưng đang nhắm đến một lời giải thích đơn giản để chỉ cho OP đi đúng hướng
BGreene

0

Tôi được sử dụng để kiểm tra dạng chức năng của công cụ ước tính tham số của mình bằng cách vẽ sơ đồ không tham số (ví dụ hồi quy hạt nhân) hoặc ước lượng bán tham số và so sánh nó với đường cong phù hợp tham số. Tôi nghĩ rằng đây là bước đầu tiên thường nhanh hơn (và có lẽ sâu sắc hơn) so với bao gồm các điều khoản tương tác hoặc điều khoản đơn hàng cao hơn.

Gói n n cung cấp nhiều hàm không tham số và bán tham số đẹp và Vignette của nó được viết tốt: http://cran.r-project.org/web/packages/np/vignettes/np.pdf

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.