Kiểm tra mức độ phù hợp trong hồi quy Logistic; cái nào 'phù hợp' mà chúng ta muốn kiểm tra?


12

Tôi đang đề cập đến câu hỏi và câu trả lời của nó: Làm thế nào để so sánh khả năng dự đoán (xác suất) của các mô hình được phát triển từ hồi quy logistic? bởi @Clark Chong và câu trả lời / bình luận của @Frank Harrell. và cho câu hỏi bậc tự do của trong thử nghiệm Hosmer-Lemeshowχ2 và ý kiến.

Tôi đã đọc bài báo DW Hosmer, T. Hosmer, S. Le Cessie, S. Lemeshow, "So sánh các bài kiểm tra mức độ phù hợp cho mô hình hồi quy Logistic", Statistics in Medicine, Vol. 16, 965-980 (1997) .

Sau khi đọc, tôi đã bối rối vì câu hỏi mà tôi đề cập đến hỏi một cách rõ ràng về "khả năng dự đoán (xác suất)", theo ý kiến ​​của tôi không giống như những gì các bài kiểm tra mức độ phù hợp trong bài kiểm tra trên giấy nhắm đến:

Như hầu hết chúng ta đều biết, hồi quy logistic giả định một liên kết hình chữ S giữa các biến giải thích và xác suất thành công, dạng hàm cho hình dạng S là

P(y= =1|xTôi)= =11+e-(β0+ΣTôiβTôixTôi)

Không giả vờ rằng không có thiếu sót nào với bài kiểm tra Lemmerow của Lemmer, tôi nghĩ rằng chúng ta phải phân biệt giữa các bài kiểm tra về khả năng dự đoán (a) '(xác suất) ' và (b) ' mức độ phù hợp '.

Mục tiêu của người tạo mẫu là kiểm tra xem xác suất có được dự đoán tốt hay không, trong khi kiểm tra mức độ phù hợp kiểm tra xem hàm hình chữ S ở trên có phải là hàm 'phải' hay không. Chính thức hơn:

  1. H0
  2. H0

Rõ ràng, nếu chức năng trên có dạng chức năng 'đúng' (vì vậy nếu các thử nghiệm kết luận rằng chúng tôi có thể chấp nhận H0

Nhận xét đầu tiên

H0

Câu hỏi đầu tiên

Câu hỏi / nhận xét quan trọng nhất mà tôi có là nếu lòng tốt của phù hợpH0

Câu hỏi thứ hai

Hơn nữa, tôi muốn chỉ ra kết luận của Hosmer et. al; (Tôi trích dẫn từ bản tóm tắt):

'' Một cuộc kiểm tra về hiệu suất của các bài kiểm tra khi mô hình chính xác có thuật ngữ bậc hai nhưng một mô hình chỉ chứa thuật ngữ tuyến tính đã phù hợp cho thấy Pearson chi-vuông, tổng bình phương không trọng số, decile Hosmer-Lemeshow về rủi ro, phép tính tổng bình phương còn lại được làm mịn và kiểm tra điểm số của Stukel, có công suất vượt quá 50% để phát hiện sự khởi hành vừa phải từ tuyến tính khi kích thước mẫu là 100 và có sức mạnh trên 90% đối với các phương án tương tự cho các mẫu có kích thước 500 Tất cả các thử nghiệm không có sức mạnh khi mô hình chính xác có tương tác giữa hiệp phương sai và liên tục nhưng chỉ có mô hình hiệp biến liên tục là phù hợp. Khả năng phát hiện một liên kết được chỉ định không chính xác là kém đối với các mẫu có kích thước 100. Đối với các mẫu có kích thước 500 Stukel ' Kiểm tra điểm số có sức mạnh tốt nhất nhưng nó chỉ vượt quá 50% để phát hiện chức năng liên kết không đối xứng. Sức mạnh của bài kiểm tra tổng bình phương không trọng số để phát hiện hàm liên kết được chỉ định không chính xác ít hơn một chút so với bài kiểm tra điểm của Stukel ''

Tôi có thể kết luận từ bài kiểm tra nào có nhiều sức mạnh hơn không hoặc rằng Lemmer Lem Lemowow có ít sức mạnh hơn (để phát hiện những bất thường cụ thể này)?

Nhận xét thứ hai

H1H1

Câu trả lời:


5

R2

Các thử nghiệm về mức độ phù hợp nhằm mục đích có sức mạnh hợp lý chống lại nhiều phương án khác nhau, thay vì công suất cao đối với một phương án cụ thể; vì vậy mọi người so sánh sức mạnh của các thử nghiệm khác nhau có xu hướng áp dụng cách tiếp cận thực tế khi chọn một vài lựa chọn thay thế được cho là đặc biệt quan tâm đối với người dùng tiềm năng (ví dụ như các trích dẫn thường được trích dẫn của Stephens (1974), "thống kê EDF về mức độ phù hợp & một số so sánh ", JASA, 69 , 347 ). Bạn không thể kết luận rằng một thử nghiệm mạnh hơn thử nghiệm khác so với tất cả các thử nghiệm thay thế có thể bởi vì nó mạnh hơn đối với một số thử nghiệm.


1
Trong một số trường hợp, có thể chỉ ra rằng một thử nghiệm 'mạnh mẽ hơn đồng đều', điều đó có nghĩa là nó mạnh mẽ hơn cho tất cả các lựa chọn thay thế có thể (định lý cfr Karlin / Rubin). Nhưng bạn đã đúng rằng đây chỉ là trong những trường hợp đặc biệt và chắc chắn không có trong thiết lập cho bài kiểm tra Hosmer-Lemeshow.

4
Nói chung, "lòng tốt của sự phù hợp" được IMHO nhấn mạnh quá nhiều. Một thay thế tốt hơn là làm cho mô hình phù hợp lên phía trước. Điều này được thực hiện bằng cách sử dụng các hàm hồi quy để thư giãn các giả định tuyến tính và bao gồm các tương tác sẽ có ý nghĩa.
Frank Harrell

2
@fcoppens: Điểm tốt! Bạn chỉ nhận được các thử nghiệm UMP bằng cách hạn chế nghiêm ngặt các lựa chọn thay thế đang được xem xét đối với các giá trị của tham số vô hướng, và thậm chí không phải lúc nào cũng vậy. Ngay cả khi xem xét liệu một thử nghiệm không được chấp nhận - có ít nhất một thử nghiệm khác có sức mạnh lớn hơn trong tất cả các lựa chọn thay thế - sẽ yêu cầu hạn chế quá nhiều các lựa chọn thay thế cho thử nghiệm GOF cho mục đích chung.
Scortchi - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.