Tầm quan trọng của hệ số hồi quy logistic là gì?


42

Tôi hiện đang đọc một bài báo liên quan đến địa điểm bỏ phiếu và ưu tiên bỏ phiếu trong cuộc bầu cử năm 2000 và 2004. Trong đó, có một biểu đồ hiển thị các hệ số hồi quy logistic. Từ những năm học trở lại và một chút đọc lên, Tôi hiểu hồi quy logistic là một cách mô tả mối quan hệ giữa nhiều biến độc lập và biến phản ứng nhị phân. Điều tôi bối rối là, được đưa ra bảng dưới đây, bởi vì miền Nam có hệ số hồi quy logistic là 903, điều đó có nghĩa là 90,3% người miền Nam bỏ phiếu theo chế độ cộng hòa? Do tính chất hậu cần của số liệu, rằng mối tương quan trực tiếp này không tồn tại. Thay vào đó, tôi giả định rằng bạn chỉ có thể nói rằng miền nam, với 0,903, bỏ phiếu cho đảng Cộng hòa nhiều hơn Núi / đồng bằng, với hồi quy 0,506. Với trường hợp sau là trường hợp, làm thế nào để tôi biết điều gì là quan trọng và điều gì không và có thể ngoại suy một tỷ lệ phiếu bầu cộng hòa với hệ số hồi quy logistic này. Bảng hiển thị hệ số hồi quy logistic

Là một lưu ý phụ, xin vui lòng chỉnh sửa bài viết của tôi nếu bất cứ điều gì được nêu không chính xác


Đây là nhiều hơn một câu hỏi tiếp theo (và tôi có lẽ không nên đăng nó), nhưng bạn đã tìm ra một cách hay để "có thể ngoại suy một tỷ lệ phần trăm" bởi vì đó là khá nhiều những gì tôi đang tìm kiếm.
Stefan Andersson

2
Tôi nghĩ sẽ tốt hơn nếu bạn đặt câu hỏi này thành một câu hỏi độc lập và đăng riêng nó hơn là một câu trả lời ở đây.
Đức hồng y

Nếu bất cứ ai đang băn khoăn về giấy, nó là SC McKee và JM Teigen của Probing màu đỏ và blues: chủ nghĩa địa phương và vị trí cử tri trong cuộc bầu cử tổng thống năm 2000 và 2004 của Mỹ (2009) Chính Trị Địa lý
Alex Nelson

Câu trả lời:


36

Mà tác giả đã buộc một ai đó là chu đáo như bạn có đặt một câu hỏi như thế này là minh họa hấp dẫn của lý do tại sao việc thực hành - vẫn cách quá phổ biến - các nhốt báo cáo kết quả mô hình hồi quy vào một bảng như thế này là rất không thể chấp nhận.

  1. Như bạn đã chỉ ra, bạn có thể cố gắng chuyển đổi hệ số logit thành một số dấu hiệu có ý nghĩa về hiệu ứng được ước tính cho người dự đoán trong câu hỏi nhưng điều đó rất khó hiểu và không truyền đạt thông tin về độ chính xác của dự đoán, điều này thường khá quan trọng trong mô hình hồi quy logistic (đặc biệt là bỏ phiếu).

  2. Ngoài ra, việc sử dụng nhiều dấu sao để báo cáo "mức" có ý nghĩa củng cố quan niệm sai lầm rằng giá trị p là một chỉ số có ý nghĩa về kích thước hiệu ứng ("wow - cái đó có 3 dấu sao !!"); đối với tiếng khóc lớn, từ 10.000 đến 20.000, sự khác biệt hoàn toàn không đáng kể sẽ là "đáng kể" tại p <.001 blah blah.

  3. Hoàn toàn không cần phải làm bí ẩn theo cách này. Mô hình hồi quy logistic là một phương trình có thể được sử dụng (thông qua tính toán xác định hoặc mô phỏng tĩnh tốt hơn) để dự đoán xác suất kết quả có điều kiện trên các giá trị được chỉ định cho các yếu tố dự đoán, có lỗi đo lường. Vì vậy, các nhà nghiên cứu nên báo cáotác động của các yếu tố dự đoán lợi ích là gì đối với xác suất của biến kết quả quan tâm, và CI liên quan, được đo bằng đơn vị tầm quan trọng thực tế có thể dễ dàng nắm bắt được. Để đảm bảo nắm bắt sẵn sàng, kết quả sẽ được hiển thị bằng đồ họa. Ví dụ, ở đây, nhà nghiên cứu có thể báo cáo rằng việc trở thành một người nông thôn trái ngược với cử tri thành thị làm tăng khả năng bỏ phiếu của đảng Cộng hòa, tất cả đều khác, bằng điểm X pct (tôi đoán khoảng 17 vào năm 2000; "chia cho 4" là một heuristic hợp lý) +/- x% ở mức 0,95 độ tin cậy-- nếu đó là điều hữu ích để biết.

  4. Báo cáo về giả R ^ 2 cũng là một dấu hiệu cho thấy người lập mô hình đang tham gia vào nghi thức thống kê thay vì bất kỳ nỗ lực nào để chiếu sáng. Có nhiều cách để tính toán "giả R ^ 2"; người ta có thể phàn nàn rằng cái được sử dụng ở đây không được chỉ định, nhưng tại sao phải bận tâm? Tất cả đều bên cạnh vô nghĩa. Lý do duy nhất bất cứ ai sử dụng giả R ^ 2 là họ hoặc người đánh giá đang tra tấn họ đã học (có thể từ 25 tuổi trở lên) rằng hồi quy tuyến tính OLS là chén thánh thống kê & nghĩ rằng điều duy nhất người ta đang cố gắng tìm ra là "phương sai giải thích." Có rất nhiều cách có thể phòng thủ để đánh giá mức độ phù hợp của mô hình tổng thể phù hợp cho phân tích logistic và tỷ lệ khả năng truyền tải thông tin có ý nghĩa để so sánh các mô hình phản ánh các giả thuyết thay thế. King, G. Làm thế nào để không nói dối với thống kê. Là. J. Pol. Khoa học. 30, 666-687 (1986).

  5. Nếu bạn đọc một bài báo trong đó báo cáo ít nhiều bị giới hạn trong một bảng như thế này thì đừng nhầm lẫn, đừng bị đe dọa, và chắc chắn sẽ không bị ấn tượng; thay vào đó hãy tức giận và nói với nhà nghiên cứu rằng anh ta hoặc cô ta đang làm một công việc tệ hại (đặc biệt nếu anh ta hoặc cô ta đang làm ô nhiễm môi trường trí tuệ địa phương của bạn w / mysticism & awe - thật đáng ngạc nhiên khi nhiều nhà tư tưởng hoàn toàn tầm thường lừa những người thông minh nghĩ rằng họ biết điều gì đó chỉ b / c họ có thể tạo một bảng mà cái sau không thể hiểu được). Để biết thông minh, ôn hòa, giải thích những ý tưởng này, xem King, G., Tomz, M. & Wittenberg., J. Tận dụng tối đa các phân tích thống kê: Cải thiện diễn giải và trình bày . Là. J. Pol. Khoa học. 44, 347-361 (2000); và Gelman, A., Pasarica, C. & Dodhia, R.Hãy thực hành những gì chúng tôi giảng: Biến bảng thành đồ thị . Là. Thống kê 56, 121-130 (2002).


19

plogp/(1p)

x=1/(1+ez)z=logx1xf1(x)=logx1xx0.3log0.3/0.70.85β00.9030.85+0.904=0.05plogp/(1p)f(0.05)1/(1+e0.05)0.510.4311.0511.05/0.43e0.903

0.85+0.37+0.68=+0.20f(0.20)=1/(1+e0.20)=0.55


2
heuristic: chia cho 4 - logit coeff / 4 là khoảng pct-pt diff trong thăm dò. từ 1 đơn vị thay đổi. Điều đó không giống như nói "người w / βsubn charcteristic = z có khả năng x%." Không chỉ (như đã lưu ý) người ta phải thêm βsub0 & trừ khả năng liên quan đến lớp ref. Cũng cần phải tính đến cộng tuyến của người dự đoán. B / c là tương quan phía nam với các yếu tố dự đoán khác, điều đó sẽ không đúng. của repub người miền nam là βsub0 - tỷ lệ cược log được chuyển đổi cho NE cộng với tỷ lệ cược log được chuyển đổi cho phía nam. Tốt hơn nên nói, "tất cả những thứ khác đều bằng nhau, từ phía nam dự đoán x pct thay đổi điểm trong"
dmk38

1
'Tỷ lệ cược thực tế đã tăng từ 0,43 đến 1'. 0,43 đã đến từ nơi đầu tiên?
Monica Heddneck

0.30.3/(10.3)0.43

6

Các hệ số trong hồi quy logistic thể hiện xu hướng cho một khu vực / nhân khẩu học nhất định bỏ phiếu cho đảng Cộng hòa, so với danh mục tham chiếu. Một hệ số dương có nghĩa là khu vực có nhiều khả năng bỏ phiếu của đảng Cộng hòa và ngược lại cho một hệ số âm; giá trị tuyệt đối lớn hơn có nghĩa là xu hướng mạnh hơn giá trị nhỏ hơn.

Các loại tham chiếu là "Đông Bắc" và "cử tri đô thị", vì vậy tất cả các hệ số thể hiện sự tương phản với loại cử tri cụ thể này.

Nói chung, cũng không có hạn chế nào về các hệ số trong hồi quy logistic ở [0, 1], ngay cả ở giá trị tuyệt đối. Lưu ý rằng bài viết Wikipedia có một ví dụ về hồi quy logistic với các hệ số -5 và 2.


5

Bạn cũng hỏi "làm thế nào để tôi biết cái gì là quan trọng và cái gì không." (Tôi cho rằng bạn có ý nghĩa thống kê, vì ý nghĩa thực tế hoặc thực chất là một vấn đề khác.) Các dấu hoa thị trong bảng đề cập đến chú thích: một số hiệu ứng được ghi nhận là có giá trị p nhỏ . Chúng được lấy bằng cách sử dụng phép thử Wald về tầm quan trọng của từng hệ số. Giả sử lấy mẫu ngẫu nhiên, p <0,05 có nghĩa là, nếu không có hiệu ứng như vậy trong dân số lớn hơn, xác suất nhìn thấy một kết nối mạnh như quan sát được, hoặc mạnh hơn, trong một mẫu có kích thước này sẽ nhỏ hơn 0,05 . Bạn sẽ thấy nhiều chủ đề trên trang web này thảo luận về điểm liên quan tinh tế nhưng quan trọng mà p <.05 không có nghĩa là có 0,05 xác suất không có kết nối trong dân số lớn hơn.


5

Hãy để tôi nhấn mạnh tầm quan trọng của những gì rolando2 và dmk38 đều lưu ý: tầm quan trọng thường bị đọc sai và có nguy cơ cao xảy ra với kết quả trình bày dạng bảng đó.

Paul Schrodt gần đây đã đưa ra một mô tả hay về vấn đề này:

Các nhà nghiên cứu thấy rằng gần như không thể tuân thủ việc giải thích chính xác của bài kiểm tra quan trọng. Giá trị p chỉ cho bạn khả năng bạn sẽ nhận được kết quả theo [điều kiện] hoàn toàn không thực tế của giả thuyết null. Đó không phải là những gì bạn muốn biết, bạn thường muốn biết mức độ ảnh hưởng của một biến độc lập, dựa trên dữ liệu. Đó là một câu hỏi Bayes, không phải là một câu hỏi thường gặp. Thay vào đó, chúng ta thấy liên tục sử dụng giá trị p được giải thích như thể nó mang lại sức mạnh liên kết: đây là sự sùng bái huyền bí của các vì sao và giá trị P thấm vào các tạp chí của chúng ta. (Fn) Đây không phải là giá trị p nói , cũng sẽ không bao giờ.

Theo kinh nghiệm của tôi, sai lầm này gần như không thể tránh khỏi: ngay cả những nhà phân tích rất cẩn thận, những người nhận thức đầy đủ về vấn đề sẽ thường chuyển chế độ khi thảo luận bằng lời về kết quả của họ, ngay cả khi họ đã tránh được vấn đề trong một bản trình bày bằng văn bản. Và chúng ta thậm chí không suy đoán về hàng ngàn giờ và gallon mực mà chúng ta đã sử dụng để sửa lỗi này trong các bài báo sau đại học.

(fn) Các chú thích cũng thông báo về vấn đề khác, đề cập bởi dmk38: “[các phổ biến Mystical Cult of the Stars và P-giá trị] thay thế trước đó và không kém phần phổ biến-Cult của R2 cao nhất, phá hủy ... bởi King (1986) .


oh-- Tôi vừa thêm King trích dẫn vào phản hồi đã chỉnh sửa của mình. Bài báo thực sự phá hủy R ^ 2 mania (vẫn là đặc hữu của kinh tế lượng) ngay cả khi thống kê có ý nghĩa - đối với hồi quy OLS. King cũng lưu ý rằng giả R ^ 2 là vô nghĩa được tạo ra để mở rộng sự thiếu suy nghĩ liên quan đến "phương sai giải thích."
dmk38
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.