Các vấn đề với việc sử dụng kết quả tỷ lệ phần trăm trong hồi quy tuyến tính là gì?


11

Tôi có một nghiên cứu trong đó nhiều kết quả được biểu thị như tỷ lệ phần trăm và tôi đang sử dụng nhiều hồi quy tuyến tính để khẳng định ảnh hưởng của một số biến phân loại đối với các kết quả này.

Tôi đã tự hỏi, vì hồi quy tuyến tính cho rằng kết quả là phân phối liên tục, có vấn đề phương pháp nào trong việc áp dụng mô hình như vậy cho tỷ lệ phần trăm, bị giới hạn trong khoảng từ 0 đến 100 không?


1
Các tỷ lệ phần trăm này có liên tục (chẳng hạn như tỷ lệ phần trăm của kem trong sữa) hoặc rời rạc (như tỷ lệ nhị thức, một số trong một số loại trong tổng số)?
Glen_b -Reinstate Monica

1
Uhm ... tôi không nhận được sự khác biệt. Cả hai không liên tục? Dù sao, tôi nghĩ rằng mô tả thứ hai tốt hơn dữ liệu của tôi, vì chúng ta đang nói về những người trong tổng số.
Bakaburg

Sự phân bố số lượng chia cho số lượng chắc chắn là rời rạc. Thật vậy, tử số thường được mô hình hóa như một nhị thức, mẫu số được điều hòa trên (được coi là hằng số), vì vậy tỷ lệ này thường được coi là nhị thức tỷ lệ. Tuy nhiên, ngay cả khi mẫu số là một biến ngẫu nhiên, tỷ lệ vẫn sẽ rời rạc vì không gian mẫu của nó có thể đếm được
Glen_b -Reinstate Monica

Câu trả lời:


17

Tôi sẽ giải quyết các vấn đề liên quan đến khả năng rời rạc hoặc liên tục:

  1. Một vấn đề với mô tả về giá trị trung bình

    Bạn có một phản ứng ràng buộc. Nhưng mô hình bạn phù hợp không bị ràng buộc, và do đó có thể nổ xuyên qua giới hạn; một số giá trị được trang bị của bạn có thể là không thể và cuối cùng giá trị dự đoán phải là.

    Mối quan hệ thực sự cuối cùng phải trở nên phẳng hơn so với ở giữa khi nó tiến đến giới hạn, vì vậy nó sẽ được dự kiến ​​sẽ uốn cong trong một số thời trang.

  2. Một vấn đề với mô tả phương sai

    Khi giá trị trung bình tiếp cận giới hạn, phương sai cũng sẽ có xu hướng giảm, những thứ khác cũng bằng nhau. Có ít khoảng trống hơn giữa giá trị trung bình và giới hạn, do đó độ biến thiên tổng thể có xu hướng giảm (nếu không giá trị trung bình sẽ có xu hướng bị kéo ra khỏi giới hạn bởi các điểm nằm ở trung bình xa hơn về phía không gần với giới hạn.

(Thật vậy, nếu tất cả các giá trị dân số trong một số vùng lân cận chính xác ở giới hạn, phương sai sẽ bằng không.)

Một mô hình liên quan đến một ràng buộc như vậy nên xem xét các hiệu ứng như vậy.

Nếu tỷ lệ dành cho biến đếm, mô hình chung cho phân phối tỷ lệ là GLM nhị thức. Có một số tùy chọn cho hình thức mối quan hệ của tỷ lệ trung bình và các yếu tố dự đoán, nhưng lựa chọn phổ biến nhất sẽ là GLM logistic (một số lựa chọn khác được sử dụng phổ biến).

Nếu tỷ lệ là một liên tục (như tỷ lệ kem trong sữa), có một số tùy chọn. Hồi quy Beta dường như là một lựa chọn khá phổ biến. Một lần nữa, nó có thể sử dụng mối quan hệ logistic giữa giá trị trung bình và các yếu tố dự đoán hoặc nó có thể sử dụng một số dạng chức năng khác.

Xem thêm Hồi quy cho một kết quả (tỷ lệ hoặc phân số) trong khoảng từ 0 đến 1 .


1
+1 và tôi đã tự do thêm một liên kết đến những gì có thể được xem là chủ đề "chính chủ" của chúng tôi về chủ đề này (câu trả lời của gung cũng có các tùy chọn hậu cần và beta).
amip nói rằng Phục hồi lại

2
Một đối số chung dễ là nếu giá trị trung bình là 0 chỉ có thể nếu tất cả các giá trị là 0 và tương tự với 1 = 100% và tất cả các giá trị là 1. Vì vậy, phương sai phải là 0 ở các cực trị cho dù tỷ lệ có dựa trên hay không đếm hoặc đo. Mặc dù có thể là tất cả các giá trị khác là một số không đổi, nhưng trong thực tế điều đó rất hiếm. Do đó phương sai sẽ cao nhất đối với một số giá trị trong khoảng từ 0 đến 1.
Nick Cox

bạn có thể cung cấp một số tài liệu tham khảo cho 2 vấn đề được mô tả không?
user1607

3

Điều này hoàn toàn giống với trường hợp khi kết quả nằm trong khoảng từ 0 đến 1 và trường hợp đó thường được xử lý với mô hình tuyến tính tổng quát (GLM) như hồi quy logistic. Có rất nhiều mồi tuyệt vời cho hồi quy logistic (và các GLM khác) trên internet, và cũng có một cuốn sách nổi tiếng của Agresti về chủ đề này.

Hồi quy Beta là một thay thế khả thi nhưng phức tạp hơn. Rất có thể là hồi quy logistic sẽ hoạt động tốt cho ứng dụng của bạn và thường sẽ dễ thực hiện hơn với hầu hết các phần mềm thống kê.

Tại sao không sử dụng hồi quy bình phương tối thiểu bình thường? Trên thực tế mọi người thường làm, đôi khi dưới cái tên "mô hình xác suất tuyến tính" (LPM). Lý do rõ ràng nhất khiến LPM "xấu" là vì không có cách nào dễ dàng buộc kết quả nằm trong một phạm vi nhất định và bạn có thể nhận được các dự đoán trên 1 (hoặc 100% hoặc bất kỳ giới hạn trên hữu hạn nào khác) và dưới 0 (hoặc một số giới hạn dưới khác). Vì lý do tương tự, các dự đoán gần giới hạn trên có xu hướng hệ thống quá cao và các dự đoán gần giới hạn dưới có xu hướng quá thấp. Toán học cơ bản hồi quy tuyến tính giả định rõ ràng rằng các xu hướng như thế này không tồn tại. Thông thường không có lý do tuyệt vời để phù hợp với LPM qua hồi quy logistic.

Bên cạnh đó, hóa ra tất cả các mô hình hồi quy OLS, bao gồm LPM, có thể được định nghĩa là một loại GLM đặc biệt và trong bối cảnh này, LPM có liên quan đến hồi quy logistic.


4
Mặc dù tổng thể phần lớn câu trả lời này có vẻ đáng giá, nhưng nó chứa một số thông tin sai lệch có thể gây nhầm lẫn cho độc giả. Tài khoản hồi quy logistic trong đoạn đầu tiên nghe giống như một mô tả về một phép biến đổi giống như log của biến phụ thuộc theo sau là hồi quy tuyến tính: nó không phải là hồi quy logistic. Việc giải thích các hệ số cũng không hoàn toàn đúng. Một vấn đề quan trọng hơn với "LPM" là khi dữ liệu ở gần cực trị, chúng có khả năng thể hiện sự phân phối không đối xứng của phần dư, đây là một vi phạm quan trọng đối với giả định hồi quy iid.
whuber

Tôi không nghĩ rằng nó đáng để đi vào tỷ lệ cược và như vậy. Tôi sẽ loại bỏ những thứ đó ra và để OP đọc nó sau đó. Cũng là điểm tốt về phần dư.
Shadowtalker

(+1) Cảm ơn bạn đã phản hồi mang tính xây dựng của bạn!
whuber

2

Có thể đáng để điều tra hồi quy beta (mà tôi hiểu là có gói R), có vẻ phù hợp với các vấn đề như vậy.

http://www.jstatsoft.org/v34/i02/apers


7
Bạn trả lời sẽ tốt hơn nữa nếu bạn nhấn vào một số lý do chính tại sao hồi quy tuyến tính bị ảnh hưởng khi kết quả là một tỷ lệ phần trăm.
Alexis
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.