Sử dụng hồi quy logistic cho một biến phụ thuộc liên tục


9

Gần đây tôi đã có một bản sửa đổi cho bài nghiên cứu của mình và sau đây là nhận xét của người đánh giá về bài viết của tôi:

kết quả thu được từ một mô hình không hoàn toàn thuyết phục, đặc biệt là hồi quy tuyến tính thường có thiếu sót trong việc xử lý các ngoại lệ. Tôi đề nghị các tác giả cũng thử hồi quy logistic và so sánh kết quả tương ứng với kết quả hiện tại. Nếu thu được các quan sát tương tự, kết quả sẽ vững chắc hơn.

Nhận xét của người đánh giá có đúng không? Là hồi quy logistic tốt hơn hồi quy tuyến tính nhiều?

Vấn đề là biến phụ thuộc của tôi không phân loại, đó là biến tỷ lệ. Tôi có thể làm gì bây giờ? Phương pháp hồi quy nào khác mà bạn đề xuất để đánh giá mô hình của tôi?

Điểm là biến phụ thuộc trong bảng sau. Lần truy cập gần đây, tần suất, nhiệm kỳ và điểm cuối là các biến độc lập.

nhập mô tả hình ảnh ở đây

Tôi đã rút ra các biến từ một trang web và tôi đưa ra giả thuyết rằng những biến độc lậpảnh hưởng đáng kể trên số điểm . Do đó, tôi đại diện cho các mô hình sau:

nhập mô tả hình ảnh ở đây


Nhân tiện, giá trị của R bình phương cho mô hình tuyến tính này là 0,316! Người đánh giá cũng nhận xét về giá trị này:

thì kết quả không thuyết phục vì không có chỉ số nào về chất lượng của các hệ số đã học. Một R ^ 2 nhỏ không thể biểu thị hiệu suất tốt vì mô hình có thể được trang bị quá mức.

Là 0,316 rất thấp cho R bình phương? Trong các bài viết trước tôi đã thấy các giá trị tương tự rất nhiều.

nhập mô tả hình ảnh ở đây


Đây là một điểm nhỏ, nhưng hiểu cách tính điểm có thể hữu ích trong việc cung cấp câu trả lời tốt. Bạn có thể chỉnh sửa câu hỏi của bạn để thông báo cho chúng tôi về điều đó?
whuber

Tôi chỉnh sửa bài viết của mình. kiến thức thống kê của tôi không tốt. Tôi sẽ rất biết ơn nếu bạn giúp đỡ.
PSS

1
không có ý tưởng nào về việc chạy hồi quy logistic trên biến phụ thuộc liên tục ???
PSS

1
Điểm số có phải là từ 0 đến 100 không? Trong trường hợp đó, bạn có thể chia cho 100 và thực hiện hồi quy logistic cho biến kết quả, giá trị này luôn nằm trong khoảng từ 0 đến 1 ... cảm thấy hơi kỳ quặc khi làm những việc đó và tôi không chắc nó có ý nghĩa như thế nào, nhưng có lẽ đó là những gì người đánh giá đang đề xuất?
Sam Livingstone

2
Không, tỷ lệ thành 0-1 hoặc loại bỏ thông tin có giá trị y phân loại điểm số không phải là giải pháp tốt.
Frank Harrell

Câu trả lời:


7

Mô hình hồi quy logistic tỷ lệ cược tỷ lệ nên hoạt động tốt cho vấn đề này. Để triển khai hiệu quả có thể cho phép hàng ngàn giá trị duy nhất xem hàm trong gói R.Yormrms


Tôi đã cài đặt R và tất cả các gói cần thiết. bạn vui lòng cung cấp một số ví dụ cho chức năng orm? Tôi đã không tìm thấy bằng cách tìm kiếm. Đối với mô hình hồi quy của tôi, mã phải là gì?
PSS

1
Thật đáng để dành thời gian nghiên cứu tài liệu. Xem Bản tin dưới biostat.mc.vanderbilt.edu/C thuyếtBios330 để biết trường hợp nghiên cứu chi tiết với mã - chương về Mô hình hồi quy cho liên tục . Y
Frank Harrell

1

bạn cũng có thể thử các mô hình probit / logit theo thứ tự bằng cách gán các giá trị 1, 2,3 và 4 cho điểm số trong các phần trăm thứ 1, ....., 4 tương ứng.


Biến nào bạn đang đề xuất giảm xuống bốn phần trăm thấp nhất của nó (trong số 100)? Điều này sẽ thực hiện những gì và tại sao?
whuber

-1

Bạn có thể phân đôi (chuyển thành biến nhị phân) điểm số. Nếu điểm từ 0 đến 100 thì bạn có thể gán 0 cho bất kỳ điểm nào nhỏ hơn 50 và 1 nếu không. Tôi chưa bao giờ nghe nói rằng đây là một cách tốt để đối phó với các ngoại lệ. Điều này có thể chỉ che giấu các ngoại lệ vì sẽ không thể phân biệt điểm rất cao hoặc thấp. Điều này không có ý nghĩa lớn đối với tôi nhưng bạn có thể thử nó.

Quan trọng hơn tại sao bạn đăng nhập chuyển đổi tất cả các đồng biến và biến trả lời của bạn? Điều này sẽ ảnh hưởng đến ước tính và của bạn (tôi nghĩ).R 2βR2

Ngoài ra người đánh giá nói nhỏ gợi ý quá mức? Tôi nghĩ rằng quá mức là khi của bạn cao nhưng mô hình của bạn hoạt động kém trên dữ liệu mới (nghĩa là nó che lấp dữ liệu của bạn nhưng không khái quát hóa thành dữ liệu mới). Quá mức có xu hướng xảy ra khi bạn có một vài quan sát mà bạn đang cố gắng dự đoán với một số lượng lớn các tham số. Đây là những gì bạn đang làm trong Mô hình 2 vì bạn có 8 quan sát mà bạn đang cố gắng giải thích với 7 tham số.R 2R2R2

Tôi sẽ không giả vờ rằng tôi biết rất nhiều về số liệu thống kê nhưng dường như đối với tôi, dựa trên ý kiến ​​của anh ấy, người đánh giá này có thể biết thậm chí còn ít hơn.


Cảm ơn rất nhiều cho trả lời của bạn. Bởi vì tất cả các biến bị sai lệch, vì vậy tôi có chúng biến đổi log tự nhiên. Tôi có đúng không Cảm ơn bạn đã làm rõ "quá mức" có nghĩa là gì! Thật ra, tôi không biết quá mức nghĩa là gì. Bây giờ, tôi có thể trả lời người đánh giá và biên tập viên. Nhân tiện, những gì bạn đề nghị cho tôi để đánh giá của tôi vững chắc hơn? phương pháp hồi quy nào bạn nghĩ là tốt hơn?
PSS

6
Đừng phân đôi vì bất kỳ lý do gì. Y
Frank Harrell

Tôi đồng ý với @FrankHarrell rằng việc chọn ngưỡng tùy ý để phân đôi dữ liệu của bạn không có ý nghĩa gì. Đây có phải là toàn bộ dữ liệu của bạn? Nếu bạn có quá ít quan sát, dữ liệu của bạn sẽ không bao giờ được phân phối bình thường! Ngoài ra, bạn cần phải hiểu loại dữ liệu bạn đang xử lý quá. Phạm vi giá trị nào họ có thể nhận, có hợp lý không khi cho rằng chúng nên được phân phối bình thường? Tôi sẽ xem xét đề nghị của Frank về việc sử dụng hồi quy logistic thông thường, nhưng tôi đoán là nó sử dụng thứ tự của điểm số thay vì giá trị của chúng trong hồi quy.
pontikos

@PotentialSellectist, không có vấn đề gì nếu phân phối của bạn bị sai lệch. Trong hồi quy OLS (điển hình), chỉ phân phối các phần dư, xem tại đây: what-if-Residuals-are-normal-phân phối-but-y-is-not . Bạn cũng có thể muốn đọc điều này: dự đoán chuyển đổi-log-chuyển đổi-dự đoán , để hiểu những gì đã xảy ra với mô hình của bạn do kết quả của việc chuyển đổi các dự đoán của bạn.
gung - Phục hồi Monica

@PotentialSellectist làm thế nào bạn nhận được trên? Nếu bạn chỉnh sửa câu hỏi của mình để cung cấp dữ liệu ở định dạng CSV, tôi có thể thử chạy chức năng orm được đề xuất bởi Prof Harrell và chúng tôi có thể phân tích đầu ra. Thật đáng để bạn tìm hiểu những điều cơ bản của R (cách đọc trong tệp và chạy hồi quy).
pontikos

-1

Có thể áp dụng hồi quy logistic ngay cả với một biến phụ thuộc liên tục. Thật ý nghĩa, nếu bạn muốn chắc chắn rằng dự đoán scoreluôn ở bên trong [0, 100](tôi đánh giá từ ảnh chụp màn hình của bạn rằng nó ở thang điểm 100).

Để thực hiện nó, chỉ cần chia số điểm của bạn cho 100 và chạy hồi quy logistic với [0,1]biến mục tiêu dựa trên này, như trong câu hỏi này - ví dụ, bạn có thể làm điều đó Rbằng cách sử dụng

glm(y~x, family="binomial", data=your.dataframe)

Tôi không biết liệu phương pháp này có giúp ích cho các ngoại lệ hay không - nó phụ thuộc vào loại ngoại lệ mà bạn đang mong đợi. Nhưng đôi khi nó cải thiện mức độ phù hợp (thậm chí , nếu biến phụ thuộc của bạn có giới hạn dưới và trên tự nhiên.R2

Đối với câu hỏi thứ hai, có thể là thứ tốt nhất bạn có thể vắt kiệt dữ liệu của mình mà không cần quá nhiều. Nếu bạn xây dựng mô hình của mình cho mục đích suy luận, thấp là hoàn toàn tốt, miễn là các hệ số quan trọng đối với bạn là đáng kể. Nếu bạn muốn kiểm tra xem mô hình có bị quá mức hay không, bạn có thể kiểm tra của nó trên bộ kiểm tra hoặc thậm chí thực hiện xác nhận chéo.R 2 R 2R20.3R2R2

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.