Giá trị được trang bị so với xác suất cho hồi quy logistic


7

Biến phụ thuộc

Tôi có một giá trị phụ thuộc trong phạm vi [0,1]. Có nghĩa là 0 và 1, và tất cả các giá trị ở giữa được bao gồm. Do đó, đây là một giá trị tỷ lệ, chẳng hạn như tỷ lệ phần trăm đất mà nông dân thụ tinh.

Mô hình

Mô hình tôi hiện đang tập trung vào là một mô hình logistic.

  • Tuy nhiên, là một đầu ra, tôi muốn xem mô hình biến phụ thuộc của tôi được dự đoán như thế nào (để so sánh các giá trị thực với các giá trị ước tính).

Tuy nhiên, hồi quy logistic thường đưa ra như một "xác suất" đầu ra. Kết quả là bây giờ tôi hơi bối rối.

Mô hình của tôi =

out <- glm(cbind(fertilized, total_land-fertilized) ~ X-variables,
       family=binomial(cloglog), data=Alldata)

Để dự đoán tỷ lệ đất được ước tính tôi sử dụng

Alldata$estimated_fertilized<-predict(out,data=newdata,type="response"))

Điều này có đúng không? Hay dòng này cho tôi xác suất thay vì tỷ lệ phần trăm dự đoán? Nếu không đúng, tôi nên làm gì để có được thứ mình muốn?

CẬP NHẬT

Với thực tế là có những câu hỏi về tính chính xác của mô hình đã chọn, tôi cung cấp một số thông tin bổ sung:

Phân phối các biến phụ thuộc (tỷ lệ 0-1, 0 và 1).

Biến phụ thuộc lịch sử


3
Bạn không thực sự mô hình hóa một xác suất nên một mô hình thay thế như hồi quy beta rất đáng để xem xét.
mdewey

2
Bạn cũng có thể quan tâm này Q & A stats.stackexchange.com/questions/239422/... mà phân biệt giữa tỷ lệ tính và tỷ lệ liên tục.
mdewey

2
Bạn có tử số và mẫu số của tỷ lệ?
kjetil b halvorsen

3
Tôi nghĩ rằng tôi đang làm theo tất cả lý luận của bạn và dựa vào đó tôi sẽ nói hồi quy logistic hoàn toàn không áp dụng trong trường hợp của bạn. Không xác suất như là một điều để được mô hình hóa. Bạn muốn mô hình hóa một kết quả chi tiết, không phải có / không và không có xác suất có hoặc không. Đối với loại hồi quy nào là tốt nhất, tôi sẽ nói OLS, beta và bị kiểm duyệt là các ứng cử viên và bạn sẽ nhận được câu trả lời tốt nhất về lựa chọn đó nếu bạn đăng một hình ảnh về phân phối biến phụ thuộc của bạn.
rolando2

3
Vì vậy, hầu hết nông dân không sử dụng bất kỳ loại phân bón nào, một số sử dụng nó ở mọi nơi và một số có tập quán trung gian. Dường như bạn có thể cần phải mô hình hóa điều này theo hai giai đoạn: sử dụng mô hình thứ nhất so với không sử dụng với hồi quy logistic, thứ hai, có điều kiện sử dụng bất kỳ mô hình phân bón nào.
mdewey

Câu trả lời:


1

Trên thực tế, việc sử dụng hồi quy logistic để tóm tắt các tỷ lệ quan sát nằm trong phạm vi bao gồm [0-1] là điều tốt.

Trước đây, các cách tiếp cận như vậy đã bị mất uy tín khi dữ liệu trên thực tế được phân cấp và mục tiêu của phân tích là tóm tắt các mức phơi nhiễm ở cấp độ cá nhân được tổng hợp lên đến cấp độ cụm. Trong trường hợp cụ thể này, không đúng khi áp dụng hồi quy logistic vì sai lầm sinh thái và không sụp đổ của tỷ lệ chênh lệch như một thước đo liên kết.

Phương trình ước lượng hồi quy logistic thích hợp để áp dụng cho bất kỳ phân tích nào trong đó mô hình tuyến tính cho log của giá trị trung bình trừ log của một trừ đi giá trị trung bình là phù hợp (liên kết logit) và khi phương sai của tỷ lệ bằng với tỷ lệ lần trừ đi tỷ lệ (giả định phương sai nhị thức). Hóa ra cái sau là một yêu cầu khá nghiêm ngặt, vì vậy, các nhà phân tích thường sử dụng công cụ ước lượng phương sai linh hoạt hơn như phương trình khả năng chuẩn tinh hoặc phương trình ước lượng tổng quát.

Một vấn đề với hồi quy logistic (và các biến thể của nó) là không rõ bạn sẽ xác nhận mô hình như thế nào. Nếu bạn tóm tắt độ chính xác dự đoán với lỗi bình phương trung bình - một cách tiếp cận hợp lệ vì nhiều lý do - nên sử dụng công cụ ước tính bình phương tối thiểu phi tuyến tính (NLS) cho đường cong logit. NLS sẽ tìm thấy (các) đường cong hình chữ S tối ưu tóm tắt (các) liên kết với các yếu tố dự đoán mô hình bằng cách giảm thiểu tổng các khác biệt bình phương từ bề mặt phản ứng dự đoán. Cách khác, nếu mong muốn là áp dụng một số ngưỡng dựa trên sự kết hợp tuyến tính của các hiệp phương sai để phân loại các tập hợp con của các trường đã vượt quá hoặc được thụ tinh, phân tích phân biệt tuyến tính sẽ cung cấp các phân loại vượt trội. Một mô hình logistic có thể là tối ưu theo một số lượng lớn các số liệu dự đoán.

Vì vậy, cuối cùng, nó không phải là cấu trúc của dữ liệu nên xác định phân tích, mà là câu hỏi mà nhà phân tích đang cố gắng đánh giá.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.