Hồi quy logistic và điểm ảnh hưởng


11

Chúng tôi có dữ liệu với kết quả nhị phân và một số đồng biến. Tôi đã sử dụng hồi quy logistic để mô hình hóa dữ liệu. Chỉ cần một phân tích đơn giản, không có gì bất thường. Đầu ra cuối cùng được cho là một đường cong phản ứng liều trong đó chúng tôi chỉ ra cách xác suất thay đổi cho một hiệp phương cụ thể. Một cái gì đó như thế này:

nhập mô tả hình ảnh ở đây

Chúng tôi đã nhận được một số lời chỉ trích từ một nhà phê bình nội bộ (không phải là một nhà thống kê thuần túy) vì đã chọn hồi quy logistic. Hồi quy logistic giả định (hoặc xác định) rằng điểm uốn của đường cong hình chữ S trên thang xác suất là xác suất 0,5. Ông lập luận rằng sẽ không có lý do nào để cho rằng điểm uốn thực sự có xác suất 0,5 và chúng ta nên chọn một mô hình hồi quy khác cho phép điểm uốn thay đổi sao cho vị trí thực tế được điều khiển dữ liệu.

Lúc đầu, tôi đã mất cảnh giác bởi lập luận của anh ấy, vì tôi chưa bao giờ nghĩ về điểm này. Tôi không có bất kỳ lý lẽ nào về lý do tại sao nó sẽ hợp lý khi cho rằng điểm uốn là 0,5. Sau khi thực hiện một số nghiên cứu, tôi vẫn chưa có câu trả lời cho câu hỏi này.

Tôi đã tìm thấy hồi quy logistic 5 tham số, trong đó điểm uốn là một tham số bổ sung, nhưng dường như mô hình hồi quy này thường được sử dụng khi tạo ra các đường cong phản ứng liều với kết quả liên tục. Tôi không chắc chắn nếu và làm thế nào nó có thể được mở rộng cho các biến phản ứng nhị phân.

Tôi đoán câu hỏi chính của tôi là tại sao hoặc khi nào thì ổn khi cho rằng điểm uốn của hồi quy logistic là 0,5? Nó thậm chí còn quan trọng? Tôi chưa bao giờ thấy bất kỳ ai phù hợp với mô hình hồi quy logistic và thảo luận rõ ràng về vấn đề của điểm uốn. Có những lựa chọn thay thế cho việc tạo đường cong phản ứng liều trong đó điểm uốn không nhất thiết phải ở mức 0,5?

Để hoàn thiện, mã R để tạo hình trên:

dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")

Chỉnh sửa 1:

Chỉ cần thêm vào những gì Scortchi đã nói trong một trong những bình luận: Người đánh giá thực sự đã lập luận rằng về mặt sinh học, nhiều khả năng sự thay đổi độ cong xảy ra sớm hơn 0,5. Do đó, sức đề kháng của anh ta chống lại giả định rằng điểm uốn là 0,5.

Chỉnh sửa 2:

Như một phản ứng với bình luận của Frank Harrell:

Ví dụ, tôi đã sửa đổi mô hình của mình ở trên để bao gồm một thuật ngữ bậc hai và một khối trong gre(đó là "liều" trong ví dụ này).

logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+  gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")

nhập mô tả hình ảnh ở đây

Mặc dù thực tế có lẽ không có ý nghĩa khi thêm một bậc hai và một grethuật ngữ bậc ba trong trường hợp này, chúng tôi thấy rằng hình thức của đường cong phản ứng liều đã thay đổi. Thật vậy, bây giờ chúng ta có hai điểm uốn ở khoảng 0,25 và gần 0,7.


2
Có phải điều đó không giống như yêu cầu điều tra các mối quan hệ phi tuyến tính của các yếu tố dự đoán với tỷ lệ phản hồi log-log?
Scortchi - Phục hồi Monica

Câu trả lời:


8

Do @scortchi cảm động, người đánh giá đã vận hành theo ấn tượng sai lầm rằng không thể mô hình hóa các hiệu ứng phi tuyến của các yếu tố dự đoán trên thang đo logit trong bối cảnh hồi quy logistic. Mô hình ban đầu đã nhanh chóng giả định tuyến tính của tất cả các yếu tố dự đoán. Bằng cách nới lỏng giả định tuyến tính, ví dụ sử dụng các spline khối bị hạn chế (spline tự nhiên), toàn bộ hình dạng của đường cong là linh hoạt và điểm uốn không còn là vấn đề nữa. Nếu có một yếu tố dự đoán duy nhất và nó đã được mở rộng bằng cách sử dụng một spline hồi quy, người ta có thể nói rằng mô hình logistic chỉ đưa ra các giả định về độ trơn tru và tính độc lập của các quan sát.


Tôi phải thừa nhận rằng tôi không quen lắm với hồi quy spline. Làm thế nào trước đây tôi sẽ làm điều này cùng với hồi quy logistic (trong R). Tôi đã sửa đổi bài viết gốc của mình (chỉnh sửa 2) để bao gồm các thuật ngữ đa thức trong công cụ dự đoán. Tôi có thể sử dụng điều này như là thay thế cho làm mịn spline. Tất nhiên tôi không có sự linh hoạt giống như tôi có với spline.
Phanxicô

1
@Franco: Chiến lược mô hình hồi quy riêng của Frank Harrell - cuốn sách , trang web , gói R - sẽ giúp bạn đi. Một cuộc thảo luận ngắn gọn về một số lợi thế của splines hồi quy là ở đây ; nhưng tất nhiên bạn đúng rằng đa thức là một thay thế.
Scortchi - Phục hồi Monica

4

Dường như với tôi rằng người đánh giá chỉ đang tìm kiếm điều gì đó để nói. Trước khi kiểm tra tính năng đó của đặc điểm kỹ thuật như các điểm uốn ngụ ý, có một tấn các giả định rằng chúng tôi đã thực hiện, nhằm đi đến một mô hình đáng mến. Tất cả có thể được đặt câu hỏi và tranh luận - việc sử dụng chính hàm logistic là mục tiêu chính có thể có: ai nói với chúng tôi rằng phân phối có điều kiện của thuật ngữ lỗi cơ bản là logistic? Không ai.

Vì vậy, vấn đề là: sự thay đổi của độ cong biểu thị điều gì? Tầm quan trọng của hiện tượng thế giới thực đang được nghiên cứu, có thể là điểm mà sự thay đổi độ cong này xảy ra, do đó chúng ta sẽ xem xét làm cho nó "điều khiển dữ liệu"? Di chuyển xa khỏi nguyên tắc của Parsimony?

Câu hỏi không phải là "tại sao điểm uốn phải ở mức 0,5?" Nhưng "làm thế nào sai lệch có thể cho kết luận của chúng tôi nếu nó được để lại ở mức 0,5?".


2
Điều đó có vẻ hơi không thuận lợi. Chúng tôi không biết rằng người đánh giá không có lý do chính đáng để thách thức giả định này hơn là những người khác mà anh ta có thể đã thách thức. Để sang một bên một cách kỳ lạ khi đặt nó theo các điểm uốn, và một quan niệm sai lầm có thể có về hồi quy logistic, và về cơ bản, anh ta hỏi tại sao mô hình cho phép đường cong dịch chuyển và kéo dài nhưng không bị uốn cong, điều đó cũng đáng được trả lời.
Scortchi - Phục hồi Monica

@Scortchi "cách đặt kỳ lạ" ... "một quan niệm sai lầm có thể có về hồi quy logistic" ... Nếu đây là những gì cần thiết để hợp lý hóa phê bình của người đánh giá, rốt cuộc anh ta không nên xem lại bài báo.
Alecos Papadopoulos

1
Như với @Scortchi tôi thấy điều này hơi quá sắc nét. Nhiều người tích cực hơn ở đây có nền tảng trong các ngành khoa học khác nhau thay vì thống kê chính thống. Là một nhà thống kê, thuần túy hay nói cách khác, không cần thiết cũng không đủ để đưa ra lời khuyên tốt (mặc dù trong hầu hết các trường hợp, nó rõ ràng sẽ giúp ích).
Nick Cox

@Nick Cox Tôi chấp nhận "độ sắc nét", và tôi vừa xóa câu cuối cùng của mình, như một dấu hiệu của sự đồng thuận. Quan điểm của tôi là việc đặt câu hỏi một cách tổng quát, các giả định của một mô hình không có giá trị -models luôn luôn sai. Vì vậy, NẾU xác suất thay đổi độ cong là rất quan trọng đối với hiện tượng trong thế giới thực đang nghiên cứu, thì người đánh giá thực sự rất đúng khi yêu cầu điểm này trở thành dữ liệu. Nhưng nếu người đánh giá chỉ nhận xét "tại sao tại p = 0,5 mà không phải ở nơi khác?", Nhận xét này không mang tính xây dựng.
Alecos Papadopoulos

2
Cảm ơn vì điều đó. Tôi đồng ý với lập trường chung của bạn: (a) thảo luận về giá trị của các cách tiếp cận khác nhau và (b) thảo luận về cách chúng ta nên thảo luận về cả hai đều là trò chơi công bằng. Nhận xét về các cá nhân hoặc thậm chí các nhóm trái ngược nhau thường không hữu ích (mặc dù đôi khi tôi cũng vượt qua sự bực tức ...).
Nick Cox

0

Trong mho, hồi quy logit là một lựa chọn hợp lý cho đáp ứng liều. Tất nhiên, bạn có thể sử dụng liên kết probit, log-log, c-log-log và so sánh mức độ phù hợp (DEV, BIC, CAIC, v.v.). Nhưng hồi quy logit đơn giản nhất cho đánh giá chính thức thoải mái về điểm uốn LD50 = -b0 / b1. Chúng tôi nhớ rằng đó là một điểm cụ thể, trong đó chúng tôi đạt được độ không đảm bảo tối thiểu (xem, LD16, LD84 và bất kỳ điểm nào khác sẽ có CI rộng hơn, xem "Phân tích Probit của Finney, 1947, 1977). Luôn luôn (?) Tốt hơn là sử dụng logarit của liều, và sau đó chỉ cần chuyển đổi 95% CI theo tỷ lệ ban đầu. Bản chất của các hiệp phương sai khác trong mô hình là gì? Tôi ám chỉ khả năng sử dụng phương pháp đa mô hình ... Chắc chắn các Splines là linh hoạt, nhưng các tham số chính thức được giải thích dễ dàng hơn!

Xem http://www.epa.gov/ncea/bmds/bmds_training/software/overp.htm


0

Điểm uốn 0,5 là một phần nhỏ của một câu hỏi lớn hơn: phương trình logistic là đối xứng xây dựng. Và trong hầu hết các dẫn xuất của nó, hiệu ứng mô hình hóa có một lý do để đối xứng. ví dụ: khi một người chơi thắng người chơi khác thua, hoặc hiệu ứng chịu trách nhiệm bão hòa là hiệu ứng vật lý tương tự chịu trách nhiệm cho sự tăng trưởng ban đầu, v.v .... Vì vậy, nếu có lý do tại sao nguồn gốc của hành vi X thấp lại có cùng nguồn gốc như tay cao hành xử hoặc vì bất kỳ lý do nào khác, vấn đề là đối xứng thì bạn có lý do của mình.

nếu không, có lẽ mô hình đơn giản tiếp theo là phương trình logistic tổng quát. nó có nhiều tham số hơn và bạn có thể muốn thêm một ràng buộc để chúng không phải là tất cả các tham số miễn phí. điều này có lẽ đáng mong đợi hơn so với các loại bùn mà bạn đã thêm bởi vì chúng đang thêm các giá trị trong đó đạo hàm đầu tiên đang hoạt động qua lại - loại điều đó có xu hướng tạo ra các điểm sai lệch giả tưởng về trạng thái cân bằng cục bộ nếu bạn đang cố gắng tối ưu hóa một số giá trị kỳ vọng của điều này phân phối. hình thức tổng quát sẽ phá vỡ tính đối xứng nhưng theo cách trơn tru.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.