Làm thế nào để hình dung sự tốt đẹp của Bayes phù hợp với hồi quy logistic


10

Đối với một vấn đề hồi quy logistic Bayes, tôi đã tạo ra một phân phối dự báo sau. Tôi lấy mẫu từ phân phối dự đoán và nhận hàng ngàn mẫu (0,1) cho mỗi quan sát tôi có. Hình dung sự tốt đẹp của sự phù hợp ít hơn là thú vị, ví dụ:

nhập mô tả hình ảnh ở đây

Biểu đồ này hiển thị 10 000 mẫu + điểm chuẩn được quan sát (cách bên trái có thể tạo ra một đường màu đỏ: đó là sự quan sát). Vấn đề là cốt truyện này hầu như không có nhiều thông tin và tôi sẽ có 23 trong số đó, mỗi điểm cho mỗi điểm dữ liệu.

Có cách nào tốt hơn để hình dung 23 điểm dữ liệu cộng với các mẫu sau.


Một nỗ lực khác:

nhập mô tả hình ảnh ở đây


Một nỗ lực khác dựa trên bài báo ở đây

nhập mô tả hình ảnh ở đây


1
Xem ở đây để biết ví dụ về kỹ thuật vis-data ở trên.
Cam.Davidson.Pilon

Đó là rất nhiều không gian lãng phí IMO! Bạn có thực sự chỉ có 3 giá trị (dưới 0,5, trên 0,5 và quan sát) hay đó chỉ là một tạo tác của ví dụ bạn đã đưa ra?
Andy W

Thực tế nó tệ hơn: tôi có 8500 0 và 1500 1 giây. Biểu đồ chỉ cần đẩy các giá trị này để tạo ra một biểu đồ được kết nối. Nhưng tôi đồng ý: rất nhiều không gian lãng phí. Thực sự, đối với mỗi điểm dữ liệu, tôi có thể giảm tỷ lệ này xuống tỷ lệ (ví dụ 8500/10000) và quan sát (0 hoặc 1)
Cam.Davidson.Pilon 25/03/13

Vậy bạn có 23 điểm dữ liệu, và có bao nhiêu dự đoán? Và sự phân tâm dự đoán sau của bạn cho các điểm dữ liệu mới hay cho 23 bạn đã sử dụng để phù hợp với mô hình?
xác suất

Cốt truyện cập nhật của bạn gần với những gì tôi sẽ đề xuất. Trục x đại diện mặc dù là gì? Có vẻ như bạn có một số điểm siêu áp đặt - mà chỉ với 23 dường như không cần thiết.
Andy W

Câu trả lời:


5

Tôi có cảm giác bạn không hoàn toàn từ bỏ tất cả hàng hóa cho tình huống của mình, nhưng với những gì chúng tôi có trước mặt chúng ta hãy xem xét tiện ích của một dấu chấm đơn giản để hiển thị thông tin.

Châm điểm

Điều thực sự duy nhất không có ở đây (có lẽ không phải là hành vi mặc định) là:

  • Tôi đã sử dụng các bảng mã, hình dạng và màu sắc dư thừa, để phân biệt giữa các giá trị quan sát không có khuyết tật và khuyết tật. Với thông tin đơn giản như vậy, việc đặt một dấu chấm trên biểu đồ là không cần thiết. Ngoài ra, bạn có một vấn đề khi điểm gần các giá trị trung bình, cần phải tìm kiếm nhiều hơn để xem giá trị quan sát là 0 hay 1.
  • Tôi sắp xếp đồ họa theo tỷ lệ quan sát.

Sắp xếp là kicker thực sự cho các ô chấm như thế này. Sắp xếp theo các giá trị tỷ lệ ở đây giúp dễ dàng phát hiện ra các quan sát còn lại cao. Có một hệ thống trong đó bạn có thể dễ dàng sắp xếp theo các giá trị có trong cốt truyện hoặc trong các đặc điểm bên ngoài của các trường hợp là cách tốt nhất để có được tiếng nổ cho bạn.

Lời khuyên này mở rộng để quan sát liên tục là tốt. Bạn có thể tô màu / định hình các điểm tùy theo phần dư là âm hay dương, và sau đó định cỡ điểm theo phần dư tuyệt đối (hoặc bình phương). Đây là IMO không cần thiết ở đây vì tính đơn giản của các giá trị quan sát được.


1
Tôi thích giải pháp và nội dung này, tôi chỉ đang chờ các bài nộp khác. Cảm ơn Andy.
Cam.Davidson.Pilon

1
@ Cam.Davidson.Pilon - Tôi cũng đang chờ các bài nộp khác! Bởi vì mô hình của bạn chỉ có một yếu tố dự đoán - sắp xếp theo tỷ lệ khuyết tật dự đoán sẽ đồng nghĩa với việc sắp xếp theo nhiệt độ (giả sử hiệu ứng đơn điệu - như xuất hiện trong biểu đồ của bạn). Có lẽ ai đó sẽ đi cùng mặc dù với một giải pháp khác cho phép người ta thấy cả tỷ lệ dự đoán và nhiệt độ ban đầu (hoặc một cái gì đó hoàn toàn khác nhau). Màn hình này tốt khi xem các dự đoán xấu, nhưng không tốt cho những thứ như nhìn thấy các hiệu ứng phi tuyến tính.
Andy W

1
Tôi rất vui khi được thưởng tiền thưởng cho bạn. Sắp xếp là chìa khóa để trình bày nó và bài báo được liên kết từ bài viết trước của bạn là những gì tôi sẽ sử dụng. Cảm ơn!
Cam.Davidson.Pilon

4

Cách thông thường để hình dung sự phù hợp của mô hình hồi quy logistic Bayes với một yếu tố dự đoán là vẽ sơ đồ phân phối dự báo cùng với tỷ lệ tương ứng. (Xin vui lòng, cho tôi biết nếu tôi hiểu câu hỏi của bạn)

Một ví dụ sử dụng tập dữ liệu phổ biến của Bliss.

nhập mô tả hình ảnh ở đây

Mã dưới đây trong R:

library(mcmc)

# Beetle data

ni = c(59, 60, 62, 56, 63, 59, 62, 60) # Number of individuals
no = c(6, 13, 18, 28, 52, 53, 61, 60) # Observed successes
dose = c(1.6907, 1.7242, 1.7552, 1.7842, 1.8113, 1.8369, 1.8610, 1.8839) # dose

dat = cbind(dose,ni,no)

ns = length(dat[,1])

# Log-posterior using a uniform prior on the parameters

logpost = function(par){
var = dat[,3]*log(plogis(par[1]+par[2]*dat[,1])) + (dat[,2]-dat[,3])*log(1-plogis(par[1]+par[2]*dat[,1]))

if( par[1]>-100000 ) return( sum(var) )
else return(-Inf)
}

# Metropolis-Hastings
N = 60000

samp <- metrop(logpost, scale = .35, initial = c(-60,33), nbatch = N)

samp$accept

burnin = 10000
thinning = 50

ind = seq(burnin,N,thinning)

mu1p =   samp$batch[ , 1][ind]

mu2p =   samp$batch[ , 2][ind]


# Visual tool

points = no/ni
# Predictive dose-response curve
DRL <- function(d) return(mean(plogis(mu1p+mu2p*d)))
DRLV = Vectorize(DRL)

v <- seq(1.55,2,length.out=55)
FL = DRLV(v)

plot(v,FL,type="l",xlab="dose",ylab="response")
points(dose,points,lwd=2)

Tôi không phải là người R, bạn có thể cung cấp cốt truyện / đầu ra không?
Cam.Davidson.Pilon

@ Cam.Davidson.Pilon Tôi xin lỗi, danh tiếng của tôi không cho phép tôi bao gồm các lô. Nhưng ý tưởng là vẽ toàn bộ đường cong phản ứng liều cùng với tỷ lệ quan sát được.
Cerberis

Tôi đã thêm hình ảnh. Bạn giả định một cấu trúc khác cho dữ liệu mà OP không trực tiếp mở rộng đến ví dụ của bạn. Dữ liệu của OP sẽ như thế nào nếu bạn ni = 23no = 7và mỗi người trong số 23 cá nhân có khác nhau dose. Mặc dù vậy, bạn có thể tạo một âm mưu tương tự cho dữ liệu của OP, (các điểm được đặt ở 0 hoặc 1 trên trục Y và bạn vẽ đồ thị của hàm). Xem một số ví dụ về các ô tương tự cho hồi quy logistic trong các tài liệu tham khảo tôi đưa ra cho câu trả lời này .
Andy W

@AndyW Cảm ơn vì điều này và cũng đã làm rõ.
Cerberis

@AndyW ah các giấy tờ bạn liên kết khá hữu ích! Tôi sẽ phải xem xét kỹ hơn để xem liệu tôi có thể áp dụng chúng không.
Cam.Davidson.Pilon

3

Tôi đang trả lời yêu cầu về các kỹ thuật đồ họa thay thế cho thấy mức độ các sự kiện thất bại được mô phỏng phù hợp với các sự kiện thất bại được quan sát. Câu hỏi đặt ra trong "Lập trình xác suất và phương pháp Bayes cho tin tặc" được tìm thấy ở đây . Đây là cách tiếp cận đồ họa của tôi:

Mô phỏng so với các lỗi O-Ring được quan sát

Mã được tìm thấy ở đây .


Thú vị - bạn có thể đưa ra bất kỳ đối số về lý do tại sao sử dụng kỹ thuật này? Cám ơn vì đã chia sẻ!
Cam.Davidson.Pilon

Đây là một xác suất, không phải là một kết quả xác định. Do đó, tôi tìm kiếm một đại diện truyền đạt một số điều: 1) phạm vi của các sự kiện được quan sát và dự đoán; 2: phân phối xác suất của những thất bại dự đoán; 3) phân phối xác suất của các thất bại dự đoán; và 4) phạm vi mà thất bại có nhiều khả năng, không thất bại có nhiều khả năng hơn và phạm vi mà khả năng thất bại và không thất bại chồng chéo. Biểu đồ này cho thấy tất cả những điều đó vào mắt tôi.
dùng35216

Một vài bổ sung / làm rõ thêm: 1) phạm vi nhiệt độ của các sự kiện được quan sát và dự đoán; 5) thất bại quan sát thực tế và không thất bại
dùng35216
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.