Xuất phát từ khoảng tin cậy và dự đoán của các dự đoán cho probit và logit (và GLM nói chung)


8

Đạo hàm của khoảng dự đoán cho mô hình tuyến tính khá đơn giản: Lấy công thức giới hạn dự đoán trong mô hình tuyến tính .

Làm thế nào để rút ra khoảng tin cậy và dự đoán cho các giá trị được trang bị của hồi quy logit và probit (và GLM nói chung)?


Bạn có đang xác định "dự đoán" cho kết quả nhị phân là trung bình lấy mẫu, như tỷ lệ hoặc tỷ lệ phần trăm không?
AdamO

@AdamO Tôi nghĩ rằng anh ấy / cô ấy đang xác định dự đoán hồi quy logistic là xác suất có điều kiện dự đoán. Tức là, dự đoán là , một công cụ ước tính cho , không phải . p^(x)P(Y|X=x)Y^(x)
DeltaIV

@AdamO câu hỏi hay, tôi muốn một khoảng thời gian làm cho dự đoán của tôi bao gồm các giá trị tương lai của 95% thời gian. Điều đó có thể được thực hiện với một khoảng cho chuyển thành một khoảng dự đoán (điều này sẽ chỉ là 0, chỉ 1 hoặc 0 và 1 và tôi đoán). yp^
statslearner

1
@statslearner Tôi không hiểu. Bạn có muốn một khoảng hữu hạn, bao gồm giá trị tương lai của , lần không? Đây là: . Nó thậm chí không phụ thuộc vào , bạn còn đòi hỏi gì hơn nữa? Nghiêm túc mà nói, tôi không nghĩ sẽ hợp lý khi yêu cầu một khoảng dự đoán với đầu ra Bernoulli. Mặt khác, nếu bạn đang sử dụng hồi quy logistic cho biến Binomial, thì khoảng dự đoán sẽ có ý nghĩa ...y100%I=[0,1]x
DeltaIV

@statslearner hmmm chờ đã, có lẽ chúng ta đang nói về điều tương tự. Bạn đang sửa , lấy mẫu lần và tìm kiếm một khoảng dự đoán cho số lần thành công? Ước tính điểm rõ ràng là và PI tầm thường là , nhưng bạn muốn có khoảng thời gian tốt hơn (ngắn hơn). Nếu vậy, hãy xem tại đây: stats.stackexchange.com/questions/255570/ cấpxy|x nnp^(x)100%[0,n]
DeltaIV

Câu trả lời:


9

Trong GLM, dự đoán là hàm phi tuyến tính của sản phẩm của hiệp phương với vectơ hệ số ước tính : Phân phối mẫu hữu hạn của thường không được biết, nhưng miễn là là ước tính khả năng tối đa , nó có phân phối bình thường không có triệu chứng , trong đó là ma trận Hessian của hàm khả năng ở mức tối đa của nó. Giá trị p củafXβ^

y^=f(Xβ^)
β^β^ N(β,H1)Hβđược hiển thị như một đầu ra của hồi quy gần như luôn luôn dựa trên sự không triệu chứng này. Nhưng nếu bạn cảm thấy mẫu của mình quá nhỏ so với tiệm cận, hãy sử dụng phân phối số (ví dụ: bootstrapping).

Khi bạn sử dụng phân phối bình thường không có triệu chứng của (và do đó ), phân phối của vẫn không bình thường do phi tuyến tính . Bạn có thể bỏ qua nó - nhận giới hạn tin cậy bình thường cho và cắm chúng vào , nhận giới hạn cho là .β^Xβ^y^f(zlower,zupper)Xβfy(ylower,yupper)=(f(zlower),f(zupper))

Một chiến lược khác (được gọi là phương thức delta ) là mở rộng Taylor của xung quanh - nó sẽ là tuyến tính trong . Do đó, bạn có thể phân phối gần đúng dưới dạng fXβ^β^f(Xβ^)

f(Xβ^)N(f(Xβ),(f(Xβ))2XH1XT)

Sau đó, khoảng tin cậy 95% tiệm cận cho sẽ như thế nàof(Xβ)

f(Xβ^)±1.96(f(Xβ^))2XH(β^)1XT

Bây giờ bạn chỉ cần tìm biểu thức cho ma trận Hessian cho các mô hình cụ thể, như hồi quy logistic trong câu hỏi này . Và câu hỏi này trình bày so sánh thực tế của bootstrap, biến đổi giới hạn bình thường và phương pháp delta cho hồi quy logistic.


2
Nhưng điều đó có cho khoảng tin cậy hoặc khoảng dự đoán là . Có vẻ như chỉ có một khoảng tin cậy, phải không? Nó cảm thấy nên có một tiếng ồn thêm được xem xét cho một khoảng dự đoán. y^
thống kê

Đó chỉ là một khoảng tin cậy thực sự. Nhưng đối với các mô hình phản hồi nhị phân (như logit và probit), dự đoán đã có xác suất - sản lượng thực là 1 hoặc 0 với một số xác suất. Nghĩa là, "khoảng dự đoán" luôn luôn là hoặc (nếu xác suất dự đoán là rất nhỏ) hoặc (nếu xác suất dự đoán là rất lớn). Nhưng xác suất dự đoán này có thể khác nhau, và khoảng tin cậy phản ánh điều này. [0,1][0,0][1,1]
David Dale

4

Khi vẫn thất bại, bạn luôn có thể xây dựng các TCTD khởi động cho bất kỳ thống kê nào. Đây là một thuật toán đơn giản:

  1. Vẽ mẫu thay thế từ (trong đó là số hàng trong ). Bạn sẽ thấy rằng khoảng 2/3 quan sát của bạn sẽ xuất hiện trong một mẫu như vậy.NXNX
  2. Sử dụng các mẫu này để phù hợp với một mô hình
  3. Sử dụng mô hình này để tạo dự đoán cho các quan sát trong không được sử dụng trong đào tạo.X
  4. Lặp lại quá trình này 100 lần hoặc lâu hơn (càng nhiều càng tốt) để tích lũy một bộ sưu tập dự đoán cho mỗi quan sát. Bộ sưu tập này là một xấp xỉ để phân phối dự đoán của bạn. Gọi đây là "dự đoán bootstrapping" của bạn.
  5. Xây dựng khoảng tin cậy bằng cách lấy lượng tử trên các dự đoán. Ví dụ, đối với một quan sát cụ thể, hãy tính toán các lượng tử .025 và .975 cho khoảng tin cậy 95%.

2
Điều này thật thú vị, nhưng trong hoàn cảnh nào bạn có thể đảm bảo với tôi điều này sẽ bao gồm đúng 95% thời gian?
thống kê
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.