Quá mức trong hồi quy logistic


14

Tôi đang cố gắng nắm bắt khái niệm về sự quá mức trong hồi quy logistic. Tôi đã đọc rằng sự quá mức là khi quan sát được phương sai của biến phản ứng lớn hơn mong đợi từ phân phối nhị thức.

Nhưng nếu một biến nhị thức chỉ có thể có hai giá trị (1/0), làm thế nào nó có thể có giá trị trung bình và phương sai?

Tôi ổn với việc tính toán trung bình và phương sai của những thành công từ x số lần thử nghiệm Bernoulli. Nhưng tôi không thể quấn đầu xung quanh khái niệm trung bình và phương sai của một biến chỉ có thể có hai giá trị.

Bất cứ ai cũng có thể cung cấp một cái nhìn tổng quan trực quan về:

  1. Khái niệm về giá trị trung bình và phương sai trong một biến chỉ có thể có hai giá trị
  2. Khái niệm về sự quá mức trong một biến chỉ có thể có hai giá trị

1
Thêm 20 giá trị của , trong đó 10 là và 10 là . Bạn có thể chia cái này cho 20 không? Bạn có thể tính sd không? 0 1 yy01y
Sycorax nói Phục hồi Monica

Đặt chính xác để tôi tin rằng đó có nghĩa là = 0,5, độ lệch chuẩn = 0,11.
luciano

Nói rằng biến trả lời của tôi đã có 100 thành công và 5 thất bại. Điều này có khả năng là quá liều?
luciano

luciano, bạn cần nhiều hơn một nhận thức về thí nghiệm để xác định xem nó có bị quá liều hay không.
Underminer

Câu trả lời:


10

Một biến ngẫu nhiên nhị thức với thử nghiệm và xác suất thành công p có thể mất nhiều hơn hai giá trị. Biến ngẫu nhiên nhị thức đại diện cho số lần thành công trong những tồn thử nghiệm, và trong thực tế có tham N + 1 giá trị khác nhau ( 0 , 1 , 2 , 3 , . . . , N ). Vì vậy, nếu phương sai của phân phối đó lớn hơn mức quá mong đợi theo các giả định nhị thức (có lẽ có các số 0 dư chẳng hạn), đó là trường hợp quá mức. NpNN+10,1,2,3,...,N

Sự quá mức không có ý nghĩa đối với biến ngẫu nhiên Bernoulli ( )N=1

Trong ngữ cảnh của đường cong hồi quy logistic, bạn có thể xem xét một "lát cắt nhỏ" hoặc nhóm, thông qua một phạm vi giá trị dự đoán hẹp để thực hiện một thí nghiệm nhị thức (có thể chúng ta có 10 điểm trong lát cắt với một số lượng nhất định thành công và thất bại). Mặc dù chúng tôi không thực sự có nhiều thử nghiệm ở mỗi giá trị dự đoán và chúng tôi đang xem xét tỷ lệ thay vì số liệu thô, chúng tôi vẫn hy vọng tỷ lệ của mỗi "lát" này sẽ gần với đường cong. Nếu các "lát" này có xu hướng cách xa đường cong, thì có quá nhiều biến động trong phân phối. Vì vậy, bằng cách nhóm các quan sát, bạn tạo ra các biến ngẫu nhiên nhị thức thay vì nhìn vào dữ liệu 0/1 riêng lẻ.

Ví dụ dưới đây là từ một câu hỏi khác trên trang web này. Hãy nói rằng các đường màu xanh biểu thị tỷ lệ dự kiến ​​trên phạm vi của các biến dự đoán. Các ô màu xanh biểu thị các trường hợp quan sát (trong trường hợp này là trường học). Điều này cung cấp một biểu diễn đồ họa về cách quá mức có thể trông. Lưu ý rằng có những sai sót với việc diễn giải các ô của biểu đồ bên dưới, nhưng nó cung cấp một ý tưởng về cách quá mức có thể tự biểu hiện.

Ví dụ phân tán


1
Nhưng tôi quan tâm đến sự quá mức trong bối cảnh hồi quy logistic. Đối với mỗi giá trị của một biến dự đoán trong hồi quy logistic, không có n thử nghiệm, chỉ có một thử nghiệm. Và kết quả của một thử nghiệm đó là thành công hoặc thất bại
luciano

Tôi chỉ thêm một đoạn để giải quyết trực giác đằng sau sự quá mức trong bối cảnh hồi quy tuyến tính.
Underminer

1
Underminer, tôi đang cố gắng tưởng tượng ý của bạn trong câu này: "Nếu những" lát cắt "này có xu hướng cách xa đường cong, thì có quá nhiều sự thay đổi trong phân phối". Đây là những gì tôi nghĩ bạn muốn nói: ở lát cắt trên đường cong có xác suất thành công 0,1-0,3 có rất nhiều thành công và ở lát cắt trên đường cong có xác suất thành công 0,7-0,9 có rất nhiều của thất bại. Đây có phải là những gì bạn có ý nghĩa và điều này sẽ đại diện cho sự quá mức?
luciano

1
@luciano Đó là ý kiến ​​đúng. Nhưng hãy nhớ rằng phải có sự cân bằng của các "lát" quá xa và quá xa so với đường cong để sự phù hợp đã xảy ra ở nơi đầu tiên. Vì vậy, có thể thực tế hơn khi nói rằng một lát khoảng 0,7 có quá nhiều thành công (có thể là 100%) và lát tiếp theo khoảng 0,75 có quá ít (50%) thì 0,80 có quá nhiều (100%), v.v. phương sai quan sát nhiều hơn mong đợi.
Underminer

Tôi đã có ya, giải thích rõ
luciano

7

Như đã được lưu ý bởi những người khác, quá mức không áp dụng trong trường hợp biến Bernoulli (0/1), vì trong trường hợp đó, giá trị trung bình nhất thiết phải xác định phương sai. Trong bối cảnh hồi quy logistic, điều này có nghĩa là nếu kết quả của bạn là nhị phân, bạn không thể ước tính một tham số phân tán. (NB Điều này không có nghĩa là bạn có thể bỏ qua mối tương quan tiềm năng giữa các quan sát chỉ vì kết quả của bạn là nhị phân!)

Mặt khác, nếu kết quả của bạn là một tập hợp tỷ lệ, thì bạn có thể ước tính một tham số phân tán (mặc dù thường lớn hơn một, cũng có thể nhỏ hơn một) bằng cách chia thống kê chi bình phương Pearson (hoặc độ lệch ) bởi các mức độ tự do còn lại.

Hãy nhớ rằng, hồi quy logistic với kết quả nhị phân thuần túy chỉ là trường hợp đặc biệt của mô hình hồi quy logistic tổng quát hơn trong đó chỉ số nhị thức có thể vượt quá một (và có thể thay đổi theo các quan sát). Do đó, câu hỏi liệu bạn có phù hợp với mô hình hồi quy logistic hay không không liên quan đến câu hỏi liệu dữ liệu của bạn có bị quá tải hay không.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.