Trong hồi quy tuyến tính tại sao biến phản ứng phải liên tục?


13

Tôi biết rằng trong hồi quy tuyến tính, biến trả lời phải liên tục nhưng tại sao lại như vậy? Tôi dường như không thể tìm thấy bất cứ điều gì trực tuyến giải thích tại sao tôi không thể sử dụng dữ liệu rời rạc cho biến phản hồi.

Câu trả lời:


25

Không có gì ngăn bạn sử dụng hồi quy tuyến tính trên bất kỳ hai cột số nào bạn muốn. Có những lúc nó thậm chí có thể là một lựa chọn khá hợp lý.

Tuy nhiên, các thuộc tính của những gì bạn nhận được sẽ không nhất thiết phải hữu ích (ví dụ: sẽ không nhất thiết là tất cả những gì bạn có thể muốn chúng).

Nói chung với hồi quy, bạn đang cố gắng khớp một số mối quan hệ giữa giá trị trung bình có điều kiện của Y và yếu tố dự đoán - tức là phù hợp với mối quan hệ của một số dạng ; mô hình hóa hành vi của kỳ vọng có điều kiện là 'hồi quy' là gì . [Hồi quy tuyến tính là khi bạn có một hình thức cụ thể cho g ]E(Y|x)= =g(x)g

Ví dụ, hãy xem xét một trường hợp cực kỳ riêng biệt, một biến trả lời có phân phối là 0 hoặc 1 và lấy giá trị 1 với xác suất thay đổi khi một số yếu tố dự đoán ( ) thay đổi. Đó là E ( Y | x ) = P ( Y = 1 | X = x ) .xE(Y|x)= =P(Y= =1|X= =x)

Nếu bạn phù hợp với loại mối quan hệ đó với mô hình hồi quy tuyến tính, thì ngoài một khoảng hẹp, nó sẽ dự đoán các giá trị cho là không thể - dưới 0 hoặc trên 1 :E(Y)01

Dữ liệu 0-1 và bình phương nhỏ nhất vừa vặn

Thật vậy, cũng có thể thấy rằng khi kỳ vọng tiến đến ranh giới, các giá trị phải ngày càng thường xuyên lấy giá trị ở ranh giới đó, vì vậy phương sai của nó sẽ nhỏ hơn so với khi kỳ vọng ở gần giữa - phương sai phải giảm xuống 0 Vì vậy, một hồi quy thông thường làm sai trọng số, làm mất trọng lượng dữ liệu trong khu vực có kỳ vọng có điều kiện gần 0 hoặc 1. Hiệu ứng SImilar xảy ra nếu bạn có một biến giới hạn giữa a và b, giả sử (chẳng hạn như mỗi quan sát là một số đếm rời rạc trong tổng số có thể có cho quan sát đó)

Ngoài ra, chúng ta thường mong đợi trung bình có điều kiện không có triệu chứng đối với giới hạn trên và dưới, có nghĩa là mối quan hệ thường sẽ bị cong, không thẳng, do đó, hồi quy tuyến tính của chúng ta cũng có thể bị sai trong phạm vi dữ liệu.

Các vấn đề tương tự xảy ra với dữ liệu chỉ giới hạn ở một bên (ví dụ: số lượng không có ranh giới trên) khi bạn ở gần một ranh giới đó.

thể (nếu hiếm) có dữ liệu riêng biệt không bị ràng buộc ở hai đầu; nếu biến có nhiều giá trị khác nhau thì sự chênh lệch có thể gây ra hậu quả tương đối ít miễn là mô tả của mô hình về giá trị trung bình và phương sai là hợp lý.

Đây là một ví dụ rằng sẽ hoàn toàn hợp lý khi sử dụng hồi quy tuyến tính trên:

biểu đồ hiển thị y rời rạc như hàm của x trong đó hồi quy tuyến tính có ý nghĩa

Mặc dù trong bất kỳ dải giá trị x mỏng nào, chỉ có một vài giá trị y khác nhau có khả năng được quan sát (có lẽ khoảng 10 cho các khoảng rộng 1), kỳ vọng có thể được ước tính tốt, và thậm chí cả các lỗi tiêu chuẩn và p- tất cả các giá trị và khoảng tin cậy sẽ ít nhiều hợp lý trong trường hợp cụ thể này. Các khoảng dự đoán sẽ có xu hướng hoạt động kém hơn một chút (vì tính phi quy tắc sẽ có xu hướng có tác động trực tiếp hơn trong trường hợp đó)

-

Nếu bạn muốn thực hiện các bài kiểm tra giả thuyết hoặc tính toán khoảng tin cậy hoặc dự đoán, các quy trình thông thường sẽ đưa ra giả định về tính quy tắc. Trong một số trường hợp, điều đó có thể quan trọng. Tuy nhiên, có thể suy luận mà không đưa ra giả định cụ thể đó.


Cảm ơn bạn, không chắc tôi hiểu tất cả những gì bạn đã nói nhưng tôi sẽ làm việc với nó.
ilovestats

3
Nếu bạn có câu hỏi cụ thể, tôi có thể cố gắng trả lời chúng
Glen_b -Reinstate Monica

@ilovestats Tôi có bằng Thạc sĩ Kinh tế lượng và tôi có thể đảm bảo với bạn câu trả lời này đáng để hiểu từng từ. Câu trả lời tuyệt vời, với một segue dễ dàng / nền tảng tốt để giới thiệu hồi quy logistic.
d8aninja

3

Tôi không thể nhận xét, vì vậy tôi sẽ trả lời: trong hồi quy tuyến tính thông thường, biến phản hồi không cần phải liên tục, giả định của bạn là không:

y= =β0+β1x

nhung la:

E[y]= =β0+β1x.

Hồi quy tuyến tính thông thường xuất phát từ việc giảm thiểu các phần dư bình phương, đây là một phương pháp được cho là phù hợp với các biến liên tục và rời rạc (xem định lý Gauss-Markof). Tất nhiên thường sử dụng khoảng tin cậy hoặc dự đoán và kiểm tra giả thuyết dựa trên giả định phân phối bình thường, như Glen_b đã chỉ ra một cách chính xác, nhưng ước tính OLS của các tham số thì không.


2

xxy

y= =β0+β1x+ε

εy

Mặt khác, trong mô hình tuyến tính tổng quát , biến trả lời có thể rời rạc / phân loại (hồi quy logistic). Hoặc đếm (hồi quy Poisson).


Chỉnh sửa để đánh dấu địa chỉ mark999 và bình luận lại.

Hồi quy tuyến tính là một thuật ngữ chung mà mọi người có thể sử dụng nó khác nhau. Không có gì ngăn cản chúng ta sử dụng nó trên biến rời rạc HOẶC biến độc lập và biến phụ thuộc không phải là tuyến tính.

Nếu chúng ta giả sử không có gì và chạy hồi quy tuyến tính, chúng ta vẫn có thể nhận được kết quả. Và nếu kết quả đáp ứng nhu cầu của chúng tôi, thì toàn bộ quá trình là OK. Tuy nhiên, như Glan_b nói

Nếu bạn muốn thực hiện các bài kiểm tra giả thuyết hoặc tính toán khoảng tin cậy hoặc dự đoán, các quy trình thông thường sẽ đưa ra giả định về tính quy tắc.

Tôi có câu trả lời này là vì tôi cho rằng OP đang yêu cầu hồi quy tuyến tính từ sách thống kê cổ điển nơi chúng ta thường có giả định này khi dạy hồi quy tuyến tính.


Cảm ơn bạn, tôi hiểu lời giải thích của bạn. Cảm kích nhất.
ilovestats

1
Bạn cũng có thể giải thích tại sao biến giải thích có thể là liên tục hoặc rời rạc (như nhiều ấn phẩm nói)? Trong phần giải thích của bạn, bạn nói (và nó có ý nghĩa) rằng biến độc lập x là liên tục.
ilovestats

2
Tôi không nghĩ câu trả lời này là đúng. Biến trả lời không được coi là một hàm xác định của (các) biến giải thích và không cần phải giả sử rằng (các) biến giải thích là liên tục.
đánh dấu999

2
Kết quả có thể rời rạc hoặc
mâu thuẫn

@Repmat cảm ơn bình luận của bạn, xin vui lòng kiểm tra chỉnh sửa của tôi.
Haitao Du

0

Nó không. Nếu người mẫu làm việc, ai quan tâm?

Từ góc độ lý thuyết các câu trả lời ở trên là chính xác. Tuy nhiên, về mặt thực tế, tất cả phụ thuộc vào miền dữ liệu của bạn và khả năng dự đoán của mô hình của bạn.

Một ví dụ thực tế là Mô hình Phá sản MDS cũ. Đây là một trong những điểm rủi ro sớm được sử dụng bởi những người cho vay tín dụng tiêu dùng để dự đoán khả năng người vay sẽ tuyên bố phá sản. Mô hình này đã sử dụng dữ liệu chi tiết từ báo cáo tín dụng của người vay và cờ nhị phân 0/1 để biểu thị sự phá sản trong giai đoạn dự đoán. Sau đó, đưa dữ liệu đó vào ... vâng .. bạn đoán nó.

Một hồi quy tuyến tính cũ đơn giản

Tôi đã từng có cơ hội nói chuyện với một trong những người đã xây dựng mô hình này. Tôi hỏi anh ta về việc vi phạm các giả định. Ông giải thích rằng mặc dù nó hoàn toàn vi phạm các giả định về số dư, v.v., ông không quan tâm.

Hóa ra ...

Mô hình hồi quy tuyến tính 0/1 này (khi được chuẩn hóa / chia tỷ lệ thành một điểm dễ đọc và được ghép nối với một mức cắt phù hợp) được xác nhận rõ ràng đối với các mẫu dữ liệu bị giữ lại và thực hiện rất tốt như một phân biệt đối xử Tốt / Xấu đối với Phá sản.

Mô hình này đã được sử dụng trong nhiều năm như là điểm tín dụng thứ 2 để bảo vệ chống lại sự phá sản song song với điểm rủi ro của FICO (được thiết kế để dự đoán hơn 60 ngày nợ quá hạn).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.