Giá trị trung bình có điều kiện trong hồi quy tuyến tính


8

Tôi có một câu hỏi về hồi quy tuyến tính nói chung. Giả sử chúng ta có Quy trình tạo dữ liệu sau:

yi=xiβ+ϵi

Bây giờ, điều là từ sự hiểu biết của tôi, mỗi quan sát là một biến ngẫu nhiên, tức là mỗi có một giá trị trung bình có điều kiện, đó là: E [y_ {i} | x_ {i}] = x_ {i} \ beta theo giả định ngoại sinh. Câu hỏi của tôi là như sau. Ý nghĩa vô điều kiện của y là gì? Ngoài ra, khi chúng ta có một mẫu gồm n điểm dữ liệu, E [y] thực sự có nghĩa là gì? Đây có phải là giá trị trung bình của vectơ ngẫu nhiên của y_ {i} ' không? Làm thế nào để luật kỳ vọng lặp đi lặp lại áp dụng ở đây?yi

E[yi|xi]=xiβ
yE[y]yis

Câu trả lời:


7

Điều quan trọng là phải chính xác trong những tình huống này và phân biệt giữa mô hình dữ liệu và chính dữ liệu. Một cách để suy nghĩ về hồi quy tuyến tính là chúng tôi đưa ra giả thuyết về mối quan hệ sau đây về quy trình thống kê không thể biết được đã tạo ra dữ liệu chúng tôi có

E[YX]=β0+Xβ

Beta là một hằng số chưa biết tại thời điểm này, vì vậy chúng tôi chỉ đặt ra một giả thuyết về những gì chúng tôi tin rằng hình dạng của mối quan hệ là như thế nào. Sau đó, được cung cấp dữ liệu, chúng tôi sử dụng một số phương pháp để xác định nên là gì để mối quan hệ được đưa ra giả thuyết có khả năng tạo ra dữ liệu chúng tôi có (khả năng tối đa là rất phổ biến).β

Ngay cả khi không biết , chúng ta có thể điều khiển mối quan hệ để tìm hiểu một số điều về hậu quả của các giả định của mìnhβ

E[Y]=E[E[YX]]=β0+βE[X]=β0+βE[X]

Bây giờ, sự phân phối của nói chung không phải là một phần của các giả định cấu trúc của chúng ta trong hồi quy, do đó, nói chung, điều này là xa như chúng ta có thể đi.X

Thông thường, chúng tôi sẽ tập trung dữ liệu của mình cho , áp đặt ràng buộc trên mô hình của chúng tôi. Trong trường hợp này, chúng ta có thể rút raXE[X]=0

E[Y]=β0

Đây là lý do tại sao, ví dụ , cuốn sách này khuyến nghị các dự đoán trung tâm (trong một số tình huống) để việc chặn mô hình có thể hiểu được.

Bây giờ, câu hỏi của tôi là làm thế nào điều này có liên quan đến trung bình mẫu của y?

Nếu bạn khớp với mô hình theo các ô vuông nhỏ nhất và bạn đã căn giữa bộ dự đoán , thì mô hình chặn là trung bình mẫu.x

Về mặt hình học, đường bình phương nhỏ nhất phải đi qua tâm khối lượng của dữ liệu . Khi bạn có tâm , , do đó dòng đi qua . Nếu bạn cắm các giá trị này vào phương trình mô hình, bạn sẽ nhận được .(x¯,y¯)xx¯=0(0,y¯)β0=y¯

Theo đại số, phương trình bình phương nhỏ nhất là . Nếu bạn nghĩ về ma trận , cột đầu tiên là tất cả các cột (cột chặn) và vì là trung tâm, cột chặn này là trực giao với cột dữ liệu. Điều này có nghĩa là hàng đầu tiên của trông giống như (trong đó là số điểm dữ liệu). Sau đó, thành phần đầu tiên của phía bên trái là . Ở phía bên phải, thành phần đầu tiên là . Tương đương với chúng, bạn nhận được kết quả .(XtX)β=XtyXxXtX(N,0)NNβ0iyiβ0=y¯

Cũng đúng là giá trị trung bình của các dự đoán bằng với . Vì đây là các phương tiện có điều kiện ước tính (theo giả định), điều này mang lại cho bạn một mối quan hệ giống như mối quan hệ bạn tìm kiếm. Để thấy điều này, chỉ cần quan sát rằng các dự đoán là và nhóm phương trình bình phương nhỏ nhất lày¯Xβ

Xt(Xβ)=Xty

Bây giờ sử dụng một đối số tương tự như những gì tôi đã làm ở trên.


Xin lỗi @Matthew. Tôi không đồng ý với phương trình đầu tiên của bạn; dưới sự ngoại lệ, thuật ngữ epsilon không nên ở đó. Một cách khác để đặt câu hỏi của tôi là bạn có thể đưa ra tuyên bố về giá trị trung bình có điều kiện của quan sát so với giá trị trung bình có điều kiện của biến phụ thuộc trong toàn bộ mẫu. Tôi đoán họ có liên quan!
ChinG

Tôi tin rằng bạn hoàn toàn chính xác về điểm đầu tiên đó, không nên ở đó, đó là sự bất cẩn của tôi, tôi sẽ sửa nó! Tôi đã cố gắng tránh các giả định thông thường thường được nêu ở đây, nhưng tôi đã bị lẫn lộn. Bạn có thể làm rõ điểm thứ hai của bạn? ϵ
Matthew Drury

Cảm ơn rất nhiều cho câu trả lời nhanh chóng của bạn. Vì vậy, câu hỏi của tôi về cơ bản là sau đây. Mọi quan sát đều có ý nghĩa có điều kiện như bạn đã đề cập, về cơ bản là x_i'b. Bây giờ, câu hỏi của tôi là làm thế nào điều này có liên quan đến trung bình mẫu của y? Tôi có nghĩa là để so sánh trung bình có điều kiện của một quan sát cụ thể với trung bình vô điều kiện trên tất cả các quan sát trong mẫu. Về cơ bản, y_i sẽ tương ứng với một quan sát cụ thể, trong khi Y sẽ tương ứng với vectơ quan sát. Câu hỏi của tôi là làm thế nào là trung bình có điều kiện của mỗi quan sát liên quan đến trung bình trên các quan sát. Cảm ơn!
ChinG

1
@ChinG Tôi đã cố gắng giải quyết câu hỏi của bạn, hy vọng điều đó có ích.
Matthew Drury

2

Để có được giá trị trung bình vô điều kiện (hoặc trung bình cận biên) của Y, việc phân phối X là cần thiết khi giá trị trung bình của Y phụ thuộc vào X như trong câu hỏi của bạn. Nếu bạn không biết và không thể ước tính phân phối của X, không thể lấy được giá trị trung bình vô điều kiện của Y.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.