Có phải giả định tuyến tính trong hồi quy tuyến tính chỉ là một định nghĩa của ?


10

Tôi đang sửa đổi hồi quy tuyến tính.

Sách giáo khoa của Greene tuyên bố:

nhập mô tả hình ảnh ở đây nhập mô tả hình ảnh ở đây

Bây giờ, tất nhiên sẽ có các giả định khác về mô hình hồi quy tuyến tính, chẳng hạn như . Giả định này kết hợp với giả định tuyến tính (có hiệu lực xác định ), đưa cấu trúc lên mô hình.εE(ϵ|X)=0ϵ

Tuy nhiên, giả định tuyến tính tự nó không đặt bất kỳ cấu trúc nào vào mô hình của chúng tôi, vì có thể hoàn toàn tùy ý. Đối với bất kỳ biến nào, bất kể mối quan hệ giữa hai chúng ta có thể định nghĩa một sao cho giả định tuyến tính giữ. Do đó, "giả định" tuyến tính thực sự nên được gọi là định nghĩa của , chứ không phải là một giả định.X , y ε εϵX,yϵϵ

Vì vậy, tôi tự hỏi :

  1. Là Greene đang cẩu thả? Anh ta thực sự nên viết: ? Đây là một "giả định tuyến tính" thực sự đặt cấu trúc lên mô hình.E(y|X)=Xβ

  2. Hoặc tôi phải chấp nhận rằng giả định tuyến tính không đặt cấu trúc trên mô hình mà chỉ định nghĩa một , trong đó các giả định khác sẽ sử dụng định nghĩa đó của để đưa cấu trúc lên mô hình?ϵϵϵ


Chỉnh sửa : vì dường như có một số nhầm lẫn xung quanh các giả định khác, hãy để tôi thêm toàn bộ các giả định ở đây:

nhập mô tả hình ảnh ở đây

Đây là từ Greene, Phân tích kinh tế lượng, tái bản lần thứ 7. tr. 16.


4
Đây là những quan sát nhận thức (+1). Mặc dù vậy, về mặt công bằng, tôi tin rằng hầu hết các tác giả (nếu không phải tất cả) đang làm việc trong một khuôn khổ trong đó ý nghĩa của một lỗi phụ gia như bao gồm giả định rằng phân phối của nó tập trung ở mức . 0ϵ0
whuber

2
@whuber, tôi đã thêm toàn bộ các giả định. nhìn vào A3. A3 nói rõ rằng nó được đặt ở giữa 0, điều này có nghĩa là Greene không giả sử điều này trong A1, điều này khiến tôi đặt câu hỏi liệu A1 có bất kỳ nội dung logic nào không, ngoài việc xác định . ϵ
dùng56834

2
Ý nghĩa dự định của một danh sách các giả định là chúng được giữ chung, không riêng biệt. Điều này không thể hiện bất kỳ "sự cẩu thả."
whuber

2
@AdamO, từ "chính xác" dường như không có ý nghĩa chính xác với tôi. Tôi đang cố gắng để hiểu chính xác hơn điều này. Dường như với tôi rằng công thức chính xác nhất của tất cả những điều này là để nói rằng giả định 1 nên được gọi là "định nghĩa của ", và sau đó mọi thứ đều có ý nghĩa. Hoặc tôi thực sự đang thiếu một cái gì đó, đó là lý do tại sao tôi hỏi câu hỏi này. Thật không may cho đến nay tôi chưa thấy câu trả lời trực tiếp cho câu hỏi đóϵ
user56834

2
@ Lập trình2134 bạn đang nhận được câu trả lời không chính xác vì bạn đang hỏi một câu hỏi không chính xác. Người ta không "đặt cấu trúc lên một mô hình" như bạn nói. Nếu mô hình trung bình sai ( ) được sử dụng, thì phản hồi được đặc trưng là . và phần dư được lấy làm tổng của sai lệch và sai số. Y = f ( x ) + sai lệch + lỗif(x)Y=f(x)+bias+error
AdamO

Câu trả lời:


8
  1. Là Greene đang cẩu thả? Anh ta thực sự nên viết: ? Đây là một "giả định tuyến tính" thực sự đặt cấu trúc lên mô hình.E(y|X)=Xβ

Theo một nghĩa nào đó, có và không. Một mặt, vâng, với nghiên cứu nhân quả hiện đại hiện nay , anh ta rất cẩu thả, nhưng cũng giống như hầu hết các sách giáo khoa kinh tế lượng, theo nghĩa là họ không phân biệt rõ ràng các đại lượng nhân quả và quan sát, dẫn đến những nhầm lẫn phổ biến như câu hỏi này. Nhưng mặt khác, không, giả định này không cẩu thả theo nghĩa thực sự khác với giả sử đơn giản là .E(y|X)=Xβ

Mấu chốt của vấn đề ở đây là sự khác biệt giữa kỳ vọng có điều kiện, và phương trình cấu trúc (nguyên nhân) của , cũng như kỳ vọng cấu trúc (nhân quả) của nóy E [ Y | d o ( X ) ]E(y|X)yE[Y|do(X)] . Giả định tuyến tính trong Greene là một giả định cấu trúc . Hãy xem một ví dụ đơn giản. Hãy tưởng tượng phương trình cấu trúc là:

y=βx+γx2+ϵ

Bây giờ hãy để . Sau đó, chúng tôi sẽ có:E[ϵ|x]=δxγx2

E[y|x]=βx

trong đó . Hơn nữa, chúng ta có thể viết và chúng ta sẽ có . Điều này cho thấy chúng ta có thể có một kỳ vọng điều kiện tuyến tính được chỉ định chính xác mà theo định nghĩa sẽ có một nhiễu trực giao, nhưng phương trình cấu trúc sẽ là phi tuyến.β=β+δy=βx+ϵE[ϵ|x]=0E[y|x]

  1. Hoặc tôi phải chấp nhận rằng giả định tuyến tính không đặt cấu trúc trên mô hình mà chỉ định nghĩa một , trong đó các giả định khác sẽ sử dụng định nghĩa đó của để đưa cấu trúc lên mô hình?ϵϵ

Giả định tuyến tính xác định một , nghĩa là theo định nghĩa, trong đó biểu thị độ lệch của so với dự đoán của chúng tôi khi chúng tôi thử nghiệm bộ ( xem Pearl phần 5.4 ). Các giả định khác được sử dụng để xác định các tham số cấu trúc (ví dụ: giả định về tính ngoại sinh của cho phép bạn xác định kỳ vọng cấu trúc với kỳ vọng có điều kiện ) hoặc để lấy dẫn xuất các thuộc tính thống kê của các công cụ ước tínhϵϵ:=yXβ=yE[Y|do(X)]ϵy XϵE[Y|do(X)]E[Y|X] (ví dụ, giả định của homoskedasticity đảm bảo OLS là BLUE, giả định về tính quy tắc giúp dễ dàng rút ra kết quả "mẫu hữu hạn" để suy luận, v.v.).

Tuy nhiên, giả định tuyến tính tự nó không đặt bất kỳ cấu trúc nào vào mô hình của chúng tôi, vì có thể hoàn toàn tùy ý. Đối với bất kỳ biến nào, bất kể mối quan hệ giữa hai chúng ta có thể định nghĩa một sao cho giả định tuyến tính giữ.ϵX,yϵ

Tuyên bố của bạn ở đây đi vào vấn đề chính của suy luận nhân quả nói chung! Như đã chỉ ra trong ví dụ đơn giản ở trên, chúng ta có thể nấu các nhiễu loạn cấu trúc có thể làm cho kỳ vọng có điều kiện của được tuyến tính. Nói chung, một số mô hình cấu trúc (nhân quả) khác nhau có thể có cùng phân phối quan sát, bạn thậm chí có thể có quan hệ nhân quả mà không cần quan sát liên kết. Do đó, theo nghĩa này, bạn đã đúng --- chúng ta cần nhiều giả định hơn về để đưa "cấu trúc nhiều hơn" vào vấn đề và xác định các tham số cấu trúc bằng dữ liệu quan sát.yxϵβ

Lưu ý bên

Điều đáng nói là hầu hết các sách giáo khoa kinh tế lượng đều gây nhầm lẫn khi nói đến sự khác biệt giữa hồi quy và phương trình cấu trúc và ý nghĩa của chúng. Điều này đã được ghi nhận gần đây. Bạn có thể kiểm tra một bài báo của Chen và Pearl tại đây cũng như một cuộc khảo sát mở rộng của Chris Auld . Greene là một trong những cuốn sách được kiểm tra.


Cảm ơn, đây là câu trả lời tôi đang tìm kiếm. Vì vậy, khi bạn nói giả định tuyến tính là một giả định cấu trúc, vậy thì điều gì đòi hỏi chính xác về mối quan hệ nhân quả giữa và ? Vẫn có thể có một mối quan hệ nhân quả chính xác? Nó chỉ là mối quan hệ nhân quả trực tiếp từ đến là tuyến tính, phải không? Vẫn có thể có một hiệu ứng nhân quả phi tuyến tính cao của trên thông qua ? ϵxxyxy ϵ
dùng56834

1
@ Lập trình2134 đó là một lĩnh vực khác mà sách giáo khoa kinh tế lượng là cẩu thả, bạn sẽ thấy ít tham khảo đến các hiệu ứng trực tiếp / gián tiếp, hòa giải, v.v ... Nếu phương trình là cấu trúc, thì chúng ta có thể có một định nghĩa hoạt động của nhiễu loạn cấu trúc là sự khác biệt của với dự kiến tác động nhân quả của , đó là . Do đó, trong ý nghĩa này, các cấu trúc không phải là "gây ra" bởi . Tuy nhiên, điều này cho chúng ta không có gì về sự liên kết của và , vì chúng có thể có những nguyên nhân chung. X ε : = y - E [ Y | d o ( X ) ] = y - X beta ε X ε XyXϵ:=yE[Y|do(X)]=yXβϵXϵX
Carlos Cinelli

Nhân tiện, lập trình viên2134, mối quan tâm của bạn đang đi đúng hướng, tôi nghĩ rằng Pearl's Primer về suy luận nhân quả có thể là một người bạn đồng hành thú vị với Greene!
Carlos Cinelli

Tình cờ, tôi bắt đầu đọc "Nhân quả: Mô hình, Lý luận và Suy luận" của Pearl một thời gian trước đây. Tôi nghĩ rằng nó rất thú vị, nhưng nó hơi trừu tượng đối với tôi. Tôi không vượt ra khỏi chương 2. Bạn có nghĩ rằng "nguyên tắc suy luận nguyên nhân" sẽ phù hợp hơn không? (tức là giới thiệu các khái niệm trực giác hơn).
dùng56834

1
@ColorStatistic bạn có thể sử dụng hồi quy để dự báo, chắc chắn, nhưng sau đó giả định ngoại sinh không có vai trò gì. Đó là những gì OP bắt đầu nghi ngờ một mình, bằng cách đặt câu hỏi tại sao Greene không đơn giản viết giả định vì là tuyến tính. E(Y|x)
Carlos Cinelli

0

chỉnh sửa sau khi nhận xét của OP và Matthew Drury

Để trả lời câu hỏi này tôi giả sử Greene, và OP, có định nghĩa sau đây của tuyến tính trong tâm trí: tuyến tính phương tiện đó đối với mỗi gia tăng một đơn vị trong dự báo này, kết quả là tăng beta ( ), bất cứ nơi nào trên phạm vi các giá trị dự báo có thể sự gia tăng một đơn vị này xảy ra. Tức là hàm là và không ví dụ hoặc . Hơn nữa, giả định này tập trung vào betas và do đó áp dụng cho các yếu tố dự đoán (còn gọi là các biến độc lập). y = f ( x ) y = a + b x y = a + b x 2 y = a + s i n ( x )βy=f(x)y=a+bxy=a+bx2y=a+sin(x)

Kỳ vọng của phần dư có điều kiện trên mô hình là một cái gì đó khác. Đúng, đúng là toán học đằng sau hồi quy tuyến tính xác định / cố gắng xác định . Tuy nhiên, điều này thường được đặt trên toàn bộ phạm vi của các giá trị được trang bị / dự đoán cho . Nếu bạn nhìn vào phần cụ thể của dự đoán tuyến tính và giá trị dự đoán của , bạn có thể nhận thấy các biến ngẫu nhiên (khu vực nơi mà các biến thể của lớn hơn ở những nơi khác), hoặc các khu vực nơi . Một hiệp hội phi tuyến tính giữa 's và có thể là nguyên nhân cho điều này, nhưng không phải là lý do các biến ngẫu nhiên chỉ hoặcE ( ε | X ) = 0 y y ε E ( ε | X ) 0 x y E ( ε | X ) 0E(ϵ|X)E(ϵ|X)=0yyϵE(ϵ|X)0xyE(ϵ|X)0 có thể xảy ra (xem ví dụ thiếu thiên vị dự đoán).

Từ các ý kiến: OP tuyên bố "giả định tuyến tính không hạn chế mô hình theo bất kỳ cách nào, do epsilon là tùy ý và có thể là bất kỳ chức năng nào của XX", mà tôi đồng ý. Tôi nghĩ rằng điều này được làm rõ bởi hồi quy tuyến tính có thể phù hợp với bất kỳ dữ liệu nào, cho dù giả định tuyến tính có bị vi phạm hay không. Tôi đang suy đoán ở đây, nhưng đó có thể là lý do tại sao Greene đã chọn để giữ cho các lỗi trong công thức - lưu cho sau này - để biểu thị rằng trong giả định tuyến tính, (và không phải là dự kiến ) có thể được xác định dựa trên nhưng vẫn duy trì một số lỗi , bất kể những gì giá trị E ( ε | X ) = 0 y y X ε ε E ( ε | X ) = 0ϵE(ϵ|X)=0yyXϵϵnhận. Tôi chỉ có thể hy vọng rằng sau này anh ta sẽ tiếp tục nêu ra sự liên quan của .E(ϵ|X)=0

Nói tóm lại (thừa nhận, không đọc hết cuốn sách của Greene và kiểm tra lập luận của anh ấy):

  1. Greene có lẽ đề cập đến các betas là hằng số cho toàn bộ phạm vi của yếu tố dự đoán (cần nhấn mạnh vào beta trong các phương trình hoặc ; E ( ϵ | X ) = X βy=Xβ+ϵE(ϵ|X)=Xβ
  2. Giả định tuyến tính không đặt một số cấu trúc trên mô hình. Tuy nhiên, bạn nên lưu ý rằng các phép biến đổi hoặc bổ sung như spline trước khi mô hình hóa, có thể làm cho các liên kết phi tuyến tính phù hợp với khung hồi quy tuyến tính.

3
Điều này là hữu ích, nhưng sự hấp dẫn đối với tính liên tục là không cần thiết trong bất kỳ ý nghĩa nào. Máy móc hoạt động theo cách tương tự nếu chỉ dựa trên dự đoán. ( 0 , 1 )X(0,1)
Nick Cox

1
Bạn đã viết nhưng tôi nghĩ bạn có nghĩa là ,. f ( x )f(y)f(x)
Nick Cox

@NickCox Tôi đã chỉnh sửa những điểm này.
IWS

1
Ý bạn là gì bởi sự bình thường? Nếu bạn có nghĩa là bình thường thì nó không chính xác bởi vì epsilon không phải là bình thường để nó có kỳ vọng có điều kiện bằng không. Nhưng bạn có ý gì khác? Ngoài ra, có beta được giả định không đổi cho tất cả các quan sát. Và bạn nghĩ điều gì là sai với lập luận của tôi rằng giả định tuyến tính không hạn chế mô hình theo bất kỳ cách nào, do epsilon là tùy ý và có thể là bất kỳ chức năng nào của ? Lưu ý rằng tôi biết heteroskedasticity là gì và tuyến tính có nghĩa là tuyến tính trong các tham số, không phải trong các biến. X
dùng56834

3
Tôi không đồng ý với điều này. Giả định kỳ vọng không liên quan đến sự bình thường, nhưng hoàn toàn cần thiết để thực hiện bất kỳ ý nghĩa nào của giả định tuyến tính cấu trúc. Mặt khác, như đã lưu ý bởi op, giả định tuyến tính là vô nghĩa. Một giả định về tính quy tắc là một con thú khá khác biệt và thường không cần thiết.
Matthew Drury

-1

Tôi hơi bối rối với câu trả lời ở trên, do đó tôi sẽ cho nó một phát nữa. Tôi nghĩ rằng câu hỏi không thực sự là về hồi quy tuyến tính 'cổ điển' mà là về phong cách của nguồn cụ thể đó. Về phần hồi quy cổ điển:

Tuy nhiên, giả định tuyến tính tự nó không đặt bất kỳ cấu trúc nào lên mô hình của chúng tôi

Điều đó là hoàn toàn chính xác. Như bạn đã nói, có thể giết chết mối quan hệ tuyến tính và thêm một cái gì đó hoàn toàn độc lập với để chúng ta không thể tính toán bất kỳ mô hình nào cả.XϵX

Là Greene đang cẩu thả? Anh ta thực sự nên viết:E(y|X)=Xβ

Tôi không muốn trả lời câu hỏi đầu tiên nhưng hãy để tôi tổng hợp các giả định bạn cần cho hồi quy tuyến tính thông thường:

Giả sử bạn quan sát (bạn được cung cấp) các điểm dữ liệu và cho . Bạn cần giả sử rằng dữ liệu bạn đã quan sát xuất phát từ các biến ngẫu nhiên độc lập, phân phối giống hệt nhau sao cho ...y iR i = 1 , . . . , n ( x i , y i ) ( X i , Y i )xiRdyiRi=1,...,n(xi,yi)(Xi,Yi)

  1. tại một cố định (độc lập với ) sao cho cho tất cả và các biến ngẫu nhiên sao choiβRdYi=βXi+ϵiiϵi

  2. Các được IID cũng và được phân phối như ( phải độc lập của cũng)ϵiϵiN(0,σ)σi

  3. Với và các biến có mật độ chung, tức là biến ngẫu nhiên đơn có mật độX=(X1,...,Xn)Y=(Y1,...,Yn)X,Y(X,Y)fX,Y

Bây giờ bạn có thể chạy xuống đường dẫn thông thường và tính toán

fY|X(y|x)=fY,X(y,x)/fX(x)=(12πd)nexp(i=1n(yiβxi)22σ)

sao cho bằng 'tính hai mặt' thông thường giữa học máy (tối thiểu hóa các hàm lỗi) và lý thuyết xác suất (tối đa hóa khả năng) bạn tối đa hóa trong , thực tế, mang đến cho bạn các công cụ "RMSE" thông thường.logfY|X(y|x)β

Bây giờ như đã nêu: Nếu tác giả của cuốn sách bạn đang trích dẫn muốn đưa ra quan điểm này (điều bạn phải làm nếu bạn muốn tính toán đường hồi quy 'tốt nhất có thể' trong thiết lập cơ bản) thì có, anh ta phải đưa ra giả định này về tính bình thường của ở đâu đó trong cuốn sách.ϵ

Có nhiều khả năng khác nhau:

  • Ông không viết giả định này trong cuốn sách. Sau đó, nó là một lỗi trong cuốn sách.

  • Anh ta viết nó dưới dạng một nhận xét 'toàn cầu' như 'bất cứ khi nào tôi viết thì thường được phân phối với số 0 trung bình trừ khi có quy định khác'. Sau đó IMHO nó là phong cách xấu bởi vì nó gây ra chính xác sự nhầm lẫn mà bạn cảm thấy ngay bây giờ. Đó là lý do tại sao tôi có xu hướng viết các giả định ở một số dạng rút gọn trong mọi Định lý. Chỉ sau đó mỗi khối xây dựng có thể được xem sạch theo cách riêng của mình.+ϵϵ

    • Anh ấy viết nó sát với phần bạn đang trích dẫn và bạn / chúng tôi không nhận thấy điều đó (cũng có khả năng :-))

Tuy nhiên, cũng theo một nghĩa toán học nghiêm ngặt, lỗi thông thường là một cái gì đó kinh điển (phân phối với entropy cao nhất [một khi phương sai được cố định], do đó, tạo ra các mô hình mạnh nhất) để một số tác giả có xu hướng bỏ qua giả định này nhưng sử dụng không cần thiết . Chính thức, bạn hoàn toàn đúng: Họ đang sử dụng toán học theo "cách sai". Bất cứ khi nào họ muốn đưa ra phương trình cho mật độ như đã nêu ở trên thì họ cần phải biết khá tốt, nếu không, bạn chỉ cần có các thuộc tính của nó bay xung quanh trong mọi phương trình có ý nghĩa mà bạn cố gắng viết ra . ϵfY|Xϵ


3
các lỗi không cần phải được phân phối bình thường để sử dụng OLS.
dùng56834

(-1) Các lỗi không cần phải được phân phối bình thường. Trong thực tế, chúng thậm chí không cần phải độc lập hoặc phân phối giống hệt nhau để ước tính tham số không thiên vị và cho các thử nghiệm phải nhất quán. Thông số kỹ thuật nghiêm ngặt hơn nhiều của bạn là cần thiết để OLS trở thành một bài kiểm tra chính xác.
AdamO

@AdamO: À? Vậy làm thế nào để bạn tính toán khả năng sau đó? Hay đúng hơn là ... nếu bạn được yêu cầu thực hiện hồi quy tuyến tính: bạn chọn dòng hồi quy nào nếu lỗi không được phân phối bình thường và không độc lập? ϵi
Fabian Werner

1
@FabianWerner lựa chọn mô hình của tôi phụ thuộc vào câu hỏi sẽ được hỏi. Hồi quy tuyến tính ước tính xu hướng thứ tự đầu tiên trong một tập hợp dữ liệu, "quy tắc ngón tay cái" liên quan đến sự khác biệt về X với sự khác biệt trong Y. Nếu các lỗi không được phân phối bình thường, Lindeberg Feller CLT đảm bảo rằng các TCTD và PI gần đúng trong các mẫu thậm chí rất nhỏ. Nếu các lỗi không độc lập (và cấu trúc phụ thuộc không xác định), các ước tính không bị sai lệch mặc dù các SE có thể không chính xác. Ước tính lỗi bánh sandwich làm giảm bớt vấn đề này.
AdamO
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.