Các giả định bình phương nhỏ nhất


9

Giả sử mối quan hệ tuyến tính sau: , trong đó là biến phụ thuộc, một biến độc lập duy nhất và là thuật ngữ lỗi.Y i X i u iYi=β0+β1Xi+uiYiXiui

Theo Stock & Watson (Giới thiệu về Kinh tế lượng; Chương 4 ), giả định bình phương nhỏ thứ ba là khoảnh khắc thứ tư của Xiui là khác không và hữu hạn (0<E(Xi4)< and 0<E(ui4)<) .

Tôi có ba câu hỏi:

  1. Tôi không hoàn toàn hiểu vai trò của giả định này. OLS có sai lệch và không nhất quán nếu giả định này không giữ được hay chúng ta cần giả định này để suy luận?

  2. Stock và Watson viết "giả định này giới hạn xác suất vẽ một quan sát với các giá trị cực lớn của Xi hoặc ui ." Tuy nhiên, trực giác của tôi là giả định này là cực đoan. Có phải chúng ta gặp rắc rối nếu chúng ta có các ngoại lệ lớn (sao cho khoảnh khắc thứ tư là lớn) nhưng nếu các giá trị này vẫn là hữu hạn? Nhân tiện: định nghĩa cơ bản là một ngoại lệ là gì?

  3. Chúng ta có thể định dạng lại điều này như sau: "Sự bứt rứt của Xiui là khác không và hữu hạn?"


Thật không may, tôi không thể viết một câu trả lời đầy đủ ngay bây giờ nhưng để trả lời câu hỏi của bạn: 1, tính nhất quán của OLS hoạt động bất kể. 2, không có định nghĩa rõ ràng về các ngoại lệ tồn tại, nhưng OLS hoạt động tốt trong mẫu lớn với sự có mặt của các ngoại lệ. 3, đối với cuộc sống của tôi, tôi không thể nghĩ ra một ví dụ mà điều đó không đúng, nhưng ai đó có thể chứng minh tôi sai nên không có gì đảm bảo
Trả lời

5
Tôi tranh luận "nhưng OLS hoạt động tốt trong mẫu lớn khi có sự xuất hiện của ngoại lệ" ... lấy một ngoại lệ đủ lớn trong không gian x (nghĩa là một quan sát có ảnh hưởng) và một điểm duy nhất có thể buộc LS phù hợp để đi qua nó; nếu đó cũng là một ngoại lệ theo hướng Y, dòng của bạn vẫn sẽ đi qua một điểm, bất kể nó cực đoan đến mức nào.
Glen_b -Reinstate Monica

2
Outliers rất dễ xác định. Chúng là những quan sát không phù hợp với mô hình của phần lớn dữ liệu. Như ví dụ của Glen_b cho thấy, điểm như vậy có ảnh hưởng không đáng có đến sự phù hợp, ở giới hạn vượt xa tất cả các quan sát khác trong bộ dữ liệu, dẫn đến ước tính sai lệch cao.
user603

1
@ user603 Chắc chắn ... và vì vậy những gì ... Tôi chưa gặp phải một chương trình / tập lệnh tự động phát hiện các ngoại lệ và làm theo cách rõ ràng rằng tất cả chúng ta đồng ý là cách đúng đắn ... vì vậy trong khi tôi đồng ý với tình cảm của bạn, nó không giúp OP
Repmat

@Repmat: vui lòng đọc lại câu hỏi của OP. Nhận xét của tôi trực tiếp trả lời một trong những câu trong đó được chấm câu bằng dấu chấm hỏi.
user603

Câu trả lời:


9

Bạn không cần các giả định về các khoảnh khắc thứ 4 về tính nhất quán của công cụ ước tính OLS, nhưng bạn cần các giả định về các thời điểm cao hơn của ϵ cho tính chuẩn bất đối xứng và để ước lượng nhất quán ma trận hiệp phương sai tiệm cận là gì.xϵ

Trong một số ý nghĩa, đó là một điểm toán học, kỹ thuật, không phải là một điểm thực tế. Đối với OLS để làm việc tốt trong các mẫu hữu hạn trong một nghĩa nào đó đòi hỏi nhiều hơn các giả định tối thiểu cần thiết để đạt được sự nhất quán tiệm cận hoặc bình thường như .n

Điều kiện đủ để thống nhất:

Nếu bạn có phương trình hồi quy:

yi=xiβ+ϵi

Công cụ ước tính OLS có thể được viết là: b =β+( X ' Xb^

b^=β+(XXn)1(Xϵn)

Để thống nhất , bạn cần có thể áp dụng Định luật số lớn của Kolmogorov hoặc, trong trường hợp chuỗi thời gian với sự phụ thuộc nối tiếp, một cái gì đó giống như Định lý Ergodic của Karlin và Taylor sao cho:

1nXXpE[xixi]1nXϵpE[xiϵi]

Các giả định khác cần thiết là:

  • E[xixi] là thứ hạng đầy đủ và do đó ma trận không thể đảo ngược.
  • Các biến áp được xác định trước hoặc ngoại sinh nghiêm ngặt sao cho .E[xiϵi]=0

Sau đó và bạn nhận được(XXn)1(Xϵn)p0b^pβ

Nếu bạn muốn áp dụng định lý giới hạn trung tâm thì bạn cần giả định vào những thời điểm cao hơn, ví dụ: trong đó . Định lý giới hạn trung tâm là những gì mang lại cho bạn tính quy phạm tiệm cận của và cho phép bạn nói về các lỗi tiêu chuẩn. Đối với khoảnh khắc thứ hai để tồn tại, bạn cần tồn tại khoảnh khắc thứ 4 của và . Bạn muốn tranh luận rằng ở đâuE[gigi]gi=xiϵib^E[gigi]xϵn(1nixiϵi)dN(0,Σ)Σ=E[xixiϵi2] . Để làm việc này, phải là hữu hạn.Σ

Một cuộc thảo luận thú vị (thúc đẩy bài đăng này) được đưa ra trong Kinh tế lượng của Hayashi . (Xem thêm trang 149 để biết khoảnh khắc thứ 4 và ước tính ma trận hiệp phương sai.)

Thảo luận:

Những yêu cầu này vào khoảnh khắc thứ 4 có lẽ là một điểm kỹ thuật hơn là một điểm thực tế. Bạn có thể sẽ không gặp phải các bản phân phối bệnh lý trong đó đây là vấn đề trong dữ liệu hàng ngày? Đó là cho các giả định phổ biến hơn hoặc các giả định khác của OLS trở nên tồi tệ.

Một câu hỏi khác, chắc chắn đã được trả lời ở nơi khác trên Stackexchange, là bạn cần bao nhiêu mẫu cho các mẫu hữu hạn để tiến gần đến kết quả tiệm cận. Có một số ý nghĩa trong đó các ngoại lệ tuyệt vời dẫn đến sự hội tụ chậm. Ví dụ: thử ước tính giá trị trung bình của phân phối lognatural với phương sai thực sự cao. Giá trị trung bình mẫu là một công cụ ước lượng nhất quán, không thiên vị của trung bình dân số, nhưng trong trường hợp log-log bình thường với sự kurtosis dư thừa điên rồ, v.v ... (theo liên kết), kết quả mẫu hữu hạn thực sự khá tắt.

Hữu hạn so với vô hạn là một sự phân biệt cực kỳ quan trọng trong toán học. Đó không phải là vấn đề bạn gặp phải trong thống kê hàng ngày. Vấn đề thực tế là nhiều hơn trong các loại nhỏ so với lớn. Là phương sai, kurtosis vv ... đủ nhỏ để tôi có thể đạt được ước tính hợp lý cho kích thước mẫu của tôi?

Ví dụ bệnh lý trong đó công cụ ước tính OLS phù hợp nhưng không bình thường

Xem xét:

yi=bxi+ϵi
Trong đó nhưng được rút ra từ phân phối t với 2 bậc tự do, do đó . Ước tính OLS hội tụ xác suất đến nhưng phân phối mẫu cho ước tính OLS thường không được phân phối. Dưới đây là phân phối theo kinh nghiệm cho dựa trên 10000 mô phỏng hồi quy với 10000 quan sát.xiN(0,1)ϵiVar(ϵi)=bb^b^QQPlot cho công cụ ước tính (không hội tụ trong phân phối bình thường)

Việc phân phối không bình thường, đuôi quá nặng. Nhưng nếu bạn tăng mức độ tự do lên 3 để thời điểm thứ hai của tồn tại thì giới hạn trung tâm sẽ được áp dụng và bạn nhận được: b^ϵiQQPlot cho công cụ ước tính (hội tụ trong phân phối đến bình thường)

Mã để tạo ra nó:

beta = [-4; 3.7];
n = 1e5;    
n_sim = 10000;    
for s=1:n_sim
    X = [ones(n, 1), randn(n, 1)];  
    u  = trnd(2,n,1) / 100;
    y = X * beta + u;

    b(:,s) = X \ y;
end
b = b';
qqplot(b(:,2));

1
Câu trả lời tốt đẹp. Nhưng những điều sau đây thực sự phụ thuộc vào bối cảnh: Bạn sẽ không gặp phải các bản phân phối bệnh lý với những khoảnh khắc thứ 4 không tồn tại trong dữ liệu hàng ngày. Dữ liệu tài chính (lợi nhuận log trên tài sản tài chính) thường có phần nặng nề vì không có thời điểm thứ 4 hữu hạn. Vì vậy, mối quan tâm trong khoảnh khắc thứ 4 là rất thực tế ở đó. (Bạn có thể có thể thêm điều này như một ví dụ mẫu phụ vào yêu cầu của mình.) Ngoài ra, một câu hỏi: trong ví dụ của bạn, tại sao mang lại sự bình thường không có triệu chứng mặc dù không có khoảnh khắc thứ 4 hữu hạn? t(3)
Richard Hardy

1
@RichardHardy Bạn muốn trong đó . Bạn cần có khoảnh khắc thứ 4 tồn tại và về cơ bản là khoảnh khắc thứ hai trong khi không tương thích với . Σ=E[xixi ϵ 2 i ]ΣΣϵiϵ 2 i xixin(1nixiϵi)dN(0,Σ)Σ=E[xixiϵi2]ΣΣϵiϵi2xixi
Matthew Gunn

6
  1. Đây là một giả định đủ, nhưng không phải là một giả định tối thiểu [1]. OLS không được thiên vị trong các điều kiện này, nó chỉ là không phù hợp. Các đặc tính tiệm cận của OLS bị phá vỡ khi có thể có ảnh hưởng cực lớn và / hoặc nếu bạn có thể thu được số dư cực lớn. Bạn có thể không gặp phải một bài thuyết trình chính thức về định lý giới hạn trung tâm của Lindeberg Feller, nhưng đó là những gì họ đang giải quyết ở đây với điều kiện khoảnh khắc thứ tư, và điều kiện Lindeberg cho chúng ta về cơ bản điều tương tự: không có điểm ảnh hưởng chồng chéo, không có đòn bẩy cao điểm [2].X

  2. Những nền tảng lý thuyết của thống kê gây ra nhiều nhầm lẫn khi đun sôi cho các ứng dụng thực tế. Không có định nghĩa về một ngoại lệ, nó là một khái niệm trực quan. Để hiểu một cách đại khái, quan sát sẽ phải là điểm đòn bẩy cao hoặc điểm ảnh hưởng cao, ví dụ: điểm mà chẩn đoán xóa (DF beta) là rất lớn hoặc trong đó khoảng cách Mahalanobis trong các yếu tố dự đoán là lớn (trong các số liệu thống kê đơn biến đó chỉ là điểm Z). Nhưng hãy quay trở lại vấn đề thực tế: nếu tôi thực hiện một cuộc khảo sát ngẫu nhiên về con người và thu nhập hộ gia đình của họ, và trong số 100 người, 1 trong số những người tôi lấy mẫu là triệu phú, tôi đoán tốt nhất là triệu phú là đại diện cho 1% dân số . Trong một bài giảng về sinh học, các hiệu trưởng này được thảo luận và nhấn mạnh rằng bất kỳ công cụ chẩn đoán nào về cơ bản là thăm dò [3].không phải "phân tích loại trừ ngoại lệ là cái tôi tin", đó là "loại bỏ một điểm đã thay đổi hoàn toàn phân tích của tôi."

  3. Kurtosis là một đại lượng tỷ lệ phụ thuộc vào thời điểm phân phối thứ hai, nhưng giả định về phương sai hữu hạn, khác không đối với các giá trị này là ngầm định vì tài sản này không thể giữ trong giây thứ tư mà không phải trong giây thứ hai. Vì vậy, về cơ bản là có, nhưng nhìn chung tôi chưa bao giờ kiểm tra cả sự suy yếu hoặc khoảnh khắc thứ tư. Tôi không thấy chúng là một biện pháp thực tế hay trực quan. Trong thời đại này khi một biểu đồ hoặc biểu đồ phân tán được tạo ra bởi một ngón tay của một người, nó sẽ cho chúng ta sử dụng các thống kê chẩn đoán đồ họa định tính, bằng cách kiểm tra các lô này.

[1] /math/79773/how-does-one-prove-that-lindeberg-condition-is-satisfied

[2] http://projecteuclid.org/doad/pdf_1/euclid.ss/1177013818

[3] http://facemony.washington.edu/semerson/b517_2012/b517L03-2012-10-03/b517L03-2012-10-03.html


Như đã được chỉ ra trước đây, trực giác của mọi người về các ngoại lệ bị phá vỡ khi có nhiều hơn một trong số họ. Họ sẽ không nhất thiết phải nổi bật trong một âm mưu DF beta hoặc có điểm số z lớn bởi vì những thống kê này có thể bị ảnh hưởng bởi các ngoại lệ. Như chúng ta đã thảo luận trước đây, các ngoại lệ , nếu không được kiểm tra, sẽ tạo ra các hệ số sai lệch trừ khi bạn loại bỏ chúng hoặc sử dụng một kỹ thuật ước tính mạnh mẽ cho chúng.
user603

1
Tôi nghĩ tổng quát hơn, khi bày tỏ ý kiến, câu trả lời của bạn sẽ đạt được bằng cách đưa con trỏ vào tài liệu liên quan để OP biết ý kiến ​​nào trong số những ý kiến ​​này được tổ chức rộng rãi.
user603

@ user603 Theo nhận xét đầu tiên của bạn, tôi chưa chỉ ra DFbetas (hoặc bất kỳ công cụ chẩn đoán nào) như một phương pháp độc quyền để xác định các ngoại lệ, nhưng chắc chắn là một phương pháp hữu ích. Khi thực hiện các suy luận bán tham số (mô hình trung bình đúng) các ngoại lệ KHÔNG thiên vị các mô hình LS, Bạn có thể tạo một tham chiếu hoặc thậm chí là một ví dụ trong mọi trường hợp khác với LS không tham số không? Nhận xét thứ hai của bạn là một bình luận tốt và tôi sẽ dành vài phút tiếp theo để cung cấp trích dẫn.
AdamO

Câu nói của bạn, "OLS không bị sai lệch trong các điều kiện này, nó không nhất quán" là không chính xác. Những khoảnh khắc cao hơn là cần thiết cho sự bình thường tiệm cận. Chúng không cần thiết cho sự thống nhất trong các mẫu IID nơi áp dụng Luật số lượng lớn Kolmogorov.
Matthew Gunn
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.