Tại sao chúng ta quan tâm rất nhiều về các thuật ngữ lỗi được phân phối thông thường (và homoskedasticity) trong hồi quy tuyến tính khi chúng ta không phải làm vậy?


52

Tôi cho rằng tôi cảm thấy thất vọng mỗi khi nghe ai đó nói rằng sự không bình thường của phần dư và / hoặc tính không đồng nhất vi phạm các giả định OLS. Để ước tính các tham số trong mô hình OLS, cả hai giả định này đều không cần thiết theo định lý Gauss-Markov. Tôi thấy vấn đề này quan trọng như thế nào trong Thử nghiệm giả thuyết cho mô hình OLS, bởi vì giả sử những điều này cho chúng ta công thức gọn gàng cho kiểm tra t, kiểm tra F và thống kê Wald tổng quát hơn.

Nhưng không quá khó để thực hiện kiểm tra giả thuyết mà không có chúng. Nếu chúng ta bỏ chỉ tính đồng nhất, chúng ta có thể tính toán các lỗi tiêu chuẩn mạnh và các lỗi tiêu chuẩn phân cụm một cách dễ dàng. Nếu chúng ta bỏ hoàn toàn tính quy tắc, chúng ta có thể sử dụng bootstrapping và, được cung cấp một đặc tả tham số khác cho các điều khoản lỗi, tỷ lệ khả năng và kiểm tra hệ số nhân Lagrange.

Thật là xấu hổ khi chúng tôi dạy nó theo cách này, bởi vì tôi thấy rất nhiều người đấu tranh với các giả định mà họ không phải gặp ở nơi đầu tiên.

Tại sao chúng ta nhấn mạnh những giả định này rất nhiều khi chúng ta có khả năng dễ dàng áp dụng các kỹ thuật mạnh mẽ hơn? Tôi có thiếu thứ gì quan trọng không?


2
Có vẻ là một điều kỷ luật. Theo kinh nghiệm của tôi, ở các thái cực, các văn bản Kinh tế lượng hầu như luôn đề cập đến những suy luận mà mỗi giả định mua và các văn bản Tâm lý học dường như không bao giờ đề cập đến bất cứ điều gì về chủ đề này.
liên hợp chiến

12
Homoscedasticity là cần thiết để OLS là MÀU XANH.
Momo

4
Tôi nghĩ bạn đã đúng, những giả định đó nhận được sự quan tâm không đáng có. Thất bại của tính quy phạm hoặc tính đồng nhất có điều kiện. không gần như gây bất lợi cho hầu hết các mục tiêu suy luận của các học viên là tính đồng nhất và các hình thức chức năng được chỉ định kém.
Đóng ToC

2
@CloseToC đây là một điểm rất tốt. Thông thường chúng ta rất quan tâm đến các kỹ thuật thống kê của mô hình hồi quy đến nỗi chúng ta quên mất bức tranh lớn hơn ... mô hình của tôi có được chỉ định chính xác và ngoại sinh không? Điều này cần được nhấn mạnh lặp đi lặp lại như một trong những câu hỏi chính để tự hỏi khi tạo bất kỳ mô hình nào.
Zachary Blumenfeld

Câu trả lời:


25

Trong Kinh tế lượng, chúng ta sẽ nói rằng tính phi quy phạm vi phạm các điều kiện của Mô hình hồi quy tuyến tính bình thường cổ điển, trong khi tính không đồng nhất vi phạm cả hai giả định của CNLR và Mô hình hồi quy tuyến tính cổ điển.

Nhưng những người nói rằng "... vi phạm OLS" cũng hợp lý: cái tên Ordinary Least-Squares xuất phát trực tiếp từ Gauss và chủ yếu đề cập đến các lỗi thông thường . Nói cách khác, "OLS" không phải là từ viết tắt của ước lượng bình phương nhỏ nhất (là một nguyên tắc và cách tiếp cận tổng quát hơn nhiều), mà là của CNLR.

Ok, đây là lịch sử, thuật ngữ và ngữ nghĩa. Tôi hiểu cốt lõi của câu hỏi của OP như sau: "Tại sao chúng ta nên nhấn mạnh lý tưởng, nếu chúng ta đã tìm ra giải pháp cho trường hợp khi nó không có mặt?" (Vì các giả định của CNLR lý tưởng, theo nghĩa là chúng cung cấp các thuộc tính ước lượng bình phương nhỏ nhất "ngoài giá" và không cần phải sử dụng các kết quả tiệm cận. ).

Là một lý tưởng, nó là một nơi tốt để bắt đầu giảng dạy . Đây là điều chúng tôi luôn làm trong việc dạy bất kỳ loại chủ đề nào: tình huống "đơn giản" là tình huống "lý tưởng", không có sự phức tạp mà người ta sẽ gặp trong cuộc sống thực và nghiên cứu thực tế, và không có giải pháp xác định nào tồn tại .

Và đây là điều tôi thấy có vấn đề về bài đăng của OP: anh ấy viết về các lỗi tiêu chuẩn mạnh mẽ và bootstrap như thể chúng là "giải pháp thay thế vượt trội", hoặc các giải pháp hoàn hảo cho việc thiếu các giả định đã nói trong cuộc thảo luận về việc OP viết

"..assumptions mà mọi người không phải đáp ứng"

Tại sao? Bởi vì có một số phương pháp xử lý tình huống, phương pháp có một số giá trị tất nhiên, nhưng chúng còn xa lý tưởng? Bootstrap và heteroskedasticity - các lỗi tiêu chuẩn mạnh mẽ không phải giải pháp - nếu chúng thực sự là như vậy, chúng sẽ trở thành mô hình chi phối, gửi CLR và CNLR đến sách lịch sử. Nhưng họ thì không.

Vì vậy, chúng tôi bắt đầu từ tập hợp các giả định đảm bảo các thuộc tính của công cụ ước tính mà chúng tôi cho là quan trọng (đó là một cuộc thảo luận khác cho dù các thuộc tính được chỉ định là mong muốn có thực sự là), để chúng tôi thấy rằng mọi vi phạm của chúng, đều có những hậu quả không thể được bù đắp hoàn toàn thông qua các phương pháp mà chúng tôi đã tìm thấy để đối phó với sự vắng mặt của những giả định này. Sẽ rất nguy hiểm, nói một cách khoa học, để truyền đạt cảm giác rằng "chúng ta có thể khởi động theo cách của chúng ta đến sự thật của vấn đề" - bởi vì, đơn giản, chúng ta không thể.

Vì vậy, họ vẫn là giải pháp không hoàn hảo cho một vấn đề , không phải là một cách thay thế và / hoặc chắc chắn là vượt trội để làm mọi việc. Do đó, trước tiên chúng ta phải dạy về tình huống không có vấn đề, sau đó chỉ ra các vấn đề có thể xảy ra và sau đó thảo luận về các giải pháp có thể. Mặt khác, chúng tôi sẽ nâng các giải pháp này lên một trạng thái mà họ không thực sự có.


Hmmm, nếu đó là những gì bạn muốn nói, bạn có thể thử "chứng minh đầy đủ".
gung - Phục hồi Monica

@gung Không, không, các phương pháp "được chứng minh đầy đủ" theo nghĩa toán học, nhưng không thể đánh lừa được những gì chúng thực sự cung cấp (chi tiết "nhỏ" này về triệu chứng không triệu chứng và giá trị của chúng là gì). Sửa chữa của bạn là đúng.
Alecos Papadopoulos

22

Nếu chúng tôi có thời gian trong lớp nơi lần đầu tiên chúng tôi giới thiệu các mô hình hồi quy để thảo luận về bootstrapping và các kỹ thuật khác mà bạn đã đề cập (bao gồm tất cả các giả định, cạm bẫy, v.v.), thì tôi sẽ đồng ý với bạn rằng không cần thiết phải nói về tính quy tắc và các giả định homoscedasticity. Nhưng trong thực tế, khi hồi quy lần đầu tiên được giới thiệu, chúng tôi không có thời gian để nói về tất cả những điều khác, vì vậy chúng tôi muốn các sinh viên thận trọng và kiểm tra những thứ có thể không cần thiết và tham khảo ý kiến ​​thống kê (hoặc lấy số liệu thống kê khác lớp hoặc 2 hoặc 3, ...) khi các giả định không giữ.

Nếu bạn nói với sinh viên rằng những giả định đó không quan trọng ngoại trừ khi ..., thì hầu hết sẽ chỉ nhớ phần không quan trọng và không quan trọng khi các phần.

Nếu chúng ta có một trường hợp có phương sai không bằng nhau, thì có, chúng ta vẫn có thể phù hợp với một dòng bình phương nhỏ nhất, nhưng nó vẫn là dòng "tốt nhất" chứ? hoặc sẽ tốt hơn nếu tham khảo ý kiến ​​của một người có nhiều kinh nghiệm / đào tạo về cách phù hợp với các dòng trong trường hợp đó. Ngay cả khi chúng tôi hài lòng với dòng bình phương nhỏ nhất, chúng tôi không nên thừa nhận rằng các dự đoán sẽ có các thuộc tính khác nhau cho các giá trị khác nhau của (các) dự đoán? Vì vậy, kiểm tra các phương sai không bằng nhau là tốt cho các diễn giải sau này, ngay cả khi chúng ta không cần nó cho các bài kiểm tra / khoảng / v.v. mà chúng tôi đang sử dụng.


Tôi hiểu và đánh giá cao những gì bạn nói đặc biệt là có một hạn chế đáng kể về thời gian. Những gì tôi thấy ở tổ chức của mình, là khi sinh viên vật lộn với những giả định này, họ thường không hoặc không thể nhận được tư vấn cần thiết. Vì vậy, cuối cùng họ chọn các dự án trên cơ sở phù hợp với các giả định mô hình hoặc sử dụng mô hình cổ điển không phù hợp để vi phạm các giả định. Tôi lập luận rằng bằng cách dạy các kỹ thuật mạnh mẽ hơn, sinh viên sẽ ít bị hạn chế hơn trong các lựa chọn và do đó được trao quyền để theo đuổi các dự án mà họ thực sự đam mê.
Zachary Blumenfeld

13
Bạn luôn bắt đầu với một trường hợp lý tưởng khi giảng dạy, sau đó đi vào tất cả các loại biến chứng. Về kinh tế học ở cấp độ tiến sĩ, họ dạy tất cả các loại công cụ kỳ lạ, nhưng phải mất thời gian để đến đó. Tôi không nghĩ rằng đó là một vấn đề giáo dục mà hầu hết mọi người xuống tàu ở đâu đó quanh cấp độ ThS. Trên thực tế, tôi sẽ khẳng định rằng vấn đề lớn hơn là sự phá hoại của sâu bệnh bởi các "nhà khoa học dữ liệu" đã bị nướng một nửa, với kiến ​​thức gần như bằng không về cơ sở thống kê áp dụng các gói R lạ mắt trái và phải, không biết họ đang làm gì và đấu tranh với làm cho ý nghĩa của đầu ra.
Aksakal

@Aksakal chính xác là bạn thấy những số lượng lớn các nhà phân tích quá tự tin, không đủ tiêu chuẩn? Bởi vì những gì tôi gặp thường xuyên hơn là gần như ngược lại. Mọi người sợ thử các kỹ thuật mà họ đã học trừ khi được sự chấp thuận đầu tiên từ một chuyên gia nhận thức. Chỉ trên trang web này, tôi chắc chắn rằng bạn đã thấy nhiều câu hỏi về tác dụng của "Tôi có được phép ..." hay "Nó có hợp lệ với ...." khi một câu hỏi dày dạn / mang tính xây dựng hơn sẽ được " Điều gì sẽ xảy ra nếu .... "
rolando2

18

1) hiếm khi mọi người chỉ muốn ước tính. Thông thường suy luận - Các TCTD, PI, xét nghiệm - là mục tiêu hoặc ít nhất là một phần của nó (ngay cả khi đôi khi nó được thực hiện tương đối không chính thức)

2) Những thứ như định lý Gauss Markov không nhất thiết phải giúp đỡ nhiều - nếu phân phối đủ xa so với bình thường, một công cụ ước tính tuyến tính không được sử dụng nhiều. Không có điểm nào để có được màu xanh nếu không có công cụ ước tính tuyến tính là rất tốt.

3) những thứ như công cụ ước tính sandwich liên quan đến một số lượng lớn các tham số ngầm. Nó vẫn có thể ổn nếu bạn có nhiều dữ liệu, nhưng nhiều lần mọi người không có.

4) Khoảng dự đoán dựa vào hình dạng phân phối có điều kiện bao gồm xử lý tốt phương sai khi quan sát - bạn không thể dễ dàng loại bỏ các chi tiết bằng PI.

5) những thứ như bootstrapping thường tiện dụng cho các mẫu rất lớn. Đôi khi chúng vật lộn trong các mẫu nhỏ - và thậm chí trong các mẫu có kích thước vừa phải, chúng tôi thường thấy rằng các thuộc tính bảo hiểm thực tế không giống như quảng cáo.

Điều đó có nghĩa là - một vài điều là loại thuốc chữa bách bệnh mà mọi người mong muốn. Tất cả những điều đó đều có vị trí của chúng, và chắc chắn có rất nhiều trường hợp không yêu cầu tính bình thường , và khi ước tính và suy luận (kiểm tra và TCTD) có thể được thực hiện một cách hợp lý mà không nhất thiết cần sự bình thường, phương sai không đổi, v.v.

Một điều thường dường như bị lãng quên là các giả định tham số khác có thể được thực hiện thay thế. Mọi người thường biết đủ về một tình huống để đưa ra một giả định tham số khá tốt (ví dụ: ... rằng phản ứng có điều kiện sẽ có xu hướng sai lệch với sd khá nhiều tỷ lệ có nghĩa là có thể khiến chúng ta xem xét mô hình gamma hoặc logic bất thường); thường thì điều này có thể đối phó với cả sự không đồng nhất và sự không bình thường trong một lần.

Một công cụ rất hữu ích là mô phỏng - với việc chúng ta có thể kiểm tra các thuộc tính của các công cụ của mình trong các tình huống rất giống với những công cụ mà dữ liệu của chúng ta có thể phát sinh từ đó, và do đó, sử dụng chúng trong kiến ​​thức an ủi rằng chúng có các đặc tính tốt trong những trường hợp đó ( hoặc, đôi khi, thấy rằng chúng không hoạt động tốt như chúng ta có thể hy vọng).


"hiếm khi mọi người chỉ muốn ước tính" - trong tài chính và kinh tế doanh nghiệp, mọi người ước tính rất nhiều để trêu chọc tác động của một biến số nhất định. Tôi đã đọc rất nhiều bài báo, trong đó các tác giả thậm chí không nhìn vào khoảng tin cậy, họ nhận thấy tầm quan trọng, tất nhiên, theo các giả định thông thường.
Aksakal

6
@Aksakal tốt, vâng, nhưng nếu họ chú ý đến các lỗi tiêu chuẩn, hoặc giá trị t, hoặc giá trị p, v.v ... thì theo tôi, họ không muốn ước tính. Cho dù họ có chính thức kiểm tra / xây dựng các khoảng thời gian hay không, đối với kiểu nhìn vào những thứ khác - tuy nhiên không chính thức - có ý nghĩa, chúng sẽ phải có ý nghĩa ngay từ đầu.
Glen_b
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.