Các giả định thông thường cho hồi quy tuyến tính là gì?
Họ có bao gồm:
- một mối quan hệ tuyến tính giữa biến độc lập và biến phụ thuộc
- lỗi độc lập
- phân phối lỗi bình thường
- đồng đẳng
Có ai khác không?
Các giả định thông thường cho hồi quy tuyến tính là gì?
Họ có bao gồm:
Có ai khác không?
Câu trả lời:
Câu trả lời phụ thuộc rất nhiều vào cách bạn xác định đầy đủ và thông thường. Giả sử chúng ta viết mô hình hồi quy tuyến tính theo cách sau:
Trong đó là vectơ của các biến dự đoán, là tham số quan tâm, là biến trả lời và là nhiễu. Một trong những ước tính có thể có của là ước tính bình phương nhỏ nhất:
Thực tế bây giờ tất cả các sách giáo khoa đều xử lý các giả định khi ước tính này có các thuộc tính mong muốn, chẳng hạn như không thiên vị, nhất quán, hiệu quả, một số thuộc tính phân phối, v.v.
Mỗi thuộc tính này đòi hỏi một số giả định nhất định, không giống nhau. Vì vậy, câu hỏi tốt hơn sẽ là hỏi những giả định nào là cần thiết cho các thuộc tính mong muốn của ước tính LS.
Các thuộc tính tôi đề cập ở trên đòi hỏi một số mô hình xác suất để hồi quy. Và ở đây chúng ta có tình huống các mô hình khác nhau được sử dụng trong các lĩnh vực ứng dụng khác nhau.
Trường hợp đơn giản là coi là một biến ngẫu nhiên độc lập, với là không ngẫu nhiên. Tôi không thích từ thông thường, nhưng chúng ta có thể nói rằng đây là trường hợp thông thường trong hầu hết các lĩnh vực được áp dụng (theo như tôi biết).
Dưới đây là danh sách một số thuộc tính mong muốn của ước tính thống kê:
Sự tồn tại
Tài sản tồn tại có vẻ kỳ lạ, nhưng nó rất quan trọng. Trong định nghĩa của chúng tôi đảo ngược ma trận
Không đảm bảo rằng nghịch đảo của ma trận này tồn tại cho tất cả các biến thể có thể có của . Vì vậy, chúng tôi ngay lập tức nhận được giả định đầu tiên của chúng tôi:
Ma trận phải có thứ hạng đầy đủ, tức là không thể đảo ngược.
Không thiên vị
Chúng tôi có
nếu
Chúng tôi có thể đánh giá nó là giả định thứ hai, nhưng chúng tôi có thể đã tuyên bố hoàn toàn, vì đây là một trong những cách tự nhiên để xác định mối quan hệ tuyến tính.
Lưu ý rằng để có được tính không thiên vị, chúng tôi chỉ yêu cầu cho tất cả và là hằng số. Tài sản độc lập là không cần thiết.
Tính nhất quán
Để có được các giả định về tính nhất quán, chúng ta cần nói rõ hơn về ý nghĩa của việc . Đối với chuỗi các biến ngẫu nhiên, chúng ta có các chế độ hội tụ khác nhau: trong xác suất, gần như chắc chắn, trong phân phối và ý nghĩa thời điểm -th. Giả sử chúng ta muốn có được sự hội tụ trong xác suất. Chúng ta có thể sử dụng luật của số lượng lớn hoặc sử dụng trực tiếp bất đẳng thức Ch Quashev đa biến (sử dụng thực tế là ):
(Biến thể của bất đẳng thức này xuất phát trực tiếp từ việc áp dụng bất đẳng thức của Markov cho , lưu ý rằng .)
Vì khả năng hội tụ có nghĩa là thuật ngữ tay trái phải biến mất đối với mọi là , nên chúng ta cần là . Điều này là hoàn toàn hợp lý vì với nhiều dữ liệu hơn, độ chính xác mà chúng tôi ước tính sẽ tăng lên.
Chúng ta có
Độc lập đảm bảo rằng , do đó biểu thức đơn giản hóa thành
Bây giờ giả sử , sau đó
Bây giờ nếu chúng tôi yêu cầu thêm được giới hạn cho mỗi , chúng tôi ngay lập tức nhận được
Vì vậy, để có được tính nhất quán, chúng tôi giả định rằng không có tự động tương quan ( ), phương sai là không đổi và không tăng quá nhiều. Giả định đầu tiên được thỏa mãn nếu đến từ các mẫu độc lập.
Hiệu quả
Kết quả kinh điển là định lý Gauss-Markov . Các điều kiện cho nó chính xác là hai điều kiện đầu tiên cho tính nhất quán và điều kiện cho tính không thiên vị.
Thuộc tính phân phối
Nếu bình thường, chúng tôi ngay lập tức nhận được là bình thường, vì đó là sự kết hợp tuyến tính của các biến ngẫu nhiên bình thường. Nếu chúng ta giả định các giả định độc lập trước đây, không tương quan và phương sai không đổi, chúng ta sẽ nhận được
trong đó .
Nếu không bình thường, nhưng độc lập, chúng ta có thể nhận được phân phối gần đúng của nhờ định lý giới hạn trung tâm. Đối với điều này chúng ta cần phải thừa nhận rằng
đối với một số ma trận . Phương sai không đổi cho tính quy tắc tiệm cận là không bắt buộc nếu chúng ta giả sử rằng
Lưu ý rằng với phương sai liên tục của , ta có . Định lý giới hạn trung tâm sau đó cho chúng ta kết quả như sau:
Vì vậy, từ điều này, chúng ta thấy rằng sự độc lập và phương sai không đổi đối với và các giả định nhất định cho cung cấp cho chúng ta rất nhiều thuộc tính hữu ích cho ước tính LS .
Điều này là những giả định có thể được thư giãn. Ví dụ: chúng tôi yêu cầu không phải là biến ngẫu nhiên. Giả định này không khả thi trong các ứng dụng kinh tế lượng. Nếu chúng ta để là ngẫu nhiên, chúng ta có thể nhận được kết quả tương tự nếu sử dụng các kỳ vọng có điều kiện và tính đến tính ngẫu nhiên của . Giả định độc lập cũng có thể được nới lỏng. Chúng tôi đã chứng minh rằng đôi khi chỉ cần sự không tương quan là cần thiết. Ngay cả điều này có thể được nới lỏng hơn nữa và vẫn có thể chỉ ra rằng ước tính LS sẽ nhất quán và không có triệu chứng bình thường. Xem ví dụ cuốn sách của White để biết thêm chi tiết.
Có một số câu trả lời tốt ở đây. Tuy nhiên, có một giả định chưa được nêu rõ (ít nhất là không rõ ràng). Cụ thể, mô hình hồi quy giả định rằng (các giá trị của các biến giải thích / dự đoán của bạn) là cố định và đã biết và tất cả sự không chắc chắn trong tình huống tồn tại trong biếnNgoài ra, độ không đảm bảo này được coi là lỗi lấy mẫu .
Dưới đây là hai cách để nghĩ về điều này: Nếu bạn đang xây dựng một mô hình giải thích (mô hình hóa kết quả thử nghiệm), bạn biết chính xác mức độ của các biến độc lập là gì, bởi vì bạn đã thao tác / quản lý chúng. Hơn nữa, bạn đã quyết định những mức đó sẽ là gì trước khi bạn bắt đầu thu thập dữ liệu. Vì vậy, bạn đang khái niệm hóa tất cả sự không chắc chắn trong mối quan hệ như tồn tại trong phản ứng. Mặt khác, nếu bạn đang xây dựng một mô hình dự đoán, thì đúng là tình huống sẽ khác, nhưng bạn vẫn đối xử với các dự đoán như thể chúng đã được sửa và biết, bởi vì, trong tương lai, khi bạn sử dụng mô hình để dự đoán về giá trị có khả năng của , bạn sẽ có một vectơ,và mô hình được thiết kế để xử lý các giá trị đó như thể chúng là chính xác. Đó là, bạn sẽ quan niệm về sự không chắc chắn là giá trị không xác định của .
Các giả định này có thể được nhìn thấy trong phương trình của mô hình hồi quy nguyên mẫu: Một mô hình không chắc chắn (có thể do lỗi đo lường) trong cũng có thể có cùng quy trình tạo dữ liệu ước tính sẽ giống như thế này: trong đó đại diện cho lỗi đo ngẫu nhiên. (Các tình huống như sau này đã dẫn đến lỗi trong các mô hình biến ; kết quả cơ bản là nếu có lỗi đo lường trong , thì ngây thơ
Một hệ quả thực tế của nội tại không đối xứng trong giả định điển hình là hồi quy trên khác với hồi quy trên . (Xem câu trả lời của tôi ở đây: Sự khác biệt giữa thực hiện hồi quy tuyến tính trên y với x so với x với y? Để thảo luận chi tiết hơn về thực tế này.)
Các giả định của mô hình hồi quy tuyến tính cổ điển bao gồm:
Mặc dù các câu trả lời ở đây đã cung cấp một cái nhìn tổng quan tốt về giả định OLS cổ điển, bạn có thể tìm thấy một mô tả toàn diện hơn về giả định của mô hình hồi quy tuyến tính cổ điển ở đây:
https: // ec economtheoryblog.com/2015/04/01/ols_assumptions/
Ngoài ra, bài viết mô tả hậu quả trong trường hợp một người vi phạm một số giả định nhất định.
Đưa cái gì?!
Một câu trả lời là các giả định hơi khác nhau có thể được sử dụng để chứng minh việc sử dụng ước lượng bình phương nhỏ nhất (OLS) thông thường. OLS là một công cụ giống như một cái búa: bạn có thể sử dụng búa trên móng tay nhưng bạn cũng có thể sử dụng nó trên chốt, để phá vỡ băng, v.v ...
Hai loại giả định rộng là những loại áp dụng cho các mẫu nhỏ và các loại dựa trên các mẫu lớn để có thể áp dụng định lý giới hạn trung tâm .
Các giả định mẫu nhỏ như được thảo luận trong Hayashi (2000) là:
Theo (1) - (4), định lý Gauss-Markov được áp dụng và công cụ ước lượng bình phương nhỏ nhất thông thường là công cụ ước lượng không thiên vị tuyến tính tốt nhất.
Hơn nữa giả sử các thuật ngữ lỗi bình thường cho phép kiểm tra giả thuyết . Nếu các điều khoản lỗi là điều kiện bình thường, việc phân phối công cụ ước tính OLS cũng có điều kiện bình thường.
Một điểm đáng chú ý khác là với tính quy phạm, công cụ ước tính OLS cũng là công cụ ước tính khả năng tối đa .
Các giả định này có thể được sửa đổi / nới lỏng nếu chúng ta có một mẫu đủ lớn để chúng ta có thể dựa vào định luật số lượng lớn (để thống nhất công cụ ước tính OLS) và định lý giới hạn trung tâm (để phân phối mẫu của công cụ ước tính OLS hội tụ phân phối bình thường và chúng ta có thể thực hiện kiểm tra giả thuyết, nói về giá trị p, v.v ...).
Hayashi là một anh chàng kinh tế vĩ mô và các giả định mẫu lớn của anh ta được xây dựng với bối cảnh chuỗi thời gian trong tâm trí:
Bạn có thể gặp các phiên bản mạnh hơn của các giả định này, ví dụ: các điều khoản lỗi là độc lập.
Thích hợp giả định mẫu lớn giúp bạn có được một bản phân phối mẫu của ước lượng OLS đó là tiệm bình thường.
Hayashi, Fumio, 2000, Kinh tế lượng
Đó là tất cả về những gì bạn muốn làm với mô hình của bạn. Hãy tưởng tượng nếu lỗi của bạn bị sai lệch tích cực / không bình thường. Nếu bạn muốn tạo một khoảng dự đoán, bạn có thể làm tốt hơn là sử dụng phân phối t. Nếu phương sai của bạn nhỏ hơn ở các giá trị dự đoán nhỏ hơn, một lần nữa, bạn sẽ tạo ra một khoảng dự đoán quá lớn.
Tốt hơn là nên hiểu tại sao các giả định ở đó.
Các sơ đồ sau đây cho thấy những giả định nào được yêu cầu để có được hàm ý nào trong các kịch bản hữu hạn và tiệm cận.
Tôi nghĩ rằng điều quan trọng là không chỉ nghĩ về những giả định là gì, mà còn ý nghĩa của những giả định đó là gì. Ví dụ: nếu bạn chỉ quan tâm đến việc có các hệ số không thiên vị, thì bạn không cần tính đồng nhất.
Sau đây là các giả định của phân tích hồi quy tuyến tính.
Đặc điểm kỹ thuật chính xác . Các hình thức chức năng tuyến tính được chỉ định chính xác.
Ngoại lệ nghiêm ngặt . Các lỗi trong hồi quy nên có giá trị trung bình có điều kiện.
Không có đa hình . Các biến hồi quy trong X phải độc lập tuyến tính.
Homoscedasticity có nghĩa là thuật ngữ lỗi có cùng phương sai trong mỗi quan sát.
Không tự tương quan : các lỗi không tương quan giữa các quan sát.
Bình thường. Đôi khi, người ta cũng cho rằng các lỗi có phân phối bình thường có điều kiện trên các biến hồi quy.
Các quan sát của Iid : độc lập với và có cùng phân phối với, cho tất cả .
Để biết thêm thông tin truy cập trang này .
Không có thứ gọi là một danh sách các giả định, sẽ có ít nhất 2: một cho cố định và một cho ma trận thiết kế ngẫu nhiên. Ngoài ra, bạn có thể muốn xem xét các giả định cho hồi quy chuỗi thời gian (xem trang 13)
Trường hợp khi ma trận thiết kế được cố định có thể là trường hợp phổ biến nhất và các giả định của nó thường được biểu diễn dưới dạng định lý Gauss-Markov . Thiết kế cố định có nghĩa là bạn thực sự kiểm soát các biến hồi quy. Chẳng hạn, bạn tiến hành một thí nghiệm và có thể đặt các tham số như nhiệt độ, áp suất, v.v. Xem thêm trang 13 tại đây .
Thật không may, trong các ngành khoa học xã hội như kinh tế, bạn hiếm khi có thể kiểm soát các thông số của thí nghiệm. Thông thường, bạn quan sát những gì xảy ra trong nền kinh tế, ghi lại các số liệu môi trường, sau đó hồi quy chúng. Hóa ra đó là một tình huống rất khác và khó khăn hơn, được gọi là một thiết kế ngẫu nhiên . Trong trường hợp này, định lý Gauss-Markov được sửa đổi cũng xem p.12 ở đây . Bạn có thể thấy các điều kiện hiện được thể hiện như thế nào theo xác suất có điều kiện , đây không phải là một thay đổi vô hại.
Trong kinh tế lượng, các giả định có tên:
Lưu ý rằng tôi không bao giờ đề cập đến tính bình thường. Đó không phải là một giả định tiêu chuẩn. Nó thường được sử dụng trong các khóa hồi quy giới thiệu vì nó làm cho một số dẫn xuất dễ dàng hơn, nhưng nó không bắt buộc để hồi quy hoạt động và có các thuộc tính đẹp.
Giả định của tuyến tính là mô hình là tuyến tính trong các tham số. Sẽ rất tốt nếu có một mô hình hồi quy với các hiệu ứng bậc hai hoặc bậc cao hơn miễn là hàm công suất của biến độc lập là một phần của mô hình phụ gia tuyến tính. Nếu mô hình không chứa các điều khoản bậc cao hơn khi cần, thì sự thiếu phù hợp sẽ được thể hiện rõ trong âm mưu của phần dư. Tuy nhiên, các mô hình hồi quy tiêu chuẩn không kết hợp các mô hình trong đó biến độc lập được nâng lên thành sức mạnh của một tham số (mặc dù có các cách tiếp cận khác có thể được sử dụng để đánh giá các mô hình đó). Các mô hình như vậy chứa các tham số phi tuyến tính.
Hệ số hồi quy bình phương nhỏ nhất cung cấp một cách để tóm tắt xu hướng thứ tự đầu tiên trong bất kỳ loại dữ liệu nào. @mpiktas trả lời là một điều trị triệt để các điều kiện theo đó các bình phương nhỏ nhất đang ngày càng tối ưu. Tôi muốn đi theo con đường khác và hiển thị trường hợp tổng quát nhất khi hình vuông nhỏ nhất hoạt động. Chúng ta hãy xem công thức tổng quát nhất của phương trình bình phương nhỏ nhất:
Nó chỉ là một mô hình tuyến tính cho trung bình có điều kiện của phản ứng.
Lưu ý tôi đã khóa thuật ngữ lỗi. Nếu bạn muốn tóm tắt tính không chắc chắn của , thì bạn phải kháng cáo với định lý giới hạn trung tâm. Loại ước lượng bình phương nhỏ nhất chung hội tụ về mức bình thường khi điều kiện Lindeberg được đáp ứng : đun sôi, điều kiện Lindeberg cho bình phương tối thiểu yêu cầu tỷ lệ phần bình phương lớn nhất còn lại bằng tổng của phần dư bình phương phải về 0 như . Nếu thiết kế của bạn sẽ tiếp tục lấy mẫu dư lớn hơn và lớn hơn, thì thử nghiệm sẽ "chết trong nước".
Khi điều kiện Lindeberg được đáp ứng, tham số hồi quy được xác định rõ và công cụ ước tính là một công cụ ước tính không thiên vị có phân phối xấp xỉ đã biết. Ước tính hiệu quả hơn có thể tồn tại. Trong các trường hợp khác của tính không đồng nhất, hoặc dữ liệu tương quan, thông thường một công cụ ước lượng có trọng số sẽ hiệu quả hơn . Đó là lý do tại sao tôi sẽ không bao giờ ủng hộ việc sử dụng các phương pháp ngây thơ khi những phương pháp tốt hơn có sẵn. Nhưng họ thường không!