Nếu là thứ hạng đầy đủ, nghịch đảo của tồn tại và chúng tôi nhận được ước tính bình phương nhỏ nhất: và
Làm thế nào chúng ta có thể giải thích bằng trực giác trong công thức phương sai? Kỹ thuật phái sinh là rõ ràng đối với tôi.
Nếu là thứ hạng đầy đủ, nghịch đảo của tồn tại và chúng tôi nhận được ước tính bình phương nhỏ nhất: và
Làm thế nào chúng ta có thể giải thích bằng trực giác trong công thức phương sai? Kỹ thuật phái sinh là rõ ràng đối với tôi.
Câu trả lời:
Xem xét một hồi quy đơn giản không có thuật ngữ không đổi và trong đó hồi quy đơn được tập trung vào giá trị trung bình mẫu của nó. Khi đó là ( lần) phương sai mẫu của nó và recirpocal của nó. Vì vậy, phương sai = biến thiên trong biến hồi quy càng cao, phương sai của công cụ ước lượng hệ số càng thấp: chúng ta càng có nhiều biến thiên trong biến giải thích, chúng ta càng có thể ước tính chính xác hơn hệ số chưa biết.
Tại sao? Bởi vì một biến hồi quy càng khác nhau, nó càng chứa nhiều thông tin. Khi các biến hồi quy là rất nhiều, điều này khái quát đến nghịch đảo của ma trận phương sai hiệp phương sai của chúng, cũng tính đến tính đồng biến của các biến hồi quy. Trong trường hợp cực đoan khi là đường chéo, thì độ chính xác cho từng hệ số ước tính chỉ phụ thuộc vào phương sai / biến thiên của biến hồi quy liên quan (với phương sai của thuật ngữ lỗi).
Một cách đơn giản để xem là tương tự ma trận (đa biến) của , đây là phương sai của hệ số độ dốc trong hồi quy OLS đơn giản. Người ta thậm chí có thể nhận được cho phương sai đó bằng cách sử dụng phương thức chặn trong mô hình, tức là bằng cách thực hiện hồi quy thông qua gốc.σ 2 σ2
Từ một trong những công thức này, có thể thấy rằng sự biến thiên lớn hơn của biến dự đoán nói chung sẽ dẫn đến ước tính chính xác hơn về hệ số của nó. Đây là ý tưởng thường được khai thác trong thiết kế các thí nghiệm, trong đó bằng cách chọn các giá trị cho các yếu tố dự đoán (không ngẫu nhiên), người ta cố gắng đưa ra định thức của càng lớn càng tốt, yếu tố quyết định là thước đo độ biến thiên.
Biến đổi tuyến tính của biến ngẫu nhiên Gaussian có giúp được không? Sử dụng các quy tắc mà nếu , sau đó A x + b ~ N ( A μ + b , Một T Σ Một ) .
Giả sử, rằng là mô hình cơ bản và ε ~ N ( 0 , σ 2 ) .
Vì vậy, chỉ là một ma trận mở rộng quy mô phức tạp mà biến đổi sự phân bố của .
Hy vọng rằng nó hữu ích.
Tôi sẽ có một cách tiếp cận khác để phát triển trực giác làm nền tảng cho công thức . Khi phát triển trực giác cho mô hình hồi quy bội, thật hữu ích khi xem xét mô hình hồi quy tuyến tính bivariate,viz. ,yi=α+βxi+εi,α + β x i thường được gọi là sự đóng góp xác định để y i , và ε i được gọi là đóng góp ngẫu nhiên. Biểu diễn theo độ lệch từ các phương tiện mẫu ( ˉ x , ˉ y ) , mô hình này cũng có thể được viết như sau ( y i - ˉ y ) = β ( x i - ˉ x ) + ( ε
Để giúp đỡ phát triển trực giác, chúng tôi sẽ giả định rằng đơn giản giả định Gauss-Markov được thỏa mãn: nonstochastic, Σ n i = 1 ( x i - ˉ x ) 2 > 0 cho tất cả n , và ε i ~ iid ( 0 , σ 2 ) cho tất cả i = 1 , ... , n . Như bạn đã biết rất rõ, những điều kiện này đảm bảo rằng Var trong đó Var
Tại sao nên tăng gấp đôi kích thước mẫu, ceteris tố khác không đổi , nguyên nhân phương sai của β được cắt giảm một nửa? Kết quả này được gắn liền với giả định iid áp dụng cho ε : Kể từ khi lỗi cá nhân được giả định là iid, mỗi quan sát cần được điều trị ex ante như là bình đẳng thông tin. Và, nhân đôi số lượng quan sát nhân đôi lượng thông tin về các tham số mô tả mối quan hệ (giả định tuyến tính) giữa x và y . Có gấp đôi số thông tin sẽ giảm sự không chắc chắn về các tham số xuống một nửa. Tương tự, cần đơn giản để phát triển trực giác của một người về lý do nhân đôi cũng tăng gấp đôi phương sai của β .
Hãy lần lượt, sau đó, cho câu hỏi chính của bạn, đó là về phát triển trực giác đối với khiếu nại rằng phương sai của β là tỷ lệ nghịch với sự thay đổi của x . Để chính thức hóa các khái niệm, chúng ta hãy xem xét hai mô hình hồi quy tuyến tính bivariate riêng biệt, được gọi là Model ( 1 ) và Model ( 2 ) kể từ bây giờ. Chúng tôi sẽ cho rằng cả hai mô hình đáp ứng các giả định của hình thức đơn giản nhất của định lý Gauss-Markov và các mô hình chia sẻ cùng các giá trị chính xác của α , β , n , và σ 2 . Theo các giả định này, thật dễ dàng để chỉ ra rằng E; trong các từ, cả hai công cụ ước tính đều không thiên vị. Quan trọng hơn, chúng tôi cũng sẽ cho rằng trong khi ˉ x ( 1 ) = ˉ x ( 2 ) = ˉ x ,Var . Không mất tính tổng quát, chúng ta hãy giả sử rằng Var . Những ước lượng của β sẽ có phương sai nhỏ hơn? Nói cách khác, sẽ beta hoặc β gần hơn,trung bình, đếnβ? Từ cuộc thảo luận trước đó, chúng ta cóVarchok=1,2. VìVar theo giả định, theo sau Var . Vậy thì, trực giác đằng sau kết quả này là gì?
Bởi vì theo giả định , trung bình mỗi x ( 1 ) i sẽxatừ ˉ x hơn là trường hợp, trung bình, cho x ( 2 ) i . Hãy để chúng tôi biểu thị sự khác biệt tuyệt đối trung bình dự kiến giữa x i và ˉ x bởi d x . Giả định rằng Var ngụ ý rằng d ( 1 ) x > d ( 2 ) x . Mô hình hồi quy tuyến tính bivariate, được biểu thị bằng độ lệch so với phương tiện, nói rằng d y = β d ( 1 ) x cho Model ( 1 ) và d y = β d ( 2 ) x cho Model ( 2 ) . Nếu β ≠ 0, Điều này có nghĩa rằng các thành phần xác định của mô hình , β d ( 1 ) x , có một ảnh hưởng lớn hơn trên d y hơn hiện các thành phần xác định của mô hình ( 2 ) , β d ( 2 ) x . Nhớ lại rằng cả hai mô hình được giả định để đáp ứng các giả định Gauss-Markov, trong đó phương sai lỗi đều giống nhau ở cả hai mô hình, và đó là β ( 1 ) = β ( 2 ) = β . Kể từ khi làm người mẫu nhiều thông tin hơn về sự đóng góp của thành phần xác định của y so với Mô hình ( 2 ) , theo đóđộ chính xácmà đóng góp xác định có thể được ước tính là lớn hơn đối với Mô hình ( 1 ) so với Mô hình ( 2) ) . Các converse chính xác hơn là một sai dưới của ước lượng điểm của β .
Một cách hợp lý là đơn giản để khái quát hóa trực giác thu được từ việc nghiên cứu mô hình hồi quy đơn giản đến mô hình hồi quy tuyến tính đa biến. Biến chứng chính là thay vì so sánh phương sai vô hướng, cần phải so sánh "kích thước" của ma trận phương sai - hiệp phương sai. Có kiến thức làm việc tốt về các yếu tố quyết định, dấu vết và giá trị bản địa của ma trận đối xứng thực sự rất hữu ích tại thời điểm này :-)
Giả sử chúng ta có quan sát (hoặc cỡ mẫu) và tham số p .
Hiệp phương sai ma trận của các thông số ước tính beta 1 , β 2 vv là một biểu tượng của tính chính xác của các thông số ước tính.
Nếu trong một thế giới lý tưởng, dữ liệu có thể được mô hình hoàn hảo mô hình, thì tiếng ồn sẽ là . Bây giờ, các mục đường chéo của Var ( β ) tương ứng với Var ( ^ β 1 ) , Var ( ^ β 2 ) , vv Các công thức có nguồn gốc cho phương sai đồng ý với trực giác rằng nếu tiếng ồn thấp, ước tính sẽ có nhiều chính xác
Ngoài ra, khi số lượng phép đo trở nên lớn hơn, phương sai của các tham số ước tính sẽ giảm. Vì vậy, tổng giá trị tuyệt đối của các mục của sẽ cao hơn, vì số cột của X T là n và số hàng của X là n và mỗi mục của X T X là tổng của n sản phẩm cặp. Giá trị tuyệt đối của các mục nhập nghịch đảo ( X T X ) - 1 sẽ thấp hơn.
Do đó, ngay cả khi có nhiều nhiễu, chúng ta vẫn có thể đạt được ước tính tốt của các tham số nếu chúng ta tăng kích thước mẫu n .
Tôi hi vọng cái này giúp được.
Tham khảo: Phần 7.3 về bình phương tối thiểu: Cosentino, Carlo và Declan Bates. Kiểm soát phản hồi trong hệ thống sinh học. Báo chí Crc, 2011.
Điều này được xây dựng dựa trên câu trả lời của @Alecos Papadopuolos.
Hãy nhớ lại rằng kết quả của hồi quy bình phương nhỏ nhất không phụ thuộc vào đơn vị đo lường các biến của bạn. Giả sử biến X của bạn là số đo chiều dài, tính bằng inch. Sau đó, thay đổi kích thước X, bằng cách nhân 2,54 để thay đổi đơn vị thành centimet, không ảnh hưởng trọng yếu đến mọi thứ. Nếu bạn chỉnh lại mô hình, ước tính hồi quy mới sẽ là ước tính cũ chia cho 2,54.
Các ma trận là phương sai của X, và do đó phản ánh quy mô của đo lường của X. Nếu bạn thay đổi quy mô, bạn phải phản ánh điều này trong dự toán của bạn của β , và điều này được thực hiện bằng cách nhân với các nghịch đảo của X ' X .