Liệu thứ tự của các biến giải thích có quan trọng khi tính hệ số hồi quy của chúng không?


24

Lúc đầu, tôi nghĩ rằng thứ tự không thành vấn đề, nhưng sau đó tôi đọc về quá trình trực giao hóa gram-schmidt để tính toán nhiều hệ số hồi quy, và bây giờ tôi có suy nghĩ thứ hai.

Theo quy trình gram-schmidt, biến giải thích càng được lập chỉ mục giữa các biến khác, vectơ dư của nó càng nhỏ là do vectơ dư của các biến trước bị trừ khỏi nó. Do đó, hệ số hồi quy của biến giải thích cũng nhỏ hơn.

Nếu điều đó là đúng, thì vectơ dư của biến trong câu hỏi sẽ lớn hơn nếu nó được lập chỉ mục trước đó, vì ít vectơ còn lại sẽ bị trừ khỏi nó. Điều này có nghĩa là hệ số hồi quy cũng sẽ lớn hơn.

Ok, vì vậy tôi đã được yêu cầu làm rõ câu hỏi của tôi. Vì vậy, tôi đã đăng ảnh chụp màn hình từ văn bản khiến tôi bối rối ngay từ đầu. Ok, đi đây.

Hiểu biết của tôi là có ít nhất hai tùy chọn để tính các hệ số hồi quy. Tùy chọn đầu tiên được ký hiệu (3.6) trong ảnh chụp màn hình bên dưới.

Cách thứ nhất

Đây là tùy chọn thứ hai (tôi phải sử dụng nhiều ảnh chụp màn hình).

Cách thứ hai

nhập mô tả hình ảnh ở đây nhập mô tả hình ảnh ở đây

Trừ khi tôi đang đọc sai một cái gì đó (điều chắc chắn là có thể), có vẻ như thứ tự đó quan trọng trong tùy chọn thứ hai. Có vấn đề trong lựa chọn đầu tiên? Tại sao hay tại sao không? Hoặc là khung tham chiếu của tôi bị rối đến mức đây thậm chí không phải là một câu hỏi hợp lệ? Ngoài ra, đây có phải là tất cả bằng cách nào đó liên quan đến Sum I Squares vs Type II Sum of Squares?

Cảm ơn rất nhiều trước, tôi rất bối rối!


1
Bạn có thể phác thảo thủ tục chính xác làm thế nào các hệ số được tính toán? Từ những gì tôi biết về phản ứng gram-schmidt và cách áp dụng nó cho vấn đề hồi quy, tôi có thể đoán rằng bằng cách sử dụng thủ tục gs, bạn có thể có được sự phù hợp của hồi quy, nhưng không phải là hệ số ban đầu. Lưu ý rằng sự phù hợp hồi quy là hình chiếu vào không gian của các cột. Nếu bạn trực giao các cột bạn có được cơ sở trực giao của không gian bao trùm các cột, do đó sự phù hợp sẽ là kết hợp tuyến tính của cơ sở này và cũng là kết hợp tuyến tính của các cột ban đầu. Nó sẽ giống nhau ...
mpiktas

nhưng các hệ số sẽ khác nhau. Điều này là hoàn toàn bình thường.
mpiktas

Tôi đoán tôi bối rối vì tôi nghĩ rằng tôi đã đọc trong "Các yếu tố của học thống kê" rằng các hệ số được tính bằng quy trình gram-schmidt sẽ giống như các quy trình được tính bằng quy trình truyền thống: B = (X'X) ^ - 1 X'y.
Ryan Zotti

Dưới đây là đoạn trích từ cuốn sách nói về thủ tục: "Chúng ta có thể xem ước tính [của các hệ số] là kết quả của hai ứng dụng của hồi quy đơn giản. Các bước là: 1. hồi quy x trên 1 để tạo ra số dư z = x - x 1; 2. hồi quy y trên z dư để đưa ra hệ số βˆ1. Công thức này khái quát cho trường hợp đầu vào p, như trong Thuật toán 3.1. Lưu ý rằng các đầu vào z0, .., zj 1 trong bước 2 là trực giao, do đó các hệ số hồi quy đơn giản được tính toán trên thực tế cũng có các hệ số hồi quy bội. "
Ryan Zotti

Sẽ hơi lộn xộn khi tôi sao chép và dán vào phần bình luận ở đây, vì vậy có lẽ tốt nhất là chỉ cần nhìn vào nguồn trực tiếp. Đây là trang 53 đến 54 của "Các yếu tố của học thống kê" được tải xuống miễn phí trên trang web của Stanford: www-stat.stanford.edu/~tibs/ElemStatLearn .
Ryan Zotti

Câu trả lời:


22

Tôi tin rằng sự nhầm lẫn có thể phát sinh từ một cái gì đó đơn giản hơn một chút, nhưng nó cung cấp một cơ hội tốt để xem xét một số vấn đề liên quan.

Lưu ý rằng văn bản không cho rằng tất cả các hệ số hồi quy có thể được tính thông qua các vectơ dư liên tiếp là nhưng đúng hơn chỉ người cuối cùng , , có thể được tính theo cách này!β^i

β^i=?y,zizi2,
β^p

Lược đồ trực giao hóa liên tiếp (một dạng của trực giao trực giao Gram, Schmidt) là (gần như) tạo ra một cặp ma trận và sao cho trong đó là với các cột trực giao và là tam giác trên. Tôi nói "gần như" vì thuật toán chỉ xác định theo định mức của các cột, nói chung sẽ không phải là một, nhưng có thể được thực hiện để có định mức đơn vị bằng cách chuẩn hóa các cột và điều chỉnh đơn giản tương ứng với tọa độ ma trận .ZX = Z GGZ n × p G = ( g i j ) p × p

X=ZG,
Zn×pG=(gij)p×pGZG

Tất nhiên, giả sử rằng có thứ hạng , giải pháp bình phương tối thiểu duy nhất là vectơ giải quyết hệ thống p n β X T XXRn×ppnβ^

XTXβ^=XTy.

Thay thế và sử dụng (bằng cách xây dựng), chúng tôi nhận được tương đương với Z T Z = Tôi G T G βX=ZGZTZ=IG

GTGβ^=GTZTy,
Gβ^=ZTy.

Bây giờ, tập trung vào hàng cuối cùng của hệ thống tuyến tính. Phần tử khác không duy nhất của ở hàng cuối cùng là . Vì vậy, chúng tôi nhận được Không khó để thấy (xác minh đây là kiểm tra sự hiểu biết!) Màvà vì vậy điều này mang lại giải pháp. ( Nên biết trước đọc có : Tôi đã sử dụng đã bình thường hóa có mức đơn vị, trong khi đó trong cuốn sách họ có không .. Này tài khoản cho một thực tế rằng cuốn sách có một chuẩn mực bình trong mẫu số, trong khi tôi chỉ có tiêu chuẩn)g p p g p p β p =Ggppg p p = z pz i

gppβ^p=y,zp.
gpp=zpzi

Để tìm tất cả các hệ số hồi quy, người ta cần thực hiện một bước hỗ trợ đơn giản để giải quyết cho cá nhân . Ví dụ: đối với hàng , và vì vậy Người ta có thể tiếp tục quy trình này hoạt động "ngược" từ hàng cuối cùng của hệ thống cho đến lần đầu tiên, trừ đi các khoản tiền có trọng số của các hệ số hồi quy đã được tính toán và sau đó chia cho thuật ngữ hàng đầu để lấy .β^i(p1)

gp1,p1β^p1+gp1,pβ^p=zp1,y,
β^p1=gp1,p11zp1,ygp1,p11gp1,pβ^p.
giiβ^i

Điểm trong phần trong ESL là chúng ta có thể sắp xếp lại các cột của để có ma trận mới với cột ban đầu thứ hiện là cột cuối cùng. Sau đó, nếu chúng ta áp dụng quy trình Gram kèm Schmidt trên ma trận mới, chúng ta sẽ có được tính trực giao mới sao cho giải pháp cho hệ số gốc được tìm thấy bằng giải pháp đơn giản ở trên. Điều này cho chúng ta một giải thích cho hệ số hồi quy . Đó là một hồi quy đơn biến của trên vectơ dư thu được bằng cách "hồi quy" các cột còn lại của ma trận thiết kế từ .XX(r)rβ^rβ^ryxr

Phân tách QR chung

Thủ tục Gram-Schmidt, nhưng là một phương pháp tạo ra một phân hủy QR của . Thật vậy, có nhiều lý do để thích các cách tiếp cận thuật toán khác hơn so với quy trình Gram bồi Schmidt.X

Phản xạ của chủ nhà và xoay Givens cung cấp các cách tiếp cận ổn định hơn về mặt số cho vấn đề này. Lưu ý rằng sự phát triển trên không thay đổi trong trường hợp chung về phân tách QR. Cụ thể, chúng ta hãy có bất kỳ phân hủy QR của . Sau đó, bằng cách sử dụng chính xác các thao tác lý luận và đại số như trên, chúng ta có giải pháp bình phương nhỏ nhất thỏa mãn giúp đơn giản hóa thành Vì là tam giác trên, nên kỹ thuật backsubstlation tương tự hoạt động. Trước tiên chúng tôi giải quyết cho

X=QR,
Xβ^
RTRβ^=RTQTy,
Rβ^=QTy.
Rβ^pvà sau đó làm việc theo cách của chúng tôi ngược từ dưới lên trên. Sự lựa chọn thuật toán phân rã QR sử dụng thường xoay quanh việc kiểm soát sự không ổn định về số lượng và, từ quan điểm này, GramTHER Schmidt nói chung không phải là một cách tiếp cận cạnh tranh.

Khái niệm phân tách như một ma trận trực giao nhân một thứ khác có thể được khái quát thêm một chút nữa để có được một hình thức rất chung cho vectơ được trang bị , nhưng tôi sợ phản hồi này đã trở nên quá dài .yXy^


6

Tôi đã xem qua cuốn sách và có vẻ như bài tập 3.4 có thể hữu ích trong việc tìm hiểu khái niệm sử dụng GS để tìm tất cả các hệ số hồi quy (không chỉ là hệ số cuối cùng - vì vậy tôi đã gõ một giải pháp. hữu ích.βjβp

Bài tập 3,4 trong môn Tiếng Anh

Chỉ ra cách vectơ của các hệ số bình phương nhỏ nhất có thể thu được từ một lần chuyển của thủ tục Gram-Schmidt. Đại diện cho giải pháp của bạn về sự phân hủy QR của . X

Dung dịch

Hãy nhớ lại rằng bằng một lần duy nhất của thủ tục Gram-Schmidt, chúng ta có thể viết ma trận là trong đó chứa các cột trực giao và là một ma trận đường chéo trên với các đường chéo và . Đây là sự phản ánh của thực tế là theo định nghĩa,X

X=ZΓ,
ZzjΓγij=zi,xjzi2
xj=zj+k=0j1γkjzk.

Bây giờ, bằng cách phân tách , chúng ta có thể viết , trong đó là ma trận trực giao và là ma trận tam giác trên. Chúng ta có và , trong đó là ma trận đường chéo có. QRX=QRQRQ=ZD1R=DΓDDjj=zj

Bây giờ, theo định nghĩa của , chúng ta có Bây giờ, bằng cách sử dụng phân tách , chúng tôi cóβ^

(XTX)β^=XTy.
QR
(RTQT)(QR)β^=RTQTyRβ^=QTy

R là tam giác trên, chúng ta có thể viết theo kết quả trước đó của chúng tôi. Bây giờ, bằng cách thay thế trở lại, chúng ta có thể có được chuỗi các hệ số hồi quy . Ví dụ: để tính toán , chúng ta có βj

Rppβ^p=qp,yzpβ^p=zp1zp,yβ^p=zp,yzp2
β^jβ^p1β p-1βj
Rp1,p1β^p1+Rp1,pβ^p=qp1,yzp1β^p1+zp1γp1,pβ^p=zp11zp1,y
và sau đó giải quyết cho . Quá trình này có thể được lặp lại cho tất cả , do đó có được các hệ số hồi quy trong một lần thực hiện thủ tục Gram-Schmidt.β^p1βj

3

Tại sao không thử nó và so sánh? Điều chỉnh một tập hợp các hệ số hồi quy, sau đó thay đổi thứ tự và điều chỉnh lại chúng và xem chúng có khác nhau không (khác với lỗi làm tròn số có thể xảy ra).

Như @mpiktas chỉ ra rằng nó không rõ ràng chính xác những gì bạn đang làm.

Tôi có thể thấy việc sử dụng GS để giải trong phương trình bình phương nhỏ nhất . Nhưng sau đó, bạn sẽ thực hiện GS trên ma trận , chứ không phải dữ liệu gốc. Trong trường hợp này, các hệ số phải giống nhau (trừ lỗi làm tròn có thể xảy ra).( x x ) B = ( x y ) ( x x )B(xx)B=(xy)(xx)

Một cách tiếp cận khác của GS trong hồi quy là áp dụng GS cho các biến dự đoán để loại bỏ colinearity giữa chúng. Sau đó, các biến trực giao được sử dụng như các yếu tố dự đoán. Trong trường hợp này, các vấn đề thứ tự và các hệ số sẽ khác nhau bởi vì việc giải thích các hệ số phụ thuộc vào thứ tự. Hãy xem xét 2 dự đoán và và thực hiện GS theo chúng theo thứ tự đó sau đó sử dụng làm công cụ dự đoán. Trong trường hợp đó, hệ số thứ nhất (sau khi đánh chặn) cho thấy tác động của đối và hệ số thứ hai là hiệu ứng của trên sau khi điều chỉnh chox 2 x 1 y x 2 y x 1 x 2 y x 1 x 1 x 2x1x2x1yx2yx1. Bây giờ nếu bạn đảo ngược thứ tự của x thì hệ số đầu tiên sẽ hiển thị hiệu ứng của trên (bỏ qua thay vì điều chỉnh cho nó) và thứ hai là hiệu ứng của điều chỉnh cho .x2yx1x1x2


Tôi nghĩ rằng đoạn cuối cùng của bạn có lẽ là gần nhất với nguồn gốc của sự nhầm lẫn của tôi - GS thực hiện trật tự. Đó là những gì tôi nghĩ. Mặc dù vậy, tôi vẫn hơi bối rối vì cuốn sách tôi đang đọc có tên: "Các yếu tố của học thống kê" (một ấn phẩm của Stanford có sẵn miễn phí: www-stat.stanford.edu/~tibs/ElemStatLearn ) dường như đề nghị rằng GS tương đương với cách tiếp cận tiêu chuẩn để tính toán các hệ số; nghĩa là, B = (X'X) ^ - 1 X'y.
Ryan Zotti

Và một phần của những gì bạn nói cũng làm tôi bối rối: "Tôi có thể thấy việc sử dụng GS để giải B trong phương trình bình phương nhỏ nhất (xx) ^ - 1 B = (x′y). Nhưng sau đó bạn sẽ làm GS trên ma trận (x′x), không phải dữ liệu gốc. " Tôi nghĩ ma trận x'x chứa dữ liệu gốc? ... Ít nhất đó là những gì Yếu tố học tập thống kê nói. Nó nói x trong x'x là ma trận N theo p trong đó N là số lượng đầu vào (quan sát) và p là số lượng kích thước.
Ryan Zotti

Nếu GS không phải là quy trình chuẩn để tính các hệ số, thì thông thường được xử lý như thế nào? Sự dư thừa (collinearity) thường được phân phối giữa các x như thế nào? Theo truyền thống, không làm cho các hệ số không ổn định? Vậy thì điều đó có gợi ý rằng quy trình GS quy trình chuẩn không? Bởi vì quá trình GS cũng làm cho các hệ số không ổn định - một vectơ dư nhỏ hơn làm cho hệ số không ổn định.
Ryan Zotti

Ít nhất đó là những gì văn bản nói, "Nếu xp có tương quan cao với một số xk khác, vectơ còn lại zp sẽ gần bằng 0 và từ (3.28) hệ số βˆp sẽ rất không ổn định."
Ryan Zotti

2
Lưu ý rằng GS một hình thức phân tách QR.
Đức hồng y
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.