Có phải tiêu chuẩn hóa các biến độc lập làm giảm cộng tuyến?


12

Tôi đã bắt gặp một văn bản rất hay trên Bayes / MCMC. CNTT gợi ý rằng việc tiêu chuẩn hóa các biến độc lập của bạn sẽ giúp thuật toán MCMC (Đô thị) hiệu quả hơn, nhưng cũng có thể làm giảm (đa) cộng tuyến. Điều đó có thể đúng không? Đây có phải là một cái gì đó tôi nên làm như là tiêu chuẩn . (Xin lỗi).

Kruschke 2011, Thực hiện phân tích dữ liệu Bayes. (AP)

chỉnh sửa: ví dụ

     > data(longley)
     > cor.test(longley$Unemployed, longley$Armed.Forces)

Pearson's product-moment correlation

     data:  longley$Unemployed and longley$Armed.Forces 
     t = -0.6745, df = 14, p-value = 0.5109
     alternative hypothesis: true correlation is not equal to 0 
     95 percent confidence interval:
     -0.6187113  0.3489766 
     sample estimates:
      cor 
     -0.1774206 

     > standardise <- function(x) {(x-mean(x))/sd(x)}
     > cor.test(standardise(longley$Unemployed), standardise(longley$Armed.Forces))

Pearson's product-moment correlation

     data:  standardise(longley$Unemployed) and standardise(longley$Armed.Forces) 
     t = -0.6745, df = 14, p-value = 0.5109
      alternative hypothesis: true correlation is not equal to 0 
     95 percent confidence interval:
      -0.6187113  0.3489766 
      sample estimates:
       cor 
     -0.1774206 

Điều này đã không làm giảm mối tương quan hoặc do đó mặc dù sự phụ thuộc tuyến tính hạn chế của các vectơ.

Chuyện gì đang xảy ra vậy?

R

Câu trả lời:


18

Nó không thay đổi sự cộng tác giữa các hiệu ứng chính. Thu nhỏ cũng không. Bất kỳ biến đổi tuyến tính sẽ không làm điều đó. Những gì nó thay đổi là mối tương quan giữa các hiệu ứng chính và tương tác của chúng. Ngay cả khi A và B độc lập với tương quan bằng 0, thì mối tương quan giữa A và A: B sẽ phụ thuộc vào các yếu tố tỷ lệ.

Hãy thử làm như sau trong bảng điều khiển R. Lưu ý rằng rnormchỉ cần tạo các mẫu ngẫu nhiên từ một phân phối bình thường với các giá trị dân số bạn đặt, trong trường hợp này là 50 mẫu. Các scalechức năng chuẩn hóa mẫu đến trung bình 0 và SD trong tổng số 1.

set.seed(1) # the samples will be controlled by setting the seed - you can try others
a <- rnorm(50, mean = 0, sd = 1)
b <- rnorm(50, mean = 0, sd = 1)
mean(a); mean(b)
# [1] 0.1004483 # not the population mean, just a sample
# [1] 0.1173265
cor(a ,b)
# [1] -0.03908718

Tương quan ngẫu nhiên là gần 0 đối với các mẫu độc lập này. Bây giờ bình thường hóa thành trung bình của 0 và SD của 1.

a <- scale( a )
b <- scale( b )
cor(a, b)
# [1,] -0.03908718

Một lần nữa, đây là cùng một giá trị mặc dù giá trị trung bình là 0 và SD = 1 cho cả hai ab.

cor(a, a*b)
# [1,] -0.01038144

Điều này cũng rất gần 0. (a * b có thể được coi là thuật ngữ tương tác)

Tuy nhiên, thông thường SD và giá trị trung bình của các yếu tố dự đoán khác nhau một chút vì vậy hãy thay đổi b. Thay vì lấy một mẫu mới, tôi sẽ bán lại bản gốc bđể có giá trị trung bình là 5 và SD là 2.

b <- b * 2 + 5
cor(a, b)
 # [1] -0.03908718

Một lần nữa, mối tương quan quen thuộc mà chúng ta đã thấy tất cả cùng. Tỷ lệ không có tác động đến mối tương quan giữa ab. Nhưng!!

cor(a, a*b)
# [1,] 0.9290406

Bây giờ điều đó sẽ có một mối tương quan đáng kể mà bạn có thể thực hiện bằng cách định tâm và / hoặc tiêu chuẩn hóa. Tôi thường chỉ đi với trung tâm.


1
+1 cho câu trả lời toàn diện và dễ hiểu (có mã!)
Peter Flom - Tái lập Monica

1
Nó cũng hữu ích nếu bạn muốn bao gồm, giả sử, một thuật ngữ bậc hai.
Aniko

hoàn toàn Aniko
John

1
Câu trả lời tốt nhất - cảm ơn vì điều này. Tôi có thể đã làm cho cuốn sách trở nên bất công khi hiểu sai về nó, nhưng có lẽ nó đáng để phơi bày sự thiếu hiểu biết của tôi.
rosser

7

Như những người khác đã đề cập, tiêu chuẩn hóa thực sự không liên quan gì đến cộng tác.

Cộng tác hoàn hảo

Chúng ta hãy bắt đầu với tiêu chuẩn hóa (hay còn gọi là chuẩn hóa), ý nghĩa của nó là trừ đi giá trị trung bình và chia cho độ lệch chuẩn sao cho giá trị trung bình kết quả bằng 0 và độ lệch chuẩn cho thống nhất. Vì vậy, nếu biến ngẫu nhiên có nghĩa là và độ lệch chuẩn , thìμ X σ XXμXσX

ZX=XμXσX

có nghĩa là và độ lệch chuẩn với các thuộc tính của giá trịphương sai dự kiến mà , và , , trong đó là rv và là hằng số.μZ=0σZ=1E(X+a)=E(X)+aE(bX)=bE(X)Var(X+a)=Var(X)Var(bX)=b2Var(X)Xa,b

Chúng ta nói rằng hai biến và là một cách hoàn hảo thẳng hàng nếu có tồn tại các giá trị như vậy và rằngXYλ0λ1

Y=λ0+λ1X

Điều gì tiếp theo, nếu có nghĩa là và độ lệch chuẩn , thì có nghĩa là và độ lệch chuẩn . Bây giờ, khi chúng tôi chuẩn hóa cả hai biến (loại bỏ phương tiện của chúng và chia cho độ lệch chuẩn), chúng tôi nhận được ...XμXσXYμY=λ0+λ1μXσY=λ1σXZX=ZX

Tương quan

Tất nhiên cộng tuyến hoàn hảo không phải là điều mà chúng ta thường thấy, nhưng các biến tương quan mạnh cũng có thể là một vấn đề (và chúng là các loài có liên quan với cộng tuyến). Vì vậy, tiêu chuẩn hóa có ảnh hưởng đến tương quan? Vui lòng so sánh các ô sau đây cho thấy hai biến tương quan trên hai ô trước và sau khi chia tỷ lệ: nhập mô tả hình ảnh ở đây

Bạn có thể nhận ra sự khác biệt? Như bạn có thể thấy, tôi cố tình loại bỏ các nhãn trục, để thuyết phục bạn rằng tôi không gian lận, hãy xem các lô có nhãn được thêm vào:

nhập mô tả hình ảnh ở đây

Về mặt toán học, nếu tương quan

Corr(X,Y)=Cov(X,Y)Var(X)Var(Y)

sau đó với các biến collinear chúng ta có

Corr(X,Y)=E[(XμX)(YμY)]σXσY=E[(XμX)(λ0+λ1Xλ0λ1μX)]σXλ1σX=E[(XμX)(λ1Xλ1μX)]σXλ1σX=E[(XμX)λ1(XμX)]σXλ1σX=λ1E[(XμX)(XμX)]σXλ1σX=E[(XμX)(XμX)]σXσX

bây giờ kể từ ,Cov(X,X)=Var(X)

=Cov(X,X)σX2=Var(X)Var(X)=1

Trong khi với các biến được tiêu chuẩn hóa

Corr(ZX,ZY)=E[(ZX0)(ZY0)]1×1=Cov(ZX,ZY)=Var(ZX)=1

kể từ khi ...ZX=ZY

Cuối cùng, lưu ý rằng điều Kruschke đang nói đến , đó là việc chuẩn hóa các biến giúp cho việc lấy mẫu Gibbs dễ dàng hơn và dẫn đến giảm mối tương quan giữa đánh chặn và độ dốc trong mô hình hồi quy mà anh ta trình bày. Ông không nói rằng việc chuẩn hóa các biến làm giảm sự cộng tuyến giữa các biến.


0

Tiêu chuẩn hóa không ảnh hưởng đến mối tương quan giữa các biến. Chúng vẫn giống hệt nhau. Sự tương quan nắm bắt sự đồng bộ hóa hướng của các biến. Không có gì trong tiêu chuẩn hóa làm thay đổi hướng của các biến.

Nếu bạn muốn loại bỏ tính đa hình giữa các biến của mình, tôi khuyên bạn nên sử dụng Phân tích thành phần chính (PCA). Như bạn đã biết PCA rất hiệu quả trong việc loại bỏ vấn đề đa cộng đồng. Mặt khác, PCA biểu hiện các biến kết hợp (các thành phần chính P1, P2, v.v ...) khá mờ. Một mô hình PCA luôn khó giải thích hơn nhiều so với mô hình đa biến truyền thống hơn.


Một thay thế hiện đại, thường tốt hơn, là chính quy.
kjetil b halvorsen 16/07/19

Tôi đã thử nghiệm lựa chọn biến giữa các thuật toán tiêu chuẩn từng bước và LASSO. Và, LASSO đến trong một giây rất xa. LASSO xử phạt các ảnh hưởng của biến, nó có thể chọn các biến yếu hơn các biến mạnh hơn. Nó thậm chí có thể gây ra các dấu hiệu thay đổi. Và, nó phá vỡ toàn bộ khung ý nghĩa thống kê, Khoảng tin cậy và Khoảng dự đoán. LASSO đôi khi có thể làm việc. Nhưng, hãy nhìn thật kỹ vào biểu đồ MSE so với Lambda và đồ thị Hệ số so với Lambda. Đó là nơi bạn có thể quan sát trực quan nếu mô hình LASSO của bạn hoạt động.
Sympa

0

Nó không làm giảm sự cộng tác, nó có thể làm giảm VIF. Thông thường chúng tôi sử dụng VIF làm chỉ báo cho mối quan tâm về cộng tác.

Nguồn: http://blog.minitab.com/blog/adventures-in-statistic-2/what-are-the-effects-of-multicollinearity-and-when-can-i-ignore-them


2
Chào mừng đến với trang web. Hiện tại đây là một nhận xét nhiều hơn là một câu trả lời. Bạn có thể mở rộng nó, có lẽ bằng cách đưa ra một bản tóm tắt thông tin tại liên kết hoặc chúng tôi có thể chuyển đổi nó thành một nhận xét cho bạn. Ngoài ra, việc tôi đọc bài đăng được liên kết không hoàn toàn là việc tiêu chuẩn hóa làm giảm VIF mà không làm giảm tính cộng tác. Ví dụ của họ rất cụ thể và nhiều sắc thái hơn thế.
gung - Phục hồi Monica

-3

Tiêu chuẩn hóa là một cách phổ biến để giảm cộng tuyến. (Bạn sẽ có thể xác minh rất nhanh rằng nó hoạt động bằng cách thử nó trên một vài cặp biến.) Việc bạn có thực hiện thường xuyên hay không phụ thuộc vào mức độ cộng tác của vấn đề trong các phân tích của bạn.

Chỉnh sửa: Tôi thấy tôi đã có lỗi. Mặc dù vậy, việc chuẩn hóa làm gì là giảm tính cộng tác với các điều khoản sản phẩm (thuật ngữ tương tác).


Hmm, bạn có thể giải thích? Tiêu chuẩn hóa chỉ thay đổi giá trị trung bình và phương sai của một biến ngẫu nhiên (tương ứng là 0 và 1). Điều này không nên thay đổi mối tương quan giữa hai biến. Tôi thấy cách tiêu chuẩn hóa có thể cải thiện hiệu quả tính toán, nhưng không phải làm thế nào nó làm giảm đa tuyến.
Charlie

Không, tôi đã mất ... làm thế nào điều đó có thể thay đổi sự phụ thuộc tuyến tính của các phần tử cột trong ma trận của các yếu tố dự đoán. (Không phải đó là những gì cộng tác là về?)
rosser

Mặc dù không đúng khi tiêu chuẩn hóa thay đổi cộng tuyến theo nghĩa toán học thuần túy, nó có thể cải thiện tính ổn định số của các thuật toán để giải các hệ tuyến tính. Đó có thể là nguồn gốc của sự nhầm lẫn trong trả lời này.
whuber

Tiêu chuẩn hóa không làm giảm tính đa hình. Nó thường không thay đổi mối tương quan giữa các biến.
Sympa
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.