Một số dự đoán của tôi ở các thang đo rất khác nhau - tôi có cần chuyển đổi chúng trước khi lắp mô hình hồi quy tuyến tính không?


9

Tôi muốn chạy hồi quy tuyến tính trên một tập dữ liệu đa chiều. Có sự khác biệt giữa các chiều khác nhau về mức độ trật tự của chúng. Chẳng hạn, thứ nguyên 1 thường có phạm vi giá trị là [0, 1] và thứ nguyên 2 có phạm vi giá trị là [0, 1000].

Tôi có cần thực hiện bất kỳ chuyển đổi nào để đảm bảo phạm vi dữ liệu cho các kích thước khác nhau có cùng tỷ lệ không? Nếu nó phải, có bất kỳ hướng dẫn cho loại chuyển đổi này?

Câu trả lời:


14

Các biến số / thay đổi tỷ lệ sẽ không ảnh hưởng đến mối tương quan của chúng với phản hồi

Để xem tại sao điều này là đúng, giả sử rằng mối tương quan giữa và là . Khi đó mối tương quan giữa và làX ρ Y ( X - a ) / bYXρY(Xa)/b

cov(Y,(Xa)/b)SD((Xa)/b)SD(Y)=cov(Y,X/b)SD(X/b)SD(Y)=1bcov(Y,X)1bSD(X)SD(Y)=ρ

theo định nghĩa của mối tương quan và ba sự kiện:

  • cov(Y,X+a)=cov(Y,X)+cov(Y,a)=0=cov(Y,X)

  • cov(Y,aX)=acov(Y,X)

  • SD(aX)=aSD(X)

Do đó, về mặt phù hợp với mô hình (ví dụ hoặc các giá trị được trang bị), việc dịch chuyển hoặc chia tỷ lệ các biến của bạn (ví dụ: đặt chúng trên cùng một tỷ lệ) sẽ không thay đổi mô hìnhR2 , vì các hệ số hồi quy tuyến tính có liên quan đến mối tương quan giữa các biến. Nó sẽ chỉ thay đổi thang đo của các hệ số hồi quy của bạn , điều này cần được ghi nhớ khi bạn diễn giải đầu ra nếu bạn chọn chuyển đổi các dự đoán của mình.

Chỉnh sửa: Ở trên đã giả sử rằng bạn đang nói về hồi quy thông thường với phần chặn. Một vài điểm nữa liên quan đến điều này (cảm ơn @cardinal):

  • Chặn có thể thay đổi khi bạn chuyển đổi các biến của mình và, như @cardinal chỉ ra trong các nhận xét, các hệ số sẽ thay đổi khi bạn thay đổi các biến của mình nếu bạn bỏ qua phần chặn từ mô hình, mặc dù tôi cho rằng bạn không làm điều đó trừ khi bạn có một lý do tốt (xem ví dụ câu trả lời này ).

  • Nếu bạn đang thường xuyên hóa các hệ số của mình theo một cách nào đó (ví dụ Lasso, hồi quy sườn), thì việc định tâm / chia tỷ lệ sẽ tác động đến sự phù hợp. Ví dụ: nếu bạn đang phạt (hình phạt hồi quy sườn núi) thì bạn không thể phục hồi mức phù hợp tương đương sau khi tiêu chuẩn hóa trừ khi tất cả các biến có cùng tỷ lệ ở vị trí đầu tiên, nghĩa là không có bội số liên tục sẽ phục hồi cùng một hình phạt.βi2

Về thời điểm / lý do tại sao một nhà nghiên cứu có thể muốn chuyển đổi các yếu tố dự đoán

Một tình huống phổ biến (được thảo luận trong câu trả lời tiếp theo của @Paul) là các nhà nghiên cứu sẽ chuẩn hóa các dự đoán của họ để tất cả các hệ số sẽ ở cùng một thang đo. Trong trường hợp đó, kích thước của các ước tính điểm có thể đưa ra một ý tưởng sơ bộ về các yếu tố dự đoán nào có ảnh hưởng lớn nhất một khi cường độ số của yếu tố dự đoán đã được chuẩn hóa.

Một lý do khác mà một nhà nghiên cứu có thể muốn mở rộng các biến rất lớn là do các hệ số hồi quy không ở quy mô cực kỳ nhỏ. Ví dụ: nếu bạn muốn xem xét ảnh hưởng của quy mô dân số của một quốc gia đến tỷ lệ tội phạm (không thể nghĩ ra một ví dụ tốt hơn), bạn có thể muốn đo kích thước dân số theo hàng triệu thay vì theo đơn vị ban đầu, vì hệ số có thể là một cái gì đó như ..00000001


Hai nhận xét nhanh: Mặc dù phần đầu của bài viết là chính xác, nhưng nó bỏ lỡ thực tế là việc định tâm sẽ có hiệu lực nếu không có phần chặn. :) Thứ hai, định tâm và thay đổi kích thước có tác dụng quan trọng nếu sử dụng chính quy. Mặc dù OP có thể không xem xét điều này, nhưng đây vẫn có thể là một điểm hữu ích cần ghi nhớ.
Đức hồng y

Sự bất biến đối với việc thay đổi kích thước cũng dễ dàng được nhìn thấy nếu một người cảm thấy thoải mái với ký hiệu ma trận. Với xếp hạng đầy đủ (để đơn giản), . Bây giờ nếu chúng ta thay bằng trong đó là đường chéo, chúng ta sẽ nhận đượcXy^=X(XX)1XyXXDD
y~=(XD)((XD)XD)1(XD)y=XD(DXXD)1DXy=X(XX)1Xy=y^.
Đức hồng y

@cardinal, tôi đã quyết định đề cập đến một thực tế rằng, nếu ước tính của bạn được thường xuyên hóa thì việc định tâm / chia tỷ lệ có thể có tác động. Lúc đầu tôi chống cự vì tôi nghĩ rằng nó sẽ bắt đầu một cuộc cải cách dài có thể gây nhầm lẫn cho những người không quen với việc thường xuyên nhưng tôi thấy tôi có thể giải quyết nó với không gian tương đối nhỏ. Cảm ơn--
Macro

Không phải tất cả các ý kiến ​​của tôi nhất thiết phải đề nghị rằng câu trả lời nên được cập nhật. Nhiều lần tôi chỉ thích đưa ra những nhận xét phụ trợ dưới những câu trả lời hay để đưa ra một vài suy nghĩ về những ý tưởng liên quan có thể khiến người đi đường quan tâm. (+1)
Đức hồng y

Một cái gì đó sôi nổi đang diễn ra với việc kiểm phiếu. Một lần nữa, tôi đã nêu lên điều này khi đưa ra nhận xét trước đó và nó không "lấy". Hừm.
Đức hồng y

2

Cái gọi là "bình thường hóa" là một thói quen phổ biến đối với hầu hết các phương pháp hồi quy. Có hai cách:

  1. Ánh xạ từng biến vào [-1, 1] giới hạn (mapminmax trong MatLab.
  2. Xóa giá trị trung bình từ mỗi biến và chia theo độ lệch chuẩn của nó (mapstd trong MatLab), tức là thực sự "bình thường hóa". Nếu thực sự có nghĩa là độ lệch không xác định, chỉ cần lấy đặc tính mẫu: hoặc trong đó , , và
    X~ij=Xijμiσi
    X~ij=XijXi¯std(Xi)
    E[Xi]=μE[Xi2E[Xi]2]=σ2Xi¯=1Nj=1NXijstd(Xi)=1Nj=1N(Xij2Xi¯2)

Vì hồi quy tuyến tính rất nhạy cảm với các phạm vi biến, tôi thường đề nghị bình thường hóa tất cả các biến nếu bạn không có bất kỳ kiến ​​thức nào trước đây về sự phụ thuộc và hy vọng tất cả các biến sẽ tương đối quan trọng.

Điều tương tự cũng xảy ra với các biến trả lời, mặc dù nó không quan trọng lắm đối với chúng.

Tại sao làm bình thường hóa hoặc standartization? Chủ yếu là để xác định tác động tương đối của các biến khác nhau trong mô hình. Điều đó có thể đạt được nếu tất cả các biến nằm trong cùng một đơn vị.

Hi vọng điêu nay co ich!


Ý bạn là gì khi bạn nói hồi quy tuyến tính rất nhạy cảm với các phạm vi biến ? Đối với bất kỳ x1,x2,yhai lệnh này: summary(lm(y~x1+x2))$r.sqsummary(lm(y~scale(x1)+scale(x2)))$r.sq- các giá trị khi bạn không chuẩn hóa các hệ số và khi bạn thực hiện - đưa ra cùng một giá trị, biểu thị mức độ phù hợp tương đương. R2
Macro

Tôi đã không hoàn thành chính xác trong việc hình thành. ý tôi là sự ngu ngốc Hồi quy sẽ luôn giống nhau (theo nghĩa của ) nếu bạn chỉ thực hiện các phép biến đổi tuyến tính của dữ liệu. Nhưng nếu bạn muốn xác định biến nào là quan trọng và gần như là nhiễu thì quy mô là vấn đề. Nó chỉ thuận tiện để làm nổi bật các biến và quên đi quy mô ban đầu của chúng. Vì vậy, hồi quy là "nhạy cảm" trong việc hiểu các tác động tương đối. R2
Paul

Cảm ơn bạn đã làm rõ, nhưng biến nào là quan trọng và gần như ồn ào, vấn đề tỷ lệ thường được quyết định bởi giá trị , điều này cũng sẽ không thay đổi khi bạn chuẩn hóa (tất nhiên trừ việc chặn). Tôi đồng ý với quan điểm của bạn rằng nó cung cấp một cách giải thích tốt hơn cho các ước tính hệ số thô. p
Macro
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.