Cần định tâm và chuẩn hóa dữ liệu trong hồi quy


16

Xem xét hồi quy tuyến tính với một số chính quy: Ví dụ: Tìm giảm thiểux||Axb||2+λ||x||1

Thông thường, các cột của A được chuẩn hóa để có giá trị trung bình và đơn vị bằng 0, trong khi được căn giữa để có giá trị trung bình bằng không. Tôi muốn chắc chắn nếu sự hiểu biết của tôi về lý do tiêu chuẩn hóa và định tâm là chính xác.b

Bằng cách làm cho phương tiện của cột và bằng 0, chúng ta không cần một thuật ngữ chặn nữa. Nếu không, mục tiêu sẽ là . Bằng cách làm cho các chỉ tiêu của cột A bằng 1, chúng tôi loại bỏ khả năng xảy ra trường hợp chỉ vì một cột của A có chỉ tiêu rất cao, nó có hệ số thấp trong x , điều này có thể khiến chúng tôi kết luận không chính xác rằng cột đó A không "giải thích" x tốt.Ab||Axx01b||2+λ||x||1xx

Lý luận này không chính xác nghiêm ngặt nhưng bằng trực giác, đó có phải là cách suy nghĩ đúng đắn?

Câu trả lời:


14

Bạn đã đúng về việc zeroing phương tiện của các cột và .Ab

Tuy nhiên, đối với việc điều chỉnh các chỉ tiêu của các cột của , hãy xem xét điều gì sẽ xảy ra nếu bạn bắt đầu với một định mức và tất cả các phần tử của có cùng độ lớn. Sau đó, chúng ta hãy nhân một cột với, giả sử, . Phần tử tương ứng của sẽ, trong một hồi quy không đều, sẽ được tăng lên theo hệ số . Xem những gì sẽ xảy ra với thuật ngữ chính quy? Việc chính quy hóa sẽ, cho tất cả các mục đích thực tế, chỉ áp dụng cho một hệ số đó. AAx106x106

Bằng cách định mức các cột của , chúng tôi, viết bằng trực giác, đặt tất cả chúng trên cùng một tỷ lệ. Do đó, sự khác biệt về cường độ của các yếu tố của có liên quan trực tiếp đến "tính linh hoạt" của chức năng giải thích ( ), nói một cách lỏng lẻo, những gì mà chính quy hóa cố gắng kiểm soát. Nếu không có nó, một giá trị hệ số, ví dụ 0,1 so với giá trị khác của 10,0 sẽ cho bạn biết, trong trường hợp không có kiến ​​thức về , không có gì về hệ số nào đóng góp nhiều nhất vào "độ rung" của . (Đối với hàm tuyến tính, như , "độ rung" có liên quan đến độ lệch từ 0.)AxAxAAxAx

Để trở lại lời giải thích của bạn, nếu một cột của có chỉ tiêu rất cao và vì một lý do nào đó có hệ số thấp trong , chúng tôi sẽ không kết luận rằng cột không "giải thích" tốt. không "giải thích" x chút nào. AxAxAx


Bạn có nghĩa là $x$ does not ''explain'' $A$ well, và có ý nghĩa x does not ''explain'' $A$ at all? là dữ liệu trong khi x là mô hình trong trường hợp này. Ax
dùng3813057

@ user3813057 - đây là một câu hỏi về chính quy hóa và không liên quan gì đến năng lực giải thích. sẽ thường hơn được dán nhãn β , Một sẽ thường hơn được dán nhãn X , và b sẽ được nhiều hơn thường được gắn nhãn y . x không có ở đó để giải thích A cả. xβAXbyxA
jbowman
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.