Là tiêu chuẩn hóa trước khi Lasso thực sự cần thiết?


28

Tôi đã đọc ba lý do chính để chuẩn hóa các biến trước khi một số thứ như Lassohồi quy:

1) Khả năng giải thích của các hệ số.

2) Khả năng xếp hạng tầm quan trọng của hệ số theo độ lớn tương đối của ước tính hệ số sau co ngót.

3) Không cần đánh chặn.

Nhưng tôi đang tự hỏi về điểm quan trọng nhất. Chúng ta có lý do để nghĩ rằng tiêu chuẩn hóa sẽ cải thiện việc khái quát hóa mẫu của mô hình không? Ngoài ra tôi không quan tâm nếu tôi không cần đánh chặn trong mô hình của mình; thêm một cái không làm tôi đau


1
Làm rõ: bạn dường như muốn hỏi, "Với điều kiện là tiêu chuẩn hóa là tùy chọn (một trong những trường hợp đặc biệt khi kết quả không bị sai lệch bởi các cường độ khác nhau), thì tiêu chuẩn hóa sẽ cải thiện việc khái quát hóa ngoài mẫu?" Điều này có đúng không?
Drew75

@ Drew75 Tôi thích phân tích các trường hợp, ví dụ như nó có giúp ích khi kết quả bị "sai lệch bởi các cường độ khác nhau" không, nó có giúp ích khi kết quả không bị sai lệch, et cetera, câu trả lời tốt nhất sẽ bao gồm các tình huống khác nhau.
Jase

1
Sau đó, câu hỏi của bạn không phải là về Lasso (vì nói chung tiêu chuẩn hóa là cần thiết trước Lasso). Nó tổng quát hơn. Có lẽ thay đổi tiêu đề và câu đầu tiên của câu hỏi.
Drew75

@Drew: Đó là câu hỏi khá khó khăn: Tại sao lại cần thiết (khi nào không?)? Nó có nghĩa gì để làm lệch kết quả (so với cái gì?)? Tôi nghĩ rằng câu hỏi là tốt khi nó đứng.
Scortchi - Phục hồi Monica

@ Drew75 Câu hỏi của tôi là về Lasso.
Jase

Câu trả lời:


21

Hồi quy Lasso đặt các ràng buộc về kích thước của các hệ số liên quan đến từng biến. Tuy nhiên, giá trị này sẽ phụ thuộc vào độ lớn của từng biến. Do đó, cần phải tập trung và giảm, hoặc tiêu chuẩn hóa các biến.

Kết quả của việc định tâm các biến có nghĩa là không còn đánh chặn. Điều này cũng áp dụng tương tự cho hồi quy sườn núi.

Một lời giải thích tốt khác là bài đăng này: Cần định tâm và chuẩn hóa dữ liệu trong hồi quy


Đây không phải là một câu trả lời hoặc một câu trả lời cực kỳ gián tiếp cho câu hỏi của tôi. Vui lòng giải thích liên kết giữa câu trả lời của bạn và ngoài khái quát mẫu (đó là câu hỏi).
Jase

10
@Jase: Nó giải quyết lý do chính cho việc tiêu chuẩn hóa mà bạn đã bỏ qua khỏi danh sách của mình: nếu bạn muốn loại bỏ các yếu tố dự đoán với các hệ số nhỏ (hoặc sử dụng thuật ngữ phạt tùy thuộc vào độ lớn của hệ số), bạn cần quyết định giá trị nào là "nhỏ" ". Mặc dù tiêu chuẩn hóa không bắt buộc trước LASSO hoặc các phương pháp hồi quy bị phạt khác, hiếm khi trường hợp các thang đo ban đầu mà các yếu tố dự đoán xảy ra được đo lường là hữu ích cho mục đích này.
Scortchi - Phục hồi Monica

3
Và vấn đề về định tâm là bạn thường không muốn thả hoặc thu nhỏ phần chặn.
Scortchi - Phục hồi Monica

2
@Jase: Vâng, đó là điều tôi muốn nói (giả sử là tham số co rút). Và việc ước tính hệ số có nằm trong số nhỏ nhất (tuy nhiên bạn chọn \ lambda $) hay không tùy thuộc vào việc nó được đo bằng km, micromet, không. độ lệch chuẩn so với giá trị trung bình của nó trong mẫu hoặc một số đơn vị khác. Từ quan điểm của Bayes, bạn đang đặt các linh mục thông tin yếu kém vào các giá trị hệ số thực, chứ không phải các thông số không chính xác. λ
Scortchi - Phục hồi Monica

2
Nhìn chung, bao nhiêu bạn thu nhỏ tổng thể sẽ ảnh hưởng đến việc khái quát hóa cho các mẫu giữ ngẫu nhiên; quyết định có phần tùy tiện bao nhiêu để thu nhỏ mỗi yếu tố dự đoán so với các yếu tố khác sẽ ảnh hưởng đến việc khái quát hóa cho các mẫu mới từ các quần thể tương tự, trong đó các hệ số hơi khác nhau, trong đó phân phối của các yếu tố dự đoán không nhất thiết giống như trong tập huấn luyện , & c. (Tất nhiên câu hỏi của bạn xứng đáng có câu trả lời được suy nghĩ đầy đủ hơn.)
Scortchi - Tái lập Monica

2

Tham số hình phạt L1 là tổng của các điều khoản beta tuyệt đối. Nếu các biến là tất cả các chiều khác nhau thì thuật ngữ này thực sự không phải là phụ gia mặc dù về mặt toán học không có bất kỳ lỗi nào.

Tuy nhiên, tôi không thấy các biến giả / phân loại bị vấn đề này và nghĩ rằng chúng không cần phải được tiêu chuẩn hóa. tiêu chuẩn hóa những điều này có thể làm giảm khả năng diễn giải của các biến

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.