Nhầm lẫn liên quan đến chuẩn hóa dữ liệu


9

Tôi đang cố gắng học một mô hình hồi quy tuyến tính. Tuy nhiên, tôi có một số nhầm lẫn liên quan đến việc chuẩn hóa dữ liệu. Tôi đã bình thường hóa các tính năng / dự đoán thành không trung bình và phương sai đơn vị. Tôi có cần phải làm tương tự cho mục tiêu. Nếu vậy tại sao?


1
Tại sao bạn bình thường hóa các tính năng / dự đoán?
Peter Flom

4
BTW Tôi nghĩ rằng 'tiêu chuẩn hóa' là một thuật ngữ tốt hơn cho điều đó.
Scortchi - Phục hồi Monica

Câu trả lời:


6

Bình thường hóa mục tiêu trong hồi quy tuyến tính không thành vấn đề. Trong hồi quy tuyến tính, sự phù hợp của bạn sẽ có dạng

y^i=a0+axi.
Khi bạn dự đoán xi là trung tâm, thuật ngữ không đổi a0 sẽ luôn là giá trị trung bình của yi . Vì vậy, nếu bạn căn giữa yi trước khi chạy hồi quy, bạn sẽ chỉ nhận được a0=0 , nhưng tất cả các hệ số khác của bạn sẽ không thay đổi.

(Điều đó đang được nói, bình thường hóa các dự đoán --- như bạn hiện đang làm --- là một ý tưởng tốt.)


1
Tại sao bình thường hóa các dự đoán là một ý tưởng tốt?
Scortchi - Phục hồi Monica

@Stefan. Vâng, khi tôi tập trung vào các yếu tố dự đoán, tôi nhận được thuật ngữ không đổi là giá trị trung bình của y. Nhưng tôi đã không hiểu làm thế nào nó trở thành ý nghĩa. Bạn có thể cho tôi biết toán học đằng sau nó? a0
user34790

2
@Scortchi Bình thường hóa các yếu tố dự đoán là không cần thiết, nhưng có thể giúp việc giải thích các hệ số từ hồi quy dễ dàng hơn: Sau khi chuẩn hóa, các hệ số lớn tương ứng với các yếu tố dự báo quan trọng. Ngoài ra, nếu không chuẩn hóa, các hệ số của các thuật ngữ tương tác có thể gây hiểu nhầm nghiêm trọng. Điều đó đang được nói, bình thường hóa sẽ không ảnh hưởng đến các dự đoán bạn nhận được từ mô hình của mình, vì vậy việc chuẩn hóa chỉ quan trọng nếu bạn có ý định diễn giải các hệ số trong hồi quy.
Stefan Wager

1
@ user34790 Toán học được thực hiện tại pmean.com/10/LeastSquares.html
Stefan Wager

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.