Câu hỏi của tôi là chúng ta có cần chuẩn hóa tập dữ liệu để đảm bảo tất cả các biến có cùng tỷ lệ, giữa [0,1], trước khi điều chỉnh hồi quy logistic. Công thức là:
Tập dữ liệu của tôi có 2 biến, chúng mô tả cùng một thứ cho hai kênh, nhưng âm lượng thì khác nhau. Giả sử đó là số lượt khách hàng ghé thăm ở hai cửa hàng, đây là liệu khách hàng có mua hàng không. Bởi vì một khách hàng có thể ghé thăm cả hai cửa hàng, hoặc hai lần cửa hàng đầu tiên, một lần cửa hàng thứ hai trước khi anh ta mua hàng. nhưng tổng số lượt truy cập của khách hàng cho cửa hàng thứ 1 lớn hơn 10 lần so với cửa hàng thứ hai. Khi tôi phù hợp với hồi quy logistic này, mà không cần tiêu chuẩn hóa , coef(store1)=37, coef(store2)=13
; Nếu tôi chuẩn hóa dữ liệu, sau đó coef(store1)=133, coef(store2)=11
. Một cái gì đó như thế này. Cách tiếp cận nào có ý nghĩa hơn?
Nếu tôi đang lắp mô hình cây quyết định thì sao? Tôi biết các mô hình cấu trúc cây không cần tiêu chuẩn hóa vì chính mô hình sẽ điều chỉnh nó bằng cách nào đó. Nhưng kiểm tra với tất cả các bạn.
C
thay đổi hệ số chính quy tối ưu . Vì vậy, bạn cần phải chọn C
sau khi chuẩn hóa dữ liệu.