Là tiêu chuẩn hóa cần thiết trước khi hồi quy logistic phù hợp?


39

Câu hỏi của tôi là chúng ta có cần chuẩn hóa tập dữ liệu để đảm bảo tất cả các biến có cùng tỷ lệ, giữa [0,1], trước khi điều chỉnh hồi quy logistic. Công thức là:

ximin(xi)max(xi)min(xi)

Tập dữ liệu của tôi có 2 biến, chúng mô tả cùng một thứ cho hai kênh, nhưng âm lượng thì khác nhau. Giả sử đó là số lượt khách hàng ghé thăm ở hai cửa hàng, đây là liệu khách hàng có mua hàng không. Bởi vì một khách hàng có thể ghé thăm cả hai cửa hàng, hoặc hai lần cửa hàng đầu tiên, một lần cửa hàng thứ hai trước khi anh ta mua hàng. nhưng tổng số lượt truy cập của khách hàng cho cửa hàng thứ 1 lớn hơn 10 lần so với cửa hàng thứ hai. Khi tôi phù hợp với hồi quy logistic này, mà không cần tiêu chuẩn hóa , coef(store1)=37, coef(store2)=13; Nếu tôi chuẩn hóa dữ liệu, sau đó coef(store1)=133, coef(store2)=11. Một cái gì đó như thế này. Cách tiếp cận nào có ý nghĩa hơn?

Nếu tôi đang lắp mô hình cây quyết định thì sao? Tôi biết các mô hình cấu trúc cây không cần tiêu chuẩn hóa vì chính mô hình sẽ điều chỉnh nó bằng cách nào đó. Nhưng kiểm tra với tất cả các bạn.


10
Bạn không cần phải chuẩn hóa trừ khi hồi quy của bạn được thường xuyên. Tuy nhiên, đôi khi nó giúp giải thích và hiếm khi gây tổn thương.
alex

3
Không phải là cách thông thường để chuẩn hóa xix¯sd(x) ?
Peter Flom - Tái lập Monica

1
@Peter, đó là những gì tôi nghĩ trước đây, nhưng tôi đã tìm thấy một bài viết benetzkorn.com/2011/11/data-n normalization-and-st Chuẩnization / Lỗi >, có vẻ như bình thường hóa và tiêu chuẩn hóa là những điều khác nhau. Một là tạo ra trung bình 0 phương sai 1, hai là để thay đổi từng biến. Đó là nơi tôi bị lẫn lộn. Cảm ơn vì đã trả lời.
dùng1946504

7
Đối với tôi tiêu chuẩn hóa làm cho việc giải thích khó khăn hơn nhiều.
Frank Harrell

2
Để làm rõ những gì @alex đã nói, việc thu nhỏ dữ liệu của bạn có nghĩa là Cthay đổi hệ số chính quy tối ưu . Vì vậy, bạn cần phải chọn Csau khi chuẩn hóa dữ liệu.
akxlr

Câu trả lời:


37

Tiêu chuẩn hóa không cần thiết cho hồi quy logistic. Mục tiêu chính của tiêu chuẩn hóa các tính năng là giúp hội tụ các kỹ thuật được sử dụng để tối ưu hóa. Ví dụ: nếu bạn sử dụng Newton-Raphson để tối đa hóa khả năng, việc chuẩn hóa các tính năng giúp cho việc hội tụ nhanh hơn. Mặt khác, bạn có thể chạy hồi quy logistic mà không cần bất kỳ xử lý tiêu chuẩn hóa nào trên các tính năng.


Cảm ơn vì đã trả lời. Điều đó có nghĩa là tiêu chuẩn hóa được ưa thích? Vì chúng tôi chắc chắn muốn mô hình hội tụ và khi chúng tôi có hàng triệu biến, việc thực hiện logic tiêu chuẩn hóa trong đường ống mô hình hóa sẽ dễ dàng hơn là điều chỉnh từng biến một khi cần thiết. Tôi có hiểu đúng không?
dùng1946504

4
điều đó phụ thuộc vào mục đích phân tích. Phần mềm hiện đại có thể xử lý dữ liệu khá cực mà không cần tiêu chuẩn hóa. Nếu có một đơn vị tự nhiên cho mỗi biến số (năm, euro, kg, v.v.) thì tôi sẽ do dự để chuẩn hóa, mặc dù tôi cảm thấy thoải mái khi thay đổi đơn vị từ kg sang ví dụ tấn hoặc gram bất cứ khi nào có ý nghĩa hơn.
Maarten Buis

19

@Aymen đã đúng, bạn không cần bình thường hóa dữ liệu của mình để hồi quy logistic. (Để biết thêm thông tin chung, có thể giúp đọc qua chuỗi CV này: Khi nào bạn nên tập trung dữ liệu của mình và khi nào bạn nên chuẩn hóa ? ; Bạn cũng có thể lưu ý rằng chuyển đổi của bạn thường được gọi là 'bình thường hóa', xem: Cách xác minh phân phối được chuẩn hóa? ) Hãy để tôi giải quyết một số điểm khác trong câu hỏi.

Điều đáng chú ý ở đây là trong hồi quy logistic, các hệ số của bạn cho thấy tác động của thay đổi một đơn vị trong biến dự đoán của bạn đối với tỷ lệ cược của 'thành công'. Tác động của việc biến đổi một biến (chẳng hạn như bằng cách tiêu chuẩn hóa hoặc chuẩn hóa) là thay đổi cái mà chúng ta gọi là "đơn vị" trong bối cảnh mô hình của chúng ta. Dữ liệu thô của bạn thay đổi trên một số số đơn vị trong số liệu ban đầu. Sau khi bạn bình thường hóa, dữ liệu của bạn dao động từ đến . Đó là, một sự thay đổi của một đơn vị hiện nay có nghĩa là đi từ quan sát có giá trị thấp nhất sang quan sát có giá trị cao nhất. Số tiền tăng tỷ lệ cược đăng nhập thành công không thay đổi. Từ những sự thật này, tôi nghi ngờ rằng biến đầu tiên ( ) của bạn kéo dàix01store1133/373.6đơn vị ban đầu và biến thứ hai ( store2) của bạn chỉ kéo dài đơn vị ban đầu. 11/130.85


17

Nếu bạn sử dụng hồi quy logistic với LASSO hoặc hồi quy sườn (như lớp Logistic Weka làm), bạn nên làm. Như Hastie, Tibshirani và Friedman chỉ ra (trang 82 của pdf hoặc tại trang 63 của cuốn sách):

Các giải pháp sườn núi không tương đương dưới tỷ lệ của các đầu vào, và do đó, người ta thường chuẩn hóa các đầu vào trước khi giải.

Ngoài ra này chủ đề không.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.