Bình thường hóa các biến giả


8

Dữ liệu của tôi bao gồm một số phép đo liên tục và một số biến giả thể hiện số năm các phép đo đã được thực hiện. Bây giờ, tôi muốn tìm hiểu một mạng lưới thần kinh với dữ liệu. Do đó, tôi đang chuẩn hóa zScore tất cả các biến, bao gồm cả các biến giả. Tuy nhiên, tôi tự hỏi liệu đây có phải là một cách tiếp cận hợp lý hay không, bởi vì việc bình thường hóa các biến giả làm thay đổi phạm vi của chúng, điều mà tôi đoán làm cho chúng ít so sánh hơn nếu phân phối của chúng khác nhau. Mặt khác, việc không bình thường hóa các biến giả cũng có thể gây nghi ngờ, bởi vì nếu không bình thường hóa, ảnh hưởng của chúng đối với đầu ra của mạng có thể là tối ưu.

Cách tiếp cận tốt nhất để đối phó với các biến giả, bình thường hóa chúng (zScore) hoặc chỉ để chúng như vậy là gì?


4
Bạn có thể tìm thấy bài viết này của A. Gelman stat.columbia.edu/~gelman/research/published/st Chuẩnizing7.pdf
boscovich

Câu trả lời:


7

Chuẩn hóa sẽ được yêu cầu nếu bạn đang thực hiện một số phép đo tương tự.

Biến giả theo bản chất của nó hoạt động như một chuyển đổi nhị phân. Mã hóa thành (0,1) hoặc (-.5, .5) sẽ không có tác động đến các mối quan hệ mà nó thể hiện với một biến phụ thuộc, nếu điều bạn đang cố gắng thực hiện là một dạng hoặc hồi quy hoặc phân loại.

Sẽ có vấn đề nếu bạn đang thực hiện phân cụm vì nó sẽ phụ thuộc vào quy mô.


2

Bình thường hóa các biến giả không có ý nghĩa. Thông thường, chuẩn hóa được sử dụng khi các biến được đo trên các thang đo khác nhau sao cho không thể so sánh đúng. Tuy nhiên, với các biến giả, người ta chỉ đặt một thông tin nhị phân trong mô hình và nếu nó được chuẩn hóa, thông tin về tác động của ví dụ một năm sẽ bị mất.


Vì vậy, theo câu hỏi, làm thế nào để chúng ta đối phó với chức năng mất?
Afshin Amiri
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.