Bạn có nên chuẩn hóa các biến nhị phân?


25

Tôi có một bộ dữ liệu với một bộ tính năng. Một số trong số chúng là nhị phân hoạt động hoặc bị sa thải, 0 = không hoạt động hoặc không hoạt động) và phần còn lại là giá trị thực, ví dụ 4564.342 .(1=0=4564.342

Tôi muốn cung cấp dữ liệu này cho một thuật toán học máy, vì vậy tôi -score tất cả các tính năng có giá trị thực. Tôi nhận được chúng trong khoảng từ 3 đến - 2 . Bây giờ các giá trị nhị phân cũng được bảo vệ z , do đó các số 0 trở thành - 0,222 và các giá trị trở thành 0,5555 .z32z0.2220.5555

Liệu tiêu chuẩn hóa các biến nhị phân như thế này có ý nghĩa?

Câu trả lời:


14

Tiêu chuẩn hóa các biến nhị phân không có ý nghĩa gì. Các giá trị là tùy ý; họ không có ý nghĩa gì trong bản thân họ. Có thể có một lý do để chọn một số giá trị như 0 & 1, liên quan đến các vấn đề ổn định số, nhưng đó là nó.


Điều gì xảy ra nếu chúng nằm trong khoảng từ 0 đến 100. Như tôi đã nói, chúng có nghĩa là những thứ như "nhận diện khuôn mặt" và "không nhận diện khuôn mặt" và 0-100 có nghĩa là mức độ tự tin. Liệu nó có ý nghĩa với z-points đó?
siamii

Ví dụ 0-100 của bạn nghe giống như một đánh giá thứ tự. Có một chút chi tiết về cách giải quyết tốt nhất với tình huống đó & nó đã được thảo luận khá nhiều trên CV. Tìm kiếm trên thẻ thứ tự để tìm hiểu thêm.
gung - Phục hồi Monica

tốt, vấn đề là chỉ một số biến là 0-100. Những người khác là ví dụ -400 - +400
siamii

Vấn đề là gì? Đây có phải là một vấn đề ổn định số?
gung - Phục hồi Monica

có lẽ, bạn có đề nghị tôi không z-points?
siamii

14

Một biến nhị phân có giá trị 0, 1 có thể (thường) được chia tỷ lệ thành (giá trị - trung bình) / SD, có lẽ là điểm z của bạn.

Hạn chế rõ ràng nhất ở đây là nếu bạn tình cờ nhận được tất cả số không hoặc tất cả số không thì cắm SD một cách mù quáng có nghĩa là điểm số z không xác định. Có một trường hợp để gán số 0 quá xa cho đến khi giá trị - giá trị trung bình bằng 0. Nhưng nhiều thứ thống kê sẽ không có ý nghĩa nhiều nếu một biến thực sự là một hằng số. Tuy nhiên, nhìn chung, nếu SD nhỏ, sẽ có nhiều rủi ro hơn khi điểm số không ổn định và / hoặc không được xác định rõ.

Một vấn đề liên quan đến việc đưa ra câu trả lời tốt hơn cho câu hỏi của bạn chính xác là "thuật toán học máy" mà bạn đang xem xét. Nghe có vẻ như đó là một thuật toán kết hợp dữ liệu cho một số biến và do đó, sẽ thường có ý nghĩa khi cung cấp chúng trên các thang đo tương tự.

(LATER) Khi người đăng ban đầu thêm ý kiến ​​từng người một, câu hỏi của họ là biến hình. Tôi vẫn xem xét rằng (giá trị - trung bình) / SD có ý nghĩa (nghĩa là không vô nghĩa) đối với các biến nhị phân miễn là SD dương. Tuy nhiên, hồi quy logistic sau đó được đặt tên là ứng dụng và vì điều này không có lợi ích lý thuyết hoặc thực tế (và thực sự mất một số đơn giản) cho bất cứ điều gì ngoài việc cung cấp các biến nhị phân là 0, 1. Phần mềm của bạn có thể đối phó tốt với cái đó; nếu không, hãy từ bỏ phần mềm đó để ủng hộ một chương trình có thể. Về mặt câu hỏi tiêu đề: có thể, có; nên, không.


3
Câu trả lời ngắn gọn là nó có nghĩa là không có gì khác biệt và tôi thấy không có lý do tại sao việc thay đổi 0, 1 thành z-points sẽ giúp ích gì trong tình huống này. Để thuyết phục bản thân, hãy thử cả hai cách và thấy rằng không có gì thay đổi quan trọng.
Nick Cox

3
Ngược lại, tôi nghĩ hầu hết mọi người sẽ sử dụng 0, 1 ở đây.
Nick Cox

1
Khi bạn đang thực hiện hồi quy logistic, phần mềm gần như chắc chắn sẽ thực hiện tiêu chuẩn hóa dưới mui xe (để đạt được các thuộc tính số tốt hơn). Vì vậy, đó là một ý tưởng tốt để giữ cho chỉ số nhị phân được thể hiện một cách có ý nghĩa. Tiêu chuẩn hóa nó không có vẻ tốt hoặc hữu ích.
whuber

1
Bất kỳ phương pháp học máy nào yêu cầu bạn "chuẩn hóa" các dự đoán nhị phân đều bị nghi ngờ.
Frank Harrell

2
Vì đó là sự thực hiện của riêng bạn, nên không ai khác có cơ sở để đưa ra câu trả lời khách quan! Bạn cần kiểm tra cách phần mềm của bạn xử lý dữ liệu để quyết định xem việc tiêu chuẩn hóa trước có hợp lý hay không.
whuber

3

Một ví dụ điển hình có thể hữu ích để chuẩn hóa theo một cách hơi khác được đưa ra trong phần 4.2 của Gelman và Hill ( http://www.stat.columbia.edu/~gelman/arm/ ). Điều này chủ yếu là khi việc giải thích các hệ số được quan tâm, và có lẽ khi không có nhiều dự đoán.

Ở đó, họ chuẩn hóa một biến nhị phân (với tỷ lệ bằng 0 và 1) bằng thay vì bình thườngσ. Sau đó, các hệ số được tiêu chuẩn hóa này nhận các giá trị±0,5và sau đó các hệ số phản ánhtrực tiếp cácso sánh giữax=0x=1. Nếu tỷ lệ bằngσ

xμx2σx,
σ±0.5x=0x=1σ thì hệ số sẽ tương ứng với một nửa chênh lệch giữa các giá trị có thể có của .x

Vui lòng giải thích "với tỷ lệ bằng 0 và 1" vì các biến nhị phân mà tôi thấy hiếm khi như vậy.
Nick Cox

Tôi không nghĩ rằng tỷ lệ thực sự sẽ tạo ra sự khác biệt, họ chỉ sử dụng nó để làm cho ví dụ sạch hơn.
Sinh viên của Gosset

1

Những gì bạn muốn tiêu chuẩn hóa, một biến ngẫu nhiên nhị phân, hoặc một tỷ lệ?

Y:SRY{0,1}

X[0,1]xR+


0

Trong hồi quy logistic, các biến nhị phân có thể được chuẩn hóa để kết hợp chúng với các vars continuos khi bạn muốn cung cấp cho tất cả chúng một thông tin không có thông tin trước như N ~ (0,5) hoặc Cauchy ~ (0,5). Việc tiêu chuẩn hóa được khuyến khích như sau: Lấy tổng số và đưa ra

1 = tỷ lệ của 1

0 = 1 - tỷ lệ 1's.

-----

Chỉnh sửa: Trên thực tế tôi không đúng chút nào, đó không phải là tiêu chuẩn hóa mà là sự thay đổi tập trung ở mức 0 và khác nhau 1 ở điều kiện thấp hơn và cao hơn, giả sử rằng dân số là 30% với công ty A và 70% khác, chúng ta có thể định nghĩa biến "Công ty A" làm trung tâm để nhận các giá trị -0.3 và 0.7.


Không thể hiểu điều này như là một tiêu chuẩn.
Michael R. Chernick
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.