Tại sao giới tính thường được mã hóa 0/1 thay vì 1/2, chẳng hạn?


25

Tôi hiểu logic của mã hóa để phân tích dữ liệu. Câu hỏi của tôi dưới đây là về việc sử dụng một mã cụ thể.

  • Có một lý do tại sao giới tính thường được mã hóa là 0 cho nữ và 1 cho nam?
  • Tại sao mã hóa này được coi là "tiêu chuẩn"?
  • So sánh điều này với Female = 1 và Male = 2. Có vấn đề gì với mã hóa này không?

15
Sử dụng sơ đồ mã hóa 0/1 về cơ bản là hữu ích khi áp dụng các mô hình hồi quy giữa các mô hình khác, mặc dù có thể có một số lược đồ mã hóa, ví dụ -1/1 (nhưng nó sẽ thay đổi cách hiểu các hệ số hồi quy). Tuy nhiên, không nên nhầm lẫn với nhập dữ liệu (nghĩa là những gì bạn thực sự đặt trong cơ sở dữ liệu của bạn). Trong trường hợp này, tốt hơn là lưu trữ nhãn đầy đủ. Chuyển đổi chúng thành các giá trị số hoặc xây dựng ma trận thiết kế chuyên dụng khi bạn xây dựng mô hình hồi quy của mình. Mặt khác, tôi chúc bạn may mắn để nói những gì 0 và 1 đứng trong 5 năm.
chl

Tôi đã thấy giới tính được mã hóa trong cơ sở dữ liệu là nam, nữ và không xác định.
Aksakal

2
Tôi nghĩ rằng câu hỏi này được coi là tốt nhất như hai câu hỏi bị nhầm lẫn. Câu hỏi lớn hơn là tại sao sử dụng mã hóa 0-1 chứ không phải bất kỳ loại nào khác cho một chỉ số hoặc biến giả. Câu hỏi nhỏ hơn là tại sao sử dụng 1 cho nam và 0 cho nữ, trong đó một câu trả lời ngắn gọn là nhiều loại tiền mã hóa khác đang được sử dụng, bao gồm ngược lại với 1 cho nữ, v.v., và cả các loại mã phức tạp khác nhau cho phép không biết giới tính và cho các loại giới tính khác.
Nick Cox

Câu trả lời:


38

Lý do thích mã hóa zero-one của các biến nhị phân:

  • Giá trị trung bình của biến zero-one thể hiện tỷ lệ trong danh mục được biểu thị bằng giá trị một (ví dụ: tỷ lệ phần trăm của nam).
  • Trong một hồi quy đơn giản trong đó là biến zero-one, hằng số có cách hiểu đơn giản (ví dụ: là giá trị trung bình của đối với nữ).y=a+bxxay
  • Bất kỳ mã hóa của biến nhị phân nào có sự khác biệt giữa hai giá trị là một (tức là zero-one, nhưng cũng là một) mang lại một sự giải thích đơn giản cho hệ số hồi quy (ví dụ: là hiệu ứng của việc chuyển từ nữ sang nam y).b

Các loại điểm về mã hóa các biến nhị phân:

  • Bất kỳ mã hóa nào của biến nhị phân duy trì thứ tự của các danh mục (ví dụ: nữ = 0, nam = 1; nữ = 1, nam = 2; nữ = 1007, nam = 2000; v.v.) sẽ không ảnh hưởng đến tương quan của biến nhị phân với các biến khác.
  • Bất kỳ bảng nào báo cáo một biến nhị phân theo cách này sẽ làm cho nó rõ ràng về cách biến được mã hóa. Nó cũng có thể hữu ích để gắn nhãn biến theo danh mục đại diện cho giá trị của một: ví dụ, y = a + b * Malethay vì y = a + b * Gender.
  • Đối với một số biến nhị phân, một loại tự nhiên hơn nên được mã hóa thành một. Ví dụ, khi xem xét sự khác biệt giữa điều trị và kiểm soát, kiểm soát nên bằng 0 và điều trị nên là một, bởi vì hệ số hồi quy được coi là hiệu quả của điều trị.
  • Lật các danh mục (ví dụ: làm cho nữ = 1 và nam = 0, thay vì nữ = 0 và nam = 1) sẽ lật các dấu hiệu của mối tương quan và hệ số hồi quy.
  • Trong trường hợp giới tính, thông thường không có lý do tự nhiên nào để mã hóa biến nữ = 0, nam = 1, so với nam = 0, nữ = 1. Tuy nhiên, quy ước có thể gợi ý một mã hóa quen thuộc hơn với người đọc; hoặc chọn một mã hóa làm cho hệ số hồi quy dương có thể dễ dàng giải thích. Ngoài ra, trong một số bối cảnh, một giới tính có thể được coi là danh mục tham khảo; ví dụ, nếu bạn đang nghiên cứu ảnh hưởng của việc là nữ trong một nghề nghiệp thống trị của nam giới đối với thu nhập, thì có thể hiểu mã nam = 0 và nữ = 1, để nói về tác động của việc là nữ.
  • Các hệ số hồi quy mở rộng theo các cách có suy nghĩ có thể có tác động mạnh mẽ đến khả năng diễn giải của các hệ số hồi quy. Andrew Gelman thảo luận về điều này khá nhiều; xem ví dụ đầu vào hồi quy quy mô giấy năm 2008 của ông bằng cách chia cho hai độ lệch chuẩn (PDF) trong Thống kê trong Y học , 27, 2865-2873.
  • Mã hóa nam và nữ là -1 và +1 là một tùy chọn khác có thể cung cấp các hệ số có ý nghĩa (xem "mã hóa hiệu ứng là gì" ).

18
Uh, tôi luôn nghĩ lý do tự nhiên để mã nữ = 0 và nam = 1 là "giải phẫu" ...
Matt Parker

2
@matt vui. Tôi chưa bao giờ nghĩ về nó như thế. Tôi luôn bị ảnh hưởng bởi lăng kính của trình độ Nghệ thuật của tôi, nơi bạn được dạy về cách một số nhà tư tưởng phê bình nữ quyền nhìn thấy những người phụ nữ được xác định bởi sự thiếu thốn của một người đàn ông. Thông qua lăng kính như vậy, hơi hài hước, việc mã hóa giới tính trở thành một vấn đề chính trị :-)
Jeromy Anglim

13
Như một thói quen, tôi luôn thay đổi tên biến giới tính thành một cái gì đó như "Nữ", để làm rõ ý nghĩa của sơ đồ mã hóa 0/1.
Fomite

Jeromy, bạn có muốn quan sát số liệu thống kê thảo luận.meta.stackexchange.com/a/4881 / 3277 về việc chúng tôi có cần một thẻ riêng [biến giả không] và nói pro / con của bạn trong một nhận xét?
ttnphns

Xét cặp nhiễm sắc thể giới tính X và Y, con cái có XX và con đực có nhiễm sắc thể XY. Lấy X = 0 và Y = 1, chúng ta có thể thấy rằng nữ = XX = 00 = 0 và nam = XY = 01 = 1.
Gürol Canbek 30/12/18

14

Nó làm cho nó dễ dàng hơn để giải thích kết quả. Giả sử bạn đã có một số dữ liệu chiều cao:

Woman A: 165
Woman B: 170
Woman C: 175
Man D: 170
Man E: 180
Man F: 190 

và bạn đã lấy một hồi quy của mẫu Height = a + b * Gender + Residual.

Với biến giả 0,1, bạn sẽ có được ước tính a170 là chiều cao trung bình của phụ nữ và b10 là chênh lệch giữa chiều cao trung bình của nam và nữ.

Với biến giả 1,2, bạn sẽ có được ước tính alà 160, khó diễn giải hơn.


Cảm ơn. Tôi đang học thống kê ở 'tốc độ ánh sáng' vì đó là yêu cầu của công việc mới của tôi. Mã hóa này vẫn sẽ áp dụng để phân tích tương quan.
Adhesh Josh

1
@Adhesh Nếu bạn có nghĩa là mối tương quan giữa hai biến định lượng, thì không có vấn đề mã hóa: chỉ cần sử dụng các biện pháp thô. Nếu câu hỏi của bạn là về mối liên hệ giữa hai biến định tính, thì bạn có thể cân nhắc đặt câu hỏi mới, nhưng thực sự không có nhiều khó khăn trong trường hợp này (trừ khi bạn muốn sử dụng điểm số cách đều nhau cho các loại biến, nhưng điều này đã được trả lời ở nơi khác về điều này trang web).
chl

4
@Adesh Mã hóa nhị phân 1/2 hoặc 0/1 sẽ giúp bạn không ảnh hưởng đến hệ số tương quan của bạn. 0/1 cũng có lợi thế là giá trị trung bình của biến sẽ là phần trăm nam hoặc nữ, tùy thuộc vào giá trị nào. Các sơ đồ mã hóa khác có thể hữu ích cho việc diễn giải các loại phân tích khác nhau.
Michael Giám mục

2

Tôi đã giả định rằng điều này là do loại trường thường được sử dụng để lưu trữ giới tính là trường bit và các trường bit trong SQL chỉ có thể có các giá trị 0 hoặc 1. Khi bạn loại bỏ dữ liệu, nó xuất hiện dưới dạng 0 hoặc 1 và Vì vậy, đó là lý do tại sao bạn có được những giá trị cụ thể.

Nếu bạn muốn sử dụng 1 và 2, bạn phải sử dụng loại trường lớn hơn, sẽ chiếm nhiều không gian hơn và do đó làm cho toàn bộ cơ sở dữ liệu lớn hơn một chút.


Là một lập trình viên SQL, đây cũng là phản ứng đầu tiên của tôi. Tôi không chắc chắn về bất kỳ lý do toán học thuần túy nào khi sử dụng 0 và 1 cho giới tính, nhưng tôi biết một thực tế là một số động lực xuất phát từ nhu cầu sử dụng các loại dữ liệu nhỏ nhất có thể. Các tiêu chuẩn toàn ngành được phát triển từ tập quán và mọi người đều xếp hàng. Có thể đáng để kiểm tra lịch sử tiêu chuẩn ANSI cho việc này. Ngày nay, việc thúc đẩy các DBA sử dụng các cột số nguyên hoặc nhỏ cho giới tính, để chỉ ra các ngoại lệ bất thường như "thực thể công ty" hoặc "không xác định" nhưng nhiều cơ sở dữ liệu cũ vẫn phản ánh tiêu chuẩn cũ.
SQLServerSteve

2

Tôi đã có một giáo sư đề nghị chúng ta viết mã "về mặt sinh học" với phụ nữ là 0 và đàn ông là 1 - để phản ánh giải phẫu. Tôi không nghĩ đó là điều nhạy cảm nhất, hay PC để nói trong một lớp, nhưng chắc chắn dễ nhớ khi nhìn vào bộ dữ liệu 5 năm sau.


Đây rõ ràng không phải là câu trả lời "thực sự" cho câu hỏi (có lẽ đây là một nhận xét nhiều hơn là một câu trả lời), nhưng việc ghi nhớ rõ ràng là một câu hỏi mà rất nhiều người thấy hữu ích.
Cá bạc

Nhiều "sinh học" hơn "giải phẫu", tôi đã được dạy (mặc dù tôi nghi ngờ "lý do" được phát minh ra khi nhìn lại, thay vì là bản gốc) mà 0 được sử dụng cho phụ nữ vì đó là giới tính "mặc định" - niềm tin là Phát triển phôi, con đường nữ được thực hiện trừ khi các quá trình can thiệp đẩy phôi để phân biệt con đường nam. Điều này đã từng là một niềm tin phổ biến, nhưng bây giờ được coi là lỗi thời : con đường nữ cũng cần phải được kích hoạt tích cực.
Cá bạc

1
Trong trường hợp này, đàn ông không nên được mã hóa là "00".
Harvey Motulsky

1

Nhiều lý do tốt được đăng cho đến nay, nhưng nó cũng nên được phản xạ. Tại sao bạn bắt đầu đếm ở 1? Nó làm cho rất nhiều thuật toán số phức tạp hơn nhiều. Dán nhãn bắt đầu từ 0, không phải 1. Nếu bạn chưa tin vào điều này, tôi có một ví dụ hay về lý do tại sao nó quan trọng tại http://madhadron.com/?p=69

Về lý do tại sao phụ nữ là 0 và đàn ông là 1, hãy nhớ rằng trong phần lớn lịch sử của nó, một nhà thống kê có khả năng là một người đàn ông thẳng thắn. Khi được yêu cầu đặt tên cho một giới tính, người đầu tiên nghĩ đến là "phụ nữ". Tất cả mọi thứ sau đó có lẽ là tai nạn lịch sử và hợp lý hóa.


-1

Các tiêu chuẩn ISO / IEC 5218 cập nhật tiêu chuẩn khái niệm này với bản đồ sau:

0 = not known,
1 = male,
2 = female,
9 = not applicable.

Điều này đặc biệt hữu ích trong các ngôn ngữ có 0 ép buộc thành một giá trị sai, chẳng hạn như trong JavaScript:

if ( !user.gender ) {
    promptForGender();
}

10
Điều quan trọng cần lưu ý là loại tiêu chuẩn này thực sự dành cho việc truyền và / hoặc lưu trữ dữ liệu. Nó không đầy đủ như là một tiêu chuẩn để phân tích dữ liệu , đó là những gì câu hỏi cụ thể về.
whuber

-2

Cách tôi nhìn nhận cá nhân là phallally 0 thường đại diện cho nữ, vì nó là hình dạng của tử cung và được coi là nữ tính ... trong hầu hết tất cả các ngành khoa học (ví dụ như trong biểu đồ phả hệ sinh học / di truyền học), hoặc số không đại diện cho nữ. Trường hợp càng nhiều hình dạng cạnh thẳng (hình tam giác, hình vuông hoặc 1) có xu hướng đại diện cho giới tính nam. Sự hiểu biết đơn giản này đã giúp tôi dễ dàng luôn nhớ cái nào phù hợp với tôi.

Mặc dù vào cuối ngày, nếu bạn là người mã hóa và tự phân tích dữ liệu, bạn có thể đặt bất kỳ số nào bạn muốn, miễn là có một khóa mà biến số giả mà bạn sử dụng, nó trở nên không liên quan.


2
Câu trả lời kỳ lạ cho một câu hỏi ngớ ngẩn.
Michael R. Chernick
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.