Tác dụng của các biến nhị phân là gì?


14
  • Khi biến nhị phân, thông tin nào bị mất trong quá trình?
  • Làm thế nào để một sự phân đôi giúp trong các phân tích?

Gelman và Park có một bài viết so sánh thực tiễn tạo ra ba loại từ một biến tiếp tục, trái ngược với hai. Thông thường tốt nhất là để biến liên tục vì những lý do được giải thích bởi những người khác dưới đây.
Michael Giám mục

Câu trả lời:


10

Thông tin nào bị mất: Nó phụ thuộc vào biến. Nói chung, bằng cách phân đôi, bạn đang khẳng định rằng có một đường thẳng có hiệu lực giữa biến này và biến khác. Ví dụ, hãy xem xét một biện pháp liên tục tiếp xúc với chất ô nhiễm trong một nghiên cứu về ung thư. Nếu bạn phân đôi nó thành "Cao" và "Thấp", bạn khẳng định rằng đó là hai giá trị duy nhất quan trọng. Có nguy cơ ung thư cao, và có một mức thấp. Nhưng điều gì sẽ xảy ra nếu rủi ro tăng dần trong một thời gian, sau đó làm phẳng, sau đó tăng trở lại trước khi cuối cùng tăng vọt ở các giá trị cao? Tất cả những thứ đó đã mất.

Những gì bạn đạt được: Nó dễ dàng hơn. Các biến lưỡng sắc thường dễ dàng hơn nhiều để đối phó với thống kê. Có nhiều lý do để làm điều đó - nếu một biến liên tục rơi vào hai nhóm rõ ràng nào , nhưng tôi có xu hướng tránh dichotomizing trừ một dạng tự nhiên của nó biến ở nơi đầu tiên. Nó cũng thường hữu ích nếu trường của bạn đang phân đôi mọi thứ để có dạng biến nhị phân của một biến. Ví dụ, nhiều người coi số lượng tế bào CD4 dưới 400 là ngưỡng quan trọng đối với HIV. Do đó, tôi thường có biến 0/1 cho Trên / Dưới 400, mặc dù vậy tôi cũng sẽ giữ biến số đếm CD4 liên tục. Điều này giúp gắn kết việc học của bạn với người khác.

Tôi sẽ không đồng ý một chút với Peter. Mặc dù việc phân chia một biến liên tục thành các loại thường hợp lý hơn nhiều so với phân đôi thô, nhưng tôi lại trái ngược với phân loại lượng tử. Phân loại như vậy là rất khó để đưa ra những giải thích có ý nghĩa. Tôi nghĩ rằng bước đầu tiên của bạn là xem liệu có phân loại được hỗ trợ tốt về mặt sinh học hay lâm sàng hay không, và chỉ khi nào các tùy chọn đó cạn kiệt thì bạn mới nên sử dụng lượng tử.


Xin chào @epigrad. Tôi nghĩ hồi quy lượng tử có một cách giải thích khá dễ dàng; nó rất giống với hồi quy OLS thông thường, ngoại trừ thay thế "phần trăm XXX" cho "trung bình".
Peter Flom - Tái lập Monica

@PeterFlom Xin lỗi, tôi nên đã rõ ràng hơn. Tôi thấy chúng khó có thể sáng tác như một cách giải thích liên quan đến lâm sàng / sinh học, khi so sánh với các thể loại được xây dựng từ bằng chứng lâm sàng / sinh học. Điều này được thừa nhận thiên vị lĩnh vực cụ thể về phía tôi.
Fomite

Ồ, OK, @epigrad, điều đó có ý nghĩa. Và tôi sẽ chỉnh sửa câu trả lời của tôi để bao gồm trường hợp này.
Peter Flom - Tái lập Monica

1
Có vẻ như EpiGrad và @PeterFlom diễn giải "hồi quy lượng tử" khác nhau. EpiGrad nói về việc chia biến X thành các nhóm được xác định bởi các lượng tử, trong khi Peter Flom nói về mô hình hóa, giả sử, lượng tử thứ 90 của phản ứng thay vì trung bình của nó.
Aniko

@Aniko Điều đó cũng có thể. Tôi đã giả định (có thể không chính xác) rằng Peter có nghĩa là phân loại dữ liệu thành các lượng tử và sử dụng dữ liệu đó trong mô hình hồi quy. Một xu hướng phổ biến (và vô nghĩa) trong lĩnh vực của tôi. Đó có thể không phải là trường hợp.
Fomite

9

Dichotimization thêm tư duy ma thuật để phân tích dữ liệu. Điều này rất hiếm khi là một ý tưởng tốt.

Dưới đây là một bài viết của Royston, Altman và Sauerbrei về một số lý do tại sao nó là một ý tưởng tồi.

Suy nghĩ của riêng tôi: nếu bạn phân đôi một biến phụ thuộc, giả sử, cân nặng khi sinh ở mức 2,5 kg (điều này được thực hiện mọi lúc) thì bạn đang đối xử với những đứa trẻ sinh ra ở mức 2,49 kg giống như những đứa trẻ sinh ra ở mức 1,5 kg và những đứa trẻ sinh ra ở mức 2,51 kg giống như những người 3,5 kg. Điều này không có ý nghĩa.

Một thay thế tốt hơn thường là hồi quy lượng tử. Tôi đã viết về điều này cho NESUG gần đây. Tờ giấy đó ở đây

Một ngoại lệ ở trên là khi các danh mục được thúc đẩy đáng kể; ví dụ: nếu bạn đang làm việc với hành vi lái xe, sẽ rất hợp lý để phân loại dựa trên độ tuổi hợp pháp để lái xe.


5
Peter nói rất hay. Tôi không thể tưởng tượng một tình huống trong đó phân đôi trong phân tích là một ý tưởng tốt.
Frank Harrell

5

Tôi thích và ủng hộ cả câu trả lời của @ Epigrad và @ Peter's. Tôi chỉ muốn thêm, rằng, biến khoảng thời gian biến thành nhị phân làm cho biến số siêu hình (có khả năng) chỉ là biến số thứ tự. Với biến nhị phân, việc tính giá trị trung bình hoặc phương sai là không phù hợp (mặc dù một số người đã làm) và, như tôi đã lưu ý ở nơi khác , một số phân tích đa biến trở thành không thể áp dụng về mặt lý thuyết hoặc logic. Ví dụ, tôi nghĩ rằng việc sử dụng phân cụm phân cấp hoặc phân tích nhân tố hoặc phân tích nhân tố với các biến nhị phân là không đúng.

Khách hàng của cuộc điều tra thường buộc chúng tôi phải phân đôi các biến số ở đầu ra vì suy nghĩ về một vài lớp thay vì một đặc điểm liên tục đơn giản hơn, thông tin có vẻ ít sương mù và (giả) nhiều hơn.

Tuy nhiên, có những trường hợp khi phân đôi có thể được bảo hành. Ví dụ, nơi có lưỡng tính mạnh hoặc khi phân tích (ví dụ MAMBAC hoặc khác) cho thấy sự hiện diện của 2 lớp tiềm ẩn.


Tôi đang có một thời gian khó khăn để hiểu lập luận của bạn. Và nếu một khách hàng muốn chúng ta tham gia vào thực tiễn thống kê xấu, chúng ta nên suy nghĩ kỹ. Lưu ý: trichotomise không phải là một từ. Dichotomization = dicho (hai) + tomous (cắt), vì vậy nó sẽ là tritomize / tritomise nếu được sử dụng.
Frank Harrell

Passage trên client là một lời than thở, không tranh luận. Đối với người Hy Lạp, bạn đúng; Tôi bỏ chữ.
ttnphns

1
Cảm ơn. Tôi cố gắng hết sức có thể để biến những lời than vãn thống kê thành hành động khắc phục, mặc dù là một quá trình giáo dục chuyên sâu với khách hàng.
Frank Harrell
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.