Mối tương quan giữa biến nhị phân và biến liên tục


10

Tôi đang cố gắng tìm mối tương quan giữa một biến nhị phân và biến liên tục.

Từ công việc cơ bản của tôi về điều này, tôi thấy rằng tôi phải sử dụng kiểm tra t độc lập và điều kiện tiên quyết cho nó là việc phân phối biến phải bình thường.

Tôi đã thực hiện kiểm tra Kolmogorov-Smirnov để kiểm tra tính quy phạm và thấy rằng biến liên tục là không bình thường và bị sai lệch (cho khoảng 4.000 điểm dữ liệu).

Tôi đã làm thử nghiệm Kolmogorov-Smirnov cho toàn bộ phạm vi biến. Tôi có nên chia chúng thành các nhóm và làm bài kiểm tra? Tức là, nếu tôi có risk level( 0= Không rủi ro, 1= Rủi ro) và mức cholesterol, thì tôi nên:

  • Chia chúng thành hai nhóm, như

    Risk level =0 (Cholestrol level) -> Apply KS
    Risk level =1 (Cholestrol level) -> Apply KS
    
  • Mang chúng lại với nhau và áp dụng thử nghiệm? (Tôi chỉ thực hiện trên toàn bộ dữ liệu.)

Sau đó, tôi nên làm xét nghiệm gì nếu nó vẫn không bình thường?

EDIT: Kịch bản trên chỉ là một mô tả mà tôi đã cố gắng cung cấp cho vấn đề của mình. Tôi có một bộ dữ liệu chứa hơn 1000 biến và khoảng 4000 mẫu. Chúng hoặc là liên tục hoặc phân loại trong tự nhiên. Nhiệm vụ của tôi là dự đoán một biến nhị phân dựa trên các biến này (có thể đưa ra mô hình hồi quy logistic). Vì vậy, tôi nghĩ rằng cuộc điều tra ban đầu sẽ liên quan đến việc tìm ra mối tương quan giữa nhị phân và một biến liên tục.

Tôi đã cố gắng để xem sự phân phối của các biến như thế nào và do đó đã cố gắng đi đến kiểm tra t. Ở đây tôi tìm thấy sự bình thường như là một vấn đề. Thử nghiệm Kolmogorov - Smirnov cho giá trị quan trọng là 0,00 trong hầu hết các biến này.

Tôi có nên giả định sự bình thường ở đây? Độ lệch và độ nhiễu của các biến này cũng cho thấy dữ liệu bị lệch (> 0) trong hầu hết các trường hợp.

Theo ghi chú được đưa ra dưới đây, tôi sẽ điều tra thêm về mối tương quan điểm-biserial. Nhưng về việc phân phối các biến tôi vẫn không chắc chắn.


1
Tương quan (của bất kỳ loại nào) giữa một continuos và biến nhị phân (nhóm), không nhiều hơn (và có thể ít hơn ...) so với chỉ so sánh các phương tiện (một số loại trung bình ...) giữa các nhóm, vì vậy thường nó sẽ tốt hơn để làm điều đó
kjetil b halvorsen

Câu trả lời:


14

Tôi hơi bối rối; tiêu đề của bạn nói "tương quan" nhưng bài viết của bạn đề cập đến các bài kiểm tra t. Kiểm tra t là kiểm tra vị trí trung tâm - cụ thể hơn là giá trị trung bình của một bộ dữ liệu khác với giá trị trung bình của một bộ khác? Tương quan, mặt khác, cho thấy mối quan hệ giữa hai biến. Có nhiều biện pháp tương quan, có vẻ như mối tương quan điểm-biserial là phù hợp trong trường hợp của bạn.

Bạn đúng rằng một bài kiểm tra t giả định tính bình thường; tuy nhiên, các thử nghiệm về tính quy tắc có thể cho kết quả đáng kể ngay cả đối với các bất thường tầm thường với N là 4000. Các thử nghiệm T khá mạnh mẽ với độ lệch khiêm tốn so với tính chuẩn nếu phương sai của hai bộ dữ liệu gần bằng nhau và mẫu kích thước gần bằng nhau. Nhưng một bài kiểm tra không tham số mạnh mẽ hơn so với các bài kiểm tra và hầu hết trong số chúng có sức mạnh gần như bằng bài kiểm tra t, ngay cả khi các bản phân phối là bình thường.

Tuy nhiên, trong ví dụ của bạn, bạn sử dụng "cholesterol" là rủi ro hoặc không rủi ro. Đây gần như chắc chắn là một ý tưởng tồi. Dichotomizing một biến liên tục gọi tư duy ma thuật. Nó nói rằng, tại một số điểm, cholesterol chuyển từ "không rủi ro" sang "rủi ro". Giả sử bạn đã sử dụng 200 làm điểm cắt của mình - thì bạn đang nói rằng người bị cholesterol năm 201 giống như người có 400 và người có 199 cũng giống như người có 100. Điều này không có ý nghĩa gì.


2
Tôi đồng ý, và tôi nghĩ rằng hầu hết chúng ta đều đồng ý rằng việc phân đôi lãng phí thông tin và đó có thể là một phương pháp thô hoặc thô hoặc vụng về. Tôi chỉ nghĩ rằng lập luận "tư duy ma thuật" phản ứng thái quá một chút. Chọn bóng trên một sự khác biệt không giống như tin rằng không có sự khác biệt. Tôi hy vọng sẽ có những thời điểm phía trước khi tôi thấy thuận tiện và đáng để đánh đổi để đưa các danh mục ra khỏi một số biến liên tục, cho mục đích phân tích hoặc báo cáo. Chỉ cần 2 xu của tôi.
rolando2

2
Làm cho các loại ra khỏi các biến liên tục là tồi tệ hơn ma thuật. Diabolical có thể là một từ tốt hơn. Nếu bạn muốn tối đa hóa độ phức tạp của mô hình, tăng độ lệch và tăng phương sai tất cả cùng một lúc, sự phân đôi là dành cho bạn. [Nó tối đa hóa sự phức tạp vì thông tin bị mất do phân loại đòi hỏi phải thêm nhiều biến vào mô hình để đạt được cùng ]R2
Frank Harrell

6

Hãy đơn giản hóa mọi thứ. Với N = 4.000 cho mức cholesterol, bạn sẽ không gặp vấn đề gì với kết quả của bạn bị sai lệch bởi các ngoại lệ. Do đó, bạn có thể sử dụng chính mối tương quan, theo ngụ ý của câu ban đầu của bạn. Nó sẽ làm cho ít khác biệt cho dù bạn đánh giá mối tương quan thông qua phương pháp Pearson, Spearman hoặc Point-Biserial.

Nếu thay vào đó bạn thực sự cần phải cụm từ kết quả về sự khác biệt điển hình giữa cholesterol cao rủi ro và nhóm thấp rủi ro, kiểm định Mann-Whitney U là tốt để sử dụng, nhưng bạn cũng có thể sử dụng các thông tin mới hơn t -test. Với chữ N này (và một lần nữa, với các ngoại lệ thiên văn, một cái gì đó bạn không thể nghi ngờ loại trừ), bạn không cần lo lắng rằng việc thiếu tính quy tắc sẽ làm tổn hại đến kết quả của bạn.


Cảm ơn vì đã trả lời. Nhưng nếu tôi phải biết về các ngoại lệ làm cho một sự biến dạng lớn là chính xác để sử dụng kurtosis và xiên để phát hiện nó? Trong trường hợp nếu điều này là đúng trên các giá trị của kurtosis và độ lệch thì tôi cho rằng phân phối là không bình thường. Cảm ơn câu trả lời của bạn
Sree Aurovindh

Tôi giả định dựa trên kiến ​​thức nội dung hạn chế rằng với cholesterol, bạn sẽ không có bất kỳ giá trị nào cao hơn nhiều bậc khác. Đó là lý do tại sao tôi nghĩ rằng bạn có thể sử dụng một phương pháp tham số như tương quan hoặc kiểm tra t. Không phải tôi nghĩ rằng việc phân phối là bình thường. Bạn không cần nó là bình thường. Nhân tiện, theo câu trả lời của Peter: Tôi tin (và hy vọng) rằng bạn có một số nguồn về tình trạng Nguy cơ Cao / Thấp không phụ thuộc vào điểm số cholesterol. Tôi đồng ý rằng nó có thể không hữu ích để phân đôi.
rolando2

2
Tôi có thể đề nghị bạn thêm một phần vào câu hỏi ban đầu của bạn, được đánh dấu "EDIT: ....", đánh vần những câu hỏi còn lại cho bạn mà chưa được giải quyết bằng các câu trả lời và nhận xét bạn đã nhận được cho đến nay.
rolando2

Cảm ơn lời đề nghị của bạn. Tôi đã cập nhật tương tự. Xin lỗi vì câu hỏi mơ hồ ở vị trí đầu tiên. Cảm ơn
Sree Aurovindh
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.