Tôi đang cố gắng tìm mối tương quan giữa một biến nhị phân và biến liên tục.
Từ công việc cơ bản của tôi về điều này, tôi thấy rằng tôi phải sử dụng kiểm tra t độc lập và điều kiện tiên quyết cho nó là việc phân phối biến phải bình thường.
Tôi đã thực hiện kiểm tra Kolmogorov-Smirnov để kiểm tra tính quy phạm và thấy rằng biến liên tục là không bình thường và bị sai lệch (cho khoảng 4.000 điểm dữ liệu).
Tôi đã làm thử nghiệm Kolmogorov-Smirnov cho toàn bộ phạm vi biến. Tôi có nên chia chúng thành các nhóm và làm bài kiểm tra? Tức là, nếu tôi có risk level
( 0
= Không rủi ro, 1
= Rủi ro) và mức cholesterol, thì tôi nên:
Chia chúng thành hai nhóm, như
Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS
Mang chúng lại với nhau và áp dụng thử nghiệm? (Tôi chỉ thực hiện trên toàn bộ dữ liệu.)
Sau đó, tôi nên làm xét nghiệm gì nếu nó vẫn không bình thường?
EDIT: Kịch bản trên chỉ là một mô tả mà tôi đã cố gắng cung cấp cho vấn đề của mình. Tôi có một bộ dữ liệu chứa hơn 1000 biến và khoảng 4000 mẫu. Chúng hoặc là liên tục hoặc phân loại trong tự nhiên. Nhiệm vụ của tôi là dự đoán một biến nhị phân dựa trên các biến này (có thể đưa ra mô hình hồi quy logistic). Vì vậy, tôi nghĩ rằng cuộc điều tra ban đầu sẽ liên quan đến việc tìm ra mối tương quan giữa nhị phân và một biến liên tục.
Tôi đã cố gắng để xem sự phân phối của các biến như thế nào và do đó đã cố gắng đi đến kiểm tra t. Ở đây tôi tìm thấy sự bình thường như là một vấn đề. Thử nghiệm Kolmogorov - Smirnov cho giá trị quan trọng là 0,00 trong hầu hết các biến này.
Tôi có nên giả định sự bình thường ở đây? Độ lệch và độ nhiễu của các biến này cũng cho thấy dữ liệu bị lệch (> 0) trong hầu hết các trường hợp.
Theo ghi chú được đưa ra dưới đây, tôi sẽ điều tra thêm về mối tương quan điểm-biserial. Nhưng về việc phân phối các biến tôi vẫn không chắc chắn.