Tôi có hơn 1000 tập dữ liệu mẫu gồm 19 biến. Mục tiêu của tôi là dự đoán một biến nhị phân dựa trên 18 biến khác (nhị phân và liên tục). Tôi khá tự tin rằng 6 trong số các biến dự đoán có liên quan đến phản hồi nhị phân, tuy nhiên, tôi muốn phân tích sâu hơn về tập dữ liệu và tìm kiếm các liên kết hoặc cấu trúc khác mà tôi có thể bị thiếu. Để làm điều này, tôi quyết định sử dụng PCA và phân cụm.
Khi chạy PCA trên dữ liệu đã chuẩn hóa, hóa ra cần phải giữ 11 thành phần để giữ lại 85% phương sai.
Bằng cách vẽ sơ đồ các cặp, tôi nhận được điều này:
Tôi không chắc chắn về những gì tiếp theo ... Tôi thấy không có mô hình đáng kể nào trong pca và tôi tự hỏi điều này có nghĩa là gì và liệu nó có thể được gây ra bởi thực tế là một số biến là nhị phân. Bằng cách chạy một thuật toán phân cụm với 6 cụm, tôi nhận được kết quả sau đây không chính xác là một sự cải tiến mặc dù một số đốm màu dường như nổi bật (những cụm màu vàng).
Như bạn có thể nói, tôi không phải là một chuyên gia về PCA, nhưng đã xem một số hướng dẫn và làm thế nào nó có thể mạnh mẽ để có cái nhìn thoáng qua về các cấu trúc trong không gian chiều cao. Với các chữ số MNIST nổi tiếng (hoặc bộ dữ liệu IRIS), nó hoạt động rất tốt. Câu hỏi của tôi là: tôi nên làm gì bây giờ để hiểu rõ hơn về PCA? Phân cụm dường như không nhận được bất cứ điều gì hữu ích, làm thế nào tôi có thể nói rằng không có mẫu nào trong PCA hoặc tôi nên thử gì tiếp theo để tìm mẫu trong dữ liệu PCA?