Tôi phải giảm số lượng biến để tiến hành phân tích cụm. Các biến của tôi có mối tương quan mạnh, vì vậy tôi nghĩ sẽ thực hiện PCA Phân tích nhân tố (phân tích thành phần chính). Tuy nhiên, nếu tôi sử dụng điểm số kết quả, các cụm của tôi không hoàn toàn chính xác (so với các phân loại trước đây trong văn học).
Câu hỏi:
Tôi có thể sử dụng ma trận xoay vòng để chọn các biến có tải lớn nhất cho từng thành phần / yếu tố và chỉ sử dụng các biến này cho phân cụm của tôi không?
Bất kỳ tài liệu tham khảo thư mục cũng sẽ hữu ích.
Cập nhật:
Một số điều rõ ràng:
Mục tiêu của tôi: Tôi phải chạy một phân tích cụm với thuật toán hai bước bằng SPSS, nhưng các biến của tôi không phải là độc lập, vì vậy tôi nghĩ về việc loại bỏ một số trong số chúng.
Tập dữ liệu của tôi: Tôi đang làm việc trên 15 tham số vô hướng (biến của tôi) gồm 100.000 trường hợp. Một số biến có tương quan mạnh ( Pearson)
Tôi nghi ngờ: Vì tôi chỉ cần các biến độc lập, tôi nghĩ sẽ chạy Phân tích thành phần chính (xin lỗi: Tôi đã nói sai về Phân tích nhân tố trong câu hỏi ban đầu của tôi, lỗi của tôi) và chỉ chọn các biến có tải trọng lớn nhất cho mỗi thành phần. Tôi biết rằng quy trình PCA trình bày một số bước tùy ý, nhưng tôi phát hiện ra rằng lựa chọn này thực sự giống với " phương pháp B4 " do IT Jolliffe (1972 & 2002) đề xuất để chọn các biến và cũng được đề xuất bởi JR King & DA Jackson vào năm 1999 .
Vì vậy, tôi đã suy nghĩ để chọn theo cách này một số nhóm phụ của các biến độc lập. Sau đó tôi sẽ sử dụng các nhóm để chạy phân tích cụm khác nhau và tôi sẽ so sánh kết quả.