Tôi có thể sử dụng PCA để thực hiện lựa chọn biến để phân tích cụm không?


12

Tôi phải giảm số lượng biến để tiến hành phân tích cụm. Các biến của tôi có mối tương quan mạnh, vì vậy tôi nghĩ sẽ thực hiện PCA Phân tích nhân tố (phân tích thành phần chính). Tuy nhiên, nếu tôi sử dụng điểm số kết quả, các cụm của tôi không hoàn toàn chính xác (so với các phân loại trước đây trong văn học).

Câu hỏi:

Tôi có thể sử dụng ma trận xoay vòng để chọn các biến có tải lớn nhất cho từng thành phần / yếu tố và chỉ sử dụng các biến này cho phân cụm của tôi không?

Bất kỳ tài liệu tham khảo thư mục cũng sẽ hữu ích.

Cập nhật:

Một số điều rõ ràng:

  • Mục tiêu của tôi: Tôi phải chạy một phân tích cụm với thuật toán hai bước bằng SPSS, nhưng các biến của tôi không phải là độc lập, vì vậy tôi nghĩ về việc loại bỏ một số trong số chúng.

  • Tập dữ liệu của tôi: Tôi đang làm việc trên 15 tham số vô hướng (biến của tôi) gồm 100.000 trường hợp. Một số biến có tương quan mạnh ( >0,9 Pearson)

  • Tôi nghi ngờ: Vì tôi chỉ cần các biến độc lập, tôi nghĩ sẽ chạy Phân tích thành phần chính (xin lỗi: Tôi đã nói sai về Phân tích nhân tố trong câu hỏi ban đầu của tôi, lỗi của tôi) và chỉ chọn các biến có tải trọng lớn nhất cho mỗi thành phần. Tôi biết rằng quy trình PCA trình bày một số bước tùy ý, nhưng tôi phát hiện ra rằng lựa chọn này thực sự giống với " phương pháp B4 " do IT Jolliffe (1972 & 2002) đề xuất để chọn các biến và cũng được đề xuất bởi JR King & DA Jackson vào năm 1999 .

    Vì vậy, tôi đã suy nghĩ để chọn theo cách này một số nhóm phụ của các biến độc lập. Sau đó tôi sẽ sử dụng các nhóm để chạy phân tích cụm khác nhau và tôi sẽ so sánh kết quả.


1
Nếu bạn biết câu trả lời đúng, tại sao lại phân tích?
StasK

1
Một lưu ý khác, tại sao bạn nghĩ rằng bạn cần giảm số lượng biến để phân tích cụm? Tôi không nghĩ rằng bất kỳ công cụ hiện đại nào của phân tích cụm có bất kỳ hạn chế nào về số lượng biến đầu vào. Tất nhiên nếu bạn có một bài kiểm tra với 120 bài, mọi thứ sẽ trở nên phức tạp với nó.
StasK


Dường như với tôi rằng việc bổ sung khía cạnh phân tích cụm của Q này làm cho nó đủ khác biệt để duy trì mở.
gung - Tái lập Monica

Bạn dường như áp dụng các tiêu chí chặt chẽ hơn cho các bản sao hơn tôi, @gung; có lẽ bạn đã đúng (và việc bỏ phiếu cũng không suôn sẻ về vấn đề này). Tuy nhiên, trong trường hợp cụ thể này, OP đã hỏi về lựa chọn tính năng dựa trên PCA đơn giản nhất (như được làm rõ trong bản cập nhật của anh ấy) được đề cập trong luồng mà tôi đề xuất. Mặt khác, StasK đã đăng lên đây một câu trả lời thú vị, cụ thể là về việc phân cụm ...
amip nói rằng Rebstate Monica

Câu trả lời:


7

Tôi sẽ, theo thông lệ của tôi, lùi lại một bước và hỏi chính xác bạn đang cố gắng làm gì. Phân tích nhân tố được thiết kế để tìm các biến tiềm ẩn. Nếu bạn muốn tìm các biến tiềm ẩn và phân cụm chúng, thì những gì bạn đang làm là chính xác. Nhưng bạn nói rằng bạn chỉ đơn giản muốn giảm số lượng biến - thay vào đó gợi ý phân tích thành phần chính.

Tuy nhiên, với một trong hai, bạn phải diễn giải phân tích cụm trên các biến mới và các biến mới đó chỉ là các tổng trọng số của các biến cũ.

Bạn có bao nhiêu biến? Chúng có mối tương quan như thế nào? Nếu có quá nhiều và chúng có mối tương quan rất mạnh, thì bạn có thể tìm tất cả các mối tương quan trên một số rất cao và xóa ngẫu nhiên một biến từ mỗi cặp. Điều này làm giảm số lượng biến và để lại các biến như chúng là.

Tôi cũng xin nhắc lại @StasK về sự cần thiết phải làm điều này và @ rolando2 về sự hữu ích của việc tìm kiếm thứ gì đó khác với những gì đã được tìm thấy trước đây. Như giáo sư yêu thích của tôi ở trường học thường nói "Nếu bạn không ngạc nhiên, bạn đã không học được gì".


1
Trước hết, tôi xin lỗi: tôi thực sự đang đề cập đến một phân tích thành phần chính, không phải để phân tích nhân tố, sai lầm của tôi. Hơn nữa, tôi đang tìm cách để không chọn biến tương quan phù hợp tùy ý mà tôi sẽ giữ. Tôi thêm thông tin về vấn đề trên .. cảm ơn bạn một lần nữa
vi.

5

Một cách để thực hiện phân tích nhân tố và phân tích cụm cùng một lúc là thông qua các mô hình hỗn hợp phương trình cấu trúc. Trong các mô hình này, bạn yêu cầu rằng có các mô hình riêng biệt (trong trường hợp này là các mô hình nhân tố) cho mỗi cụm. Bạn sẽ cần phải có phân tích trung bình cùng với phân tích hiệp phương sai và quan tâm đến việc xác định ở mức độ lớn hơn trong phân tích nhân tố vanilla đơn giản. Ý tưởng được tiếp cận từ phía SEM xuất hiện trong Jedidi et. al. (1997) , và từ phía phân cụm, trong phân cụm dựa trên mô hình của Adrian Raftery . Kiểu phân tích này, rõ ràng, có sẵn trong Mplus .


1
cảm ơn bạn về các yếu tố đầu vào, đặc biệt cho các tài liệu tham khảo, nhưng tôi đã giới thiệu sai về Phân tích nhân tố: Tôi thực sự đã suy nghĩ về các Thành phần chính để giảm các biến của mình thành một nhóm các biến độc lập. sai lầm của tôi
vi.

2

Tôi không nghĩ đó là vấn đề "chính xác" thuần túy và đơn giản, mà là liệu nó có hoàn thành được những gì bạn đang muốn làm hay không. Cách tiếp cận mà bạn mô tả sẽ kết thúc việc phân cụm theo các yếu tố nhất định, theo cách giảm nước, vì bạn sẽ chỉ sử dụng một chỉ báo để thể hiện từng yếu tố. Mỗi chỉ số như vậy là một điểm không hoàn hảo cho yếu tố tiềm ẩn, tiềm ẩn. Đó là một vấn đề.

Một vấn đề khác là bản thân phân tích nhân tố, như tôi (và nhiều người khác) đã kể lại , có đầy đủ các quyết định chủ quan liên quan đến cách xử lý dữ liệu bị thiếu, số lượng yếu tố cần trích xuất, cách trích xuất, liệu và cách xoay, v.v. trên. Vì vậy, có thể không rõ ràng rằng các yếu tố bạn có thể đã trích xuất một cách nhanh chóng, mặc định phần mềm (như tôi nghĩ bạn đã ngụ ý) là "tốt nhất" theo bất kỳ nghĩa nào.

Nhìn chung, sau đó, bạn có thể đã sử dụng các phiên bản rút gọn của các yếu tố mà bản thân chúng gây tranh cãi là cách tốt nhất để mô tả các chủ đề bên dưới dữ liệu của bạn. Tôi không mong đợi rằng các cụm kết quả từ các biến đầu vào như vậy sẽ là thông tin nhất hoặc khác biệt nhất.

Một lưu ý khác, có vẻ thú vị khi bạn coi đó là một vấn đề khi có các thành viên / hồ sơ cụm không phù hợp với những gì các nhà nghiên cứu khác đã tìm thấy. Đôi khi những phát hiện không xác nhận có thể rất lành mạnh!


cảm ơn bạn rất nhiều, tôi đã thêm nhiều thông tin ở trên để xác định nghi ngờ của mình
vi.

0

Điều có thể xảy ra trong trường hợp của bạn là các yếu tố được trích xuất trong Phân tích nhân tố đã bù các tải dương và âm từ các biến ban đầu. Điều này sẽ làm giảm sự khác biệt đó là mục đích của cụm.

Bạn có thể chia mỗi yếu tố trích xuất thành 2 - một chỉ có tải trọng dương, còn lại chỉ là tải âm?

Thay thế điểm yếu tố cho từng trường hợp cho từng yếu tố bằng điểm số dương và điểm âm và thử phân cụm trên bộ điểm số mới này.

Vui lòng thả vào một dòng nếu điều này làm việc cho bạn.


0

Bạn có thể quét cả giá trị cao và giá trị thấp và để lại tất cả các biến trong các yếu tố. Bằng cách này, không cần phải cắt giảm các yếu tố. Nếu bạn tách Nhân tố 1 (nói) một cách nhất định dựa trên các dấu hiệu của tải trọng, thì trong Yếu tố 2, các dấu hiệu có thể hoàn toàn khác nhau. Sau đó, bạn sẽ cắt Nhân tố 2 khác với Yếu tố 1 chứ? Điều này có vẻ khó hiểu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.