Tạo một chỉ mục từ một số thành phần chính hoặc các yếu tố được giữ lại từ PCA / FA


15

Tôi đang sử dụng Phân tích thành phần chính (PCA) để tạo ra một chỉ số cần thiết cho nghiên cứu của mình. Câu hỏi của tôi là làm thế nào tôi nên tạo một chỉ mục bằng cách sử dụng các thành phần chính được giữ lại được tính toán thông qua PCA.

Chẳng hạn, tôi quyết định giữ lại 3 thành phần chính sau khi sử dụng PCA và tôi đã tính điểm cho 3 thành phần chính này. Các cách thích hợp để tạo, cho mỗi người trả lời, một chỉ số duy nhất trong số 3 điểm này là gì?

  • Có liên quan để thêm 3 điểm được tính toán để có giá trị tổng hợp không?
  • Hoặc để trung bình 3 điểm để có một giá trị như vậy?
  • Hay tôi chỉ nên giữ thành phần chính đầu tiên (mạnh nhất) và sử dụng điểm số của nó làm chỉ số?

Ngoài ra, người ta có thể sử dụng Phân tích nhân tố (FA) nhưng vẫn còn một câu hỏi: làm thế nào để tạo một chỉ mục duy nhất dựa trên một số điểm yếu tố?


4
PC không được định nghĩa theo định nghĩa. Do đó, dưới dạng các biến, chúng không trùng lặp thông tin của nhau theo bất kỳ cách nào. Điều đó có nghĩa là không có lý do để tạo ra một giá trị duy nhất (biến tổng hợp) trong số chúng. Hoặc, đôi khi nhân chúng có thể trở thành mối quan tâm, có lẽ - nhưng không tóm tắt hoặc tính trung bình.
ttnphns

3
Tôi đồng ý với @ttnphns: hai tùy chọn đầu tiên của bạn không có nhiều ý nghĩa và toàn bộ nỗ lực "kết hợp" ba PC thành một chỉ mục dường như bị nhầm lẫn. Lấy PC đầu tiên làm chỉ mục của bạn hoặc sử dụng một số cách tiếp cận khác nhau hoàn toàn.
amip nói rằng Phục hồi lại

2
@ttnphns không tương quan, không độc lập. Có thể có thông tin dư thừa lặp đi lặp lại trên PC, chỉ là không tuyến tính.
phỏng đoán

1
@amoeba Cảm ơn bạn đã nhắc nhở. Tôi đã phác thảo các phiên bản cho thẻ và đoạn trích của nó tại stats.stackexchange.com/tags/valval/info .
whuber

1
@ttnphns Bạn có cân nhắc đăng câu trả lời ở đây dựa trên nhận xét của bạn ở trên không? Tôi vừa mới bắt đầu một tiền thưởng ở đây vì các biến thể của câu hỏi này liên tục xuất hiện và chúng tôi không thể đóng chúng dưới dạng trùng lặp vì không có câu trả lời thỏa đáng ở bất cứ đâu.
amip nói rằng Phục hồi lại

Câu trả lời:


11

Câu trả lời này có chủ ý phi toán học và hướng tới nhà tâm lý học phi thống kê (nói), người hỏi liệu anh ta có thể tính tổng / điểm yếu tố trung bình của các yếu tố khác nhau để có được điểm "chỉ số tổng hợp" cho mỗi người trả lời hay không.

Tổng hợp hoặc tính trung bình điểm của một số biến số giả định rằng các biến đó thuộc cùng một chiều và là các biện pháp có thể thay thế được. (Trong câu hỏi, "biến" là điểm thành phần hoặc yếu tố , không thay đổi điều này, vì chúng là ví dụ về biến.)

nhập mô tả hình ảnh ở đây

Thực sự (Hình 1), người trả lời 1 và 2 có thể được coi là không điển hình như nhau (nghĩa là sai lệch so với 0, quỹ tích của trung tâm dữ liệu hoặc gốc tọa độ), cả hai đều có cùng điểm trung bình ( 1.2 + .4 ) / 2 = .8 . Giá trị .8 là hợp lệ, như mức độ không điển hình, đối với cấu trúc X + Y hoàn hảo như đối với XY(.8+.8)/2=.8(1.2+.4)/2=.8.8X+YXYriêng biệt. Các biến tương quan, đại diện cho cùng một chiều, có thể được xem là các phép đo lặp lại có cùng đặc điểm và sự khác biệt hoặc không tương đương của điểm số của chúng là lỗi ngẫu nhiên. Do đó, nó được xác nhận là tổng hợp / trung bình điểm vì các lỗi ngẫu nhiên được dự kiến ​​sẽ triệt tiêu lẫn nhau trong spe .

Điều đó không phải là như vậy nếu Y không tương quan đủ để được nhìn thấy cùng một "chiều". Để sau đó, độ lệch / không điển hình của người trả lời được truyền đạt bởi khoảng cách Euclide từ gốc (Hình 2).XY

nhập mô tả hình ảnh ở đây

Khoảng cách đó là khác nhau cho hỏi 1 và 2: .82+.821.13, - respondend 2 là đi xa hơn. Nếu các biến là các kích thước độc lập, khoảng cách euclide vẫn liên quan đến vị trí của người trả lời ghi điểm chuẩn bằng 0, nhưng điểm số trung bình thì không. Lấy một ví dụ tối đa vớiX=.8Y=-1.22+.421.26X=.8 . Từ "quan điểm" của điểm trung bình, người trả lời này hoàn toàn điển hình, như X = 0 , Y = 0 . Điều đó có đúng với bạn không?Y=.8X=0Y=0

Một câu trả lời khác ở đây đề cập đến tổng hoặc trung bình có trọng số, ví dụ với một số trọng số hợp lý, ví dụ - nếu XwXXi+wYYiX , là thành phần chính - tỷ lệ với thành phần st. sai lệch hoặc phương sai. Nhưng trọng số như vậy không thay đổi gì về nguyên tắc, nó chỉ kéo dài & ép vòng tròn trên Hình 2 dọc theo các trục thành hình elip. Trọng lượng w X , w YYwXwYđược đặt không đổi cho tất cả người trả lời i, đó là nguyên nhân của lỗ hổng. Để liên hệ độ lệch bivariate của người trả lời - trong một vòng tròn hoặc hình elip - trọng lượng phụ thuộc vào điểm số của anh ta phải được giới thiệu; khoảng cách Euclide coi trước đó thực sự là một ví dụ về tổng trọng như vậy với trọng lượng phụ thuộc vào các giá trị. Và nếu điều quan trọng là bạn kết hợp các phương sai không bằng nhau của các biến (ví dụ: các thành phần chính, như trong câu hỏi), bạn có thể tính khoảng cách euclide có trọng số, khoảng cách sẽ được tìm thấy trên Hình 2 sau khi vòng tròn trở nên dài ra.

Khoảng cách Euclide (có trọng số hoặc không có trọng số) là độ lệch là giải pháp trực quan nhất để đo lường mức độ không điển hình của bivariate hoặc multivariate của người trả lời. Nó dựa trên một giả định của các biến không phân tách ("độc lập") tạo thành một không gian đẳng hướng trơn tru. Khoảng cách Manhatten có thể là một trong những lựa chọn khác. Nó xem không gian tính năng bao gồm các khối nên chỉ cho phép ngang / dựng, không chéo, khoảng cách được cho phép. |.8|+|.8|=1.6|1.2|+|.4|=1.6đưa ra sự không điển hình Manhattan bằng nhau cho hai người trả lời của chúng tôi; nó thực sự là tổng điểm - nhưng chỉ khi điểm số đều dương. Trong trường hợp Y = - .8 khoảng cách là 1.6 nhưng tổng bằng 0 .X=.8Y=.81.60

(Bạn có thể kêu lên "Tôi sẽ làm cho tất cả các điểm dữ liệu trở nên tích cực và tính tổng (hoặc trung bình) với lương tâm tốt vì tôi đã chọn khoảng cách Manhatten", nhưng xin vui lòng nghĩ - bạn có quyền tự do di chuyển nguồn gốc không? ví dụ, được trích xuất trong điều kiện dữ liệu được tập trung vào giá trị trung bình, điều này có ý nghĩa tốt. Nguồn gốc khác sẽ tạo ra các thành phần / yếu tố khác với điểm số khác. Không, hầu hết thời gian bạn không thể chơi với nguồn gốc - quỹ tích của "người trả lời điển hình" hoặc "đặc điểm không có cấp độ" - như bạn thích chơi.)

Tóm lại , nếu mục đích của cấu trúc tổng hợp là phản ánh các vị trí của người trả lời tương đối một số "không" hoặc quỹ tích điển hình nhưng các biến số hầu như không tương quan, một số khoảng cách không gian từ gốc đó và không có nghĩa là (hoặc tổng) hoặc không có trọng số, nên được chọn.

Chà, giá trị trung bình (tổng) sẽ có ý nghĩa nếu bạn quyết định xem các biến (không tương thích) là các chế độ thay thế để đo lường điều tương tự. Bằng cách này, bạn đang cố tình bỏ qua bản chất khác nhau của các biến. Nói cách khác, bạn có ý thức rời khỏi Hình 2 để ủng hộ Hình 1: bạn "quên" rằng các biến là độc lập. Sau đó - làm tổng hoặc trung bình. Ví dụ: điểm số về "phúc lợi vật chất" và "phúc lợi cảm xúc" có thể được tính trung bình, tương tự điểm số về "IQ không gian" và "IQ bằng lời nói". Đây là loại hoàn toàn thực dụng, các vật liệu tổng hợp không được phê duyệt được gọi là chỉ số pin (tập hợp các bài kiểm tra hoặc bảng câu hỏi đo lường những thứ không liên quan hoặc những thứ tương quan mà mối tương quan chúng ta bỏ qua được gọi là "pin"). Chỉ số pin chỉ có ý nghĩa nếu điểm số có cùng hướng (chẳng hạn như cả sự giàu có và sức khỏe cảm xúc được xem là cực "tốt hơn"). Tính hữu dụng của chúng bên ngoài các thiết lập ad hoc hẹp bị hạn chế.

Nếu các biến nằm trong mối quan hệ giữa - chúng có mối tương quan đáng kể vẫn không đủ mạnh để xem chúng là trùng lặp, thay thế, của nhau, chúng ta thường tính tổng (hoặc trung bình) các giá trị của chúng theo cách có trọng số. Sau đó, các trọng số này phải được thiết kế cẩn thận và chúng nên phản ánh, theo cách này hay cách khác, các mối tương quan. Đây là những gì chúng tôi làm, ví dụ, bằng phương pháp PCA hoặc phân tích nhân tố (FA) trong đó chúng tôi đặc biệt tính toán điểm thành phần / yếu tố. Nếu các biến của bạn đã là điểm số thành phần hoặc yếu tố (như câu hỏi OP ở đây nói) và chúng có tương quan (vì xoay xiên), bạn có thể đưa chúng (hoặc trực tiếp ma trận tải) vào PCA / FA thứ hai để tìm các trọng số và có được PC / hệ số bậc hai sẽ phục vụ "chỉ số tổng hợp" cho bạn.

Nhưng nếu điểm thành phần / yếu tố của bạn không tương quan hoặc tương quan yếu, không có lý do thống kê nào để không tính tổng chúng một cách thẳng thắn cũng như thông qua các trọng số suy luận. Sử dụng một số khoảng cách thay thế. Vấn đề với khoảng cách là nó luôn luôn tích cực: bạn có thể nói người trả lời không điển hình đến mức nào nhưng không thể nói nếu anh ta "ở trên" hay "bên dưới". Nhưng đây là cái giá bạn phải trả cho việc yêu cầu một chỉ số duy nhất từ ​​không gian đa tính cách. Nếu bạn muốn cả độ lệch và đăng nhập trong không gian như vậy tôi sẽ nói bạn quá cấp thiết.

Trong điểm cuối cùng, OP hỏi liệu có đúng không khi chỉ lấy điểm của một, biến mạnh nhất đối với phương sai của nó - thành phần chính thứ nhất trong trường hợp này - là proxy duy nhất, cho "chỉ mục". Nó có ý nghĩa nếu PC có nghĩa là nhiều mạnh hơn so với các máy tính còn lại. Mặc dù người ta có thể hỏi "nếu nó mạnh hơn nhiều, tại sao bạn không giải nén / giữ lại nó?".


0

Tạo chỉ mục tổng hợp bằng PCA từ các chuỗi thời gian liên kết đến http://www.cup.ualberta.ca/wp-content/uploads/2013/04/SEICUPWebsite_10April13.pdf .

Trong bài viết trên trang 19, các tác giả đã đề cập đến cách tạo ra Chỉ số không chuẩn hóa (NSI) bằng cách sử dụng tỷ lệ biến thể được giải thích bởi từng yếu tố cho tổng biến thể được giải thích bởi các yếu tố được chọn. NSI này sau đó đã được chuẩn hóa.


6
Phần đó ở trang 19 thực hiện chính xác câu hỏi đó, có vấn đề khi thêm táo và cam những gì đã được cảnh báo bởi amip và tôi trong các bình luận ở trên. Tổng các biến không tương quan trong một chỉ số hầu như không có ý nghĩa thống kê .
ttnphns

1
Đôi khi chúng tôi thêm các cấu trúc / thang đo / kiểm tra không tương quan và đo lường những thứ khác nhau. Đó sẽ là chỉ số pin (các thử nghiệm được coi là khá khác nhau / không tương thích được gọi là "pin"). Một chỉ số pin có thể có một số ý nghĩa thực dụng địa phương mặc dù nó gần như không có ý nghĩa thống kê , như đã nói trong nhận xét trước.
ttnphns

xem thêm số liệu thống kê câu hỏi.stackexchange.com / q / 28686/3277 .
ttnphns

-1 do những gì được viết ở trên.
amip nói rằng Phục hồi lại
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.