Tôi có thể làm PCA về các biện pháp lặp đi lặp lại để giảm dữ liệu không?


13

Tôi có 3 thử nghiệm trên 87 động vật trong mỗi 2 bối cảnh (một số dữ liệu bị thiếu; không có dữ liệu bị thiếu = 64 động vật). Trong một bối cảnh, tôi có nhiều biện pháp cụ thể (thời gian để nhập, số lần trở về nơi trú ẩn, vv), vì vậy tôi muốn phát triển từ 2 đến 3 điểm hành vi hợp mô tả các hành vi trong bối cảnh đó (gọi cho họ C1, C2, C3). Tôi muốn một C1điều có nghĩa là điều tương tự trên cả 3 thử nghiệm và 87 động vật, để tôi có thể thực hiện hồi quy để kiểm tra ảnh hưởng của tuổi tác, giới tính, phả hệ và động vật cá nhân đối với hành vi. Sau đó, tôi muốn kiểm tra mức độ C1liên quan đến điểm số hành vi trong bối cảnh khác, trong độ tuổi cụ thể. (Ở tuổi 1, hoạt động trong bối cảnh 1 có dự đoán mạnh mẽ hoạt động trong bối cảnh 2 không?)

Nếu đây không phải là các biện pháp lặp đi lặp lại, PCA sẽ hoạt động tốt - thực hiện PCA trên nhiều biện pháp của bối cảnh, sau đó sử dụng PC1, PC2, v.v. để kiểm tra mối quan hệ (tương quan Spearman) giữa PC1 trong một bối cảnh và PC1 (hoặc 2 hoặc 3) trong bối cảnh khác. Vấn đề là các biện pháp lặp đi lặp lại, rơi vào giả hành. Tôi đã có một người đánh giá một cách cụ thể nói không đi, nhưng tôi không thể tìm thấy bất kỳ tài liệu tham khảo rõ ràng nào về việc liệu điều này có vấn đề khi thực hiện giảm dữ liệu hay không.

Lý luận của tôi đi như thế này: Các biện pháp lặp đi lặp lại không phải là một vấn đề, bởi vì những gì tôi đang làm trong PCA là hoàn toàn mô tả vis-à-vis các biện pháp ban đầu. Nếu tôi tuyên bố bởi fiat rằng tôi đang sử dụng thời gian để tham gia vào đấu trường như là biện pháp "táo bạo" của tôi trong bối cảnh 1, tôi sẽ có một thước đo độ đậm của bối cảnh 1 có thể so sánh với tất cả các cá nhân ở mọi lứa tuổi và không ai có thể làm gì được. Nếu tôi tuyên bố bởi fiat rằng tôi sẽ sử dụng thời gian để nhập + 0,5 thời gian đến cuối cùng, điều tương tự cũng xảy ra. Vì vậy, nếu tôi đang sử dụng PCA hoàn toàn cho mục đích khử, tại sao nó không thể là PC1 (đó có thể là 0,28 nhập + 0,63 kết thúc + 0.02 0.5+ 0.50.28+ 0.63+ 0.02 tổng thời gian ...), ít nhất được thông báo bằng nhiều biện pháp của tôi thay vì tôi đoán rằng thời gian để vào là một đặc điểm thông tin và đại diện nói chung?

(Lưu ý tôi không quan tâm đến cấu trúc cơ bản của các biện pháp ... câu hỏi của tôi là về những gì chúng ta diễn giải các hành vi cụ thể theo ngữ cảnh. "Nếu tôi sử dụng bối cảnh 1 và kết luận rằng Harry hoạt động so với các động vật khác, tôi có thấy không Harry hoạt động trong bối cảnh 2? Nếu anh ấy thay đổi những gì chúng ta diễn giải thành hoạt động trong bối cảnh 1 khi anh ấy già đi, anh ấy cũng thay đổi hoạt động bối cảnh 2 của mình chứ?)

Tôi đã xem PARAFAC và tôi đã xem SEM và tôi không tin một trong hai cách tiếp cận này là tốt hơn hay phù hợp hơn với cỡ mẫu của tôi. Bất cứ ai có thể cân trong? Cảm ơn.


Tôi có hiểu bạn đúng rằng bạn có 2 yếu tố bên trong chủ đề: 1) bối cảnh, khác với một số điều kiện thử nghiệm (ví dụ: thử nghiệm trong nhà so với thử nghiệm ngoài trời), 2) thử nghiệm, đơn giản chỉ là sự lặp lại, thử nghiệm, thử nghiệm. Và bạn muốn thực hiện PCA trong từng điều kiện, nhưng điều đó ngăn bạn rằng bạn đã thực hiện không chỉ một mà là một vài thử nghiệm của thử nghiệm.
ttnphns

Hai bối cảnh là hai thử nghiệm riêng biệt và các biện pháp được thực hiện trong mỗi bối cảnh là khác nhau. Điều đó nói rằng, vâng, bạn hiểu tình hình của tôi.
Leann

Điều gì về việc vượt qua vấn đề và chạy PCA trên các phương tiện trong cả ba thử nghiệm?
Gala

Câu trả lời:


7

Bạn có thể xem xét Phân tích nhiều yếu tố . Điều này có thể được thực hiện trong R với FactoMineR.

CẬP NHẬT:

Để giải thích, Leann đã đề xuất - tuy nhiên từ lâu - đã tiến hành PCA trên một bộ dữ liệu với các biện pháp lặp đi lặp lại. Nếu tôi hiểu chính xác cấu trúc của tập dữ liệu của cô ấy, trong một 'bối cảnh' nhất định, cô ấy đã có một x'biện pháp cụ thể' của động vật (thời gian để nhập, số lần quay trở lại nơi trú ẩn, v.v.). Mỗi trong số 64 con vật (những con không bị mất tích.) Đã được theo dõi ba lần. Giả sử cô ấy có 10 "biện pháp cụ thể", do đó cô ấy sẽ có ba ma trận 64 × 10 về hành vi của động vật (chúng ta có thể gọi ma trậnX1 , X2, X3). Để chạy PCA trên ba ma trận cùng một lúc, cô sẽ phải 'liên kết hàng' ba ma trận (ví dụ:PCA(rbind(X1,X2,X3))). Nhưng điều này bỏ qua thực tế là quan sát đầu tiên và thứ 64 là trên cùng một con vật. Để khắc phục vấn đề này, cô ấy có thể 'cột liên kết' ba ma trận và chạy chúng thông qua Phân tích nhiều yếu tố. MFA là một cách hữu ích để phân tích nhiều bộ biến được đo trên cùng một cá nhân hoặc đối tượng tại các thời điểm khác nhau. Cô ấy sẽ có thể trích xuất các thành phần chính từ MFA theo cách tương tự như trong PCA nhưng sẽ có một tọa độ duy nhất cho mỗi động vật. Các vật thể động vật giờ đây sẽ được đặt trong một không gian thỏa hiệp đa dạng được phân định bởi ba quan sát của cô.

Cô ấy sẽ có thể thực hiện phân tích bằng cách sử dụng gói FactoMineR trong R. Ví dụ mã sẽ trông giống như:

df=data.frame(X1, X2, X3)
mfa1=MFA(df, group=c(10, 10, 10), type=c("s", "s", "s"), 
 name.group=c("Observation 1", "Observation 2", "Observation 3")) 
 #presuming the data is quantitative and needs to be scaled to unit variance

Ngoài ra, thay vì trích xuất ba thành phần đầu tiên từ MFA và đưa chúng qua hồi quy bội, cô có thể nghĩ về việc chiếu trực tiếp các biến giải thích của mình lên MFA dưới dạng 'bảng bổ sung' (xem ?FactoMineR). Một cách tiếp cận khác là tính toán ma trận khoảng cách Euclide của tọa độ đối tượng từ MFA (ví dụ dist1=vegdist(mfa1$ind$coord, "euc")) và đưa nó qua RDA với dist1chức năng của các biến số cụ thể của động vật (ví dụ: rda(dist1~age+sex+pedigree)sử dụng gói thuần chay).


2
Xin chào Kyle, cảm ơn câu trả lời của bạn. Tuy nhiên, các câu trả lời về cơ bản chỉ bao gồm ít hơn một liên kết hoặc chỉ dài khoảng một câu thường không được coi là câu trả lời mà chỉ là nhận xét. Cụ thể, các câu trả lời chỉ liên kết bị ảnh hưởng bởi liên kết, vì vậy các câu trả lời phải có đủ thông tin hữu ích ngay cả khi liên kết không còn hoạt động. Bạn có thể vui lòng mở rộng câu trả lời của mình hơn một chút không, có lẽ đưa ra một phác thảo rất ngắn gọn về nó là gì / nó liên quan đến phân tích nhân tố nói chung như thế nào?
Glen_b -Reinstate Monica

(+1) Tôi nhận ra đây là một bài viết cũ, nhưng câu trả lời này rất hữu ích! Có lẽ tham chiếu nên được thêm hoàn toàn trong trường hợp liên kết chết: Abdi Hervé, Williams Lynne J., Valentin Domininique. Phân tích nhiều yếu tố: phân tích thành phần chính cho các tập dữ liệu đa biến và đa khóa. Báo cáo tổng hợp năm 2013, 5: 149-179. doi: 10.1002 / wics.1246
Frans Rodenburg

4

Người ta thường sử dụng PCA khi phân tích các biện pháp lặp đi lặp lại (ví dụ: nó được sử dụng để phân tích dữ liệu bán hàng, giá cổ phiếu và tỷ giá hối đoái) Logic như bạn nói rõ (ví dụ, biện minh là PCA là công cụ giảm dữ liệu không phải là công cụ suy luận ).

Một ấn phẩm của một nhà thống kê khá giỏi là: Bradlow, ET (2002). " Khám phá các bộ dữ liệu đo lặp lại cho các tính năng chính bằng cách sử dụng Phân tích thành phần chính. " Tạp chí nghiên cứu tiếp thị 19: 167-179.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.