Việc Mỹ bắt giữ dữ liệu đi kèm với R chỉ là một ví dụ ở đây, nhưng tôi lưu ý rằng các tính toán tải trong câu hỏi đến từ PCA của ma trận hiệp phương sai . Đó là một nơi nào đó giữa tùy ý và vô nghĩa, vì các biến được đo trên các thang đo khác nhau.
Dân số thành thị trông giống như một phần trăm. California là 91% và cao nhất.
Ba biến số tội phạm dường như là số vụ bắt giữ đối với các tội phạm được biểu thị liên quan đến quy mô dân số (có lẽ trong một khoảng thời gian). Có lẽ nó được ghi lại ở đâu đó cho dù nó bị bắt trên 1000 hay 10000 hay bất cứ điều gì.
Giá trị trung bình của biến tấn công trong các đơn vị đã cho là khoảng 171 và giết người trung bình là khoảng 8. Vì vậy, lời giải thích về tải trọng của bạn là phần lớn mô hình là một vật phẩm: nó phụ thuộc vào độ biến thiên rất khác nhau của các biến.
Vì vậy, mặc dù có ý nghĩa trong dữ liệu ở chỗ có nhiều vụ bắt giữ đối với các vụ tấn công hơn là các vụ giết người, v.v., thực tế đã biết (hoặc không có gì đáng ngạc nhiên) chi phối phân tích.
Điều này cho thấy rằng, như bất kỳ nơi nào khác trong thống kê, bạn phải suy nghĩ về những gì bạn đang làm trong PCA.
Nếu bạn thực hiện điều này hơn nữa:
Tôi cho rằng phần trăm đô thị tốt hơn nên rời khỏi phân tích. Đó không phải là một tội ác để thành thị; tất nhiên nó có thể phục vụ proxy cho các biến ảnh hưởng đến tội phạm.
Một PCA dựa trên ma trận tương quan sẽ có ý nghĩa hơn trong quan điểm của tôi. Một khả năng khác là làm việc với logarit của tỷ lệ bắt giữ, chứ không phải tỷ lệ bắt giữ (tất cả các giá trị đều dương; xem bên dưới).
Lưu ý: Câu trả lời của @ Random_guy cố tình sử dụng ma trận hiệp phương sai.
Dưới đây là một số thống kê tóm tắt. Tôi đã sử dụng Stata, nhưng điều đó khá phi vật chất.
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
urban_pop | 50 65.54 14.47476 32 91
murder | 50 7.788 4.35551 .8 17.4
rape | 50 21.232 9.366384 7.3 46
assault | 50 170.76 83.33766 45 337