Là một phần của bài tập Đại học, tôi phải tiến hành xử lý trước dữ liệu trên một tập dữ liệu thô khá lớn, đa biến (> 10). Tôi không phải là một nhà thống kê theo bất kỳ ý nghĩa nào của từ này, vì vậy tôi hơi bối rối về những gì đang diễn ra. Xin lỗi trước những gì có lẽ là một câu hỏi đơn giản đến buồn cười - đầu tôi quay cuồng sau khi xem các câu trả lời khác nhau và cố gắng lội qua các chỉ số nói.
Tôi đã đọc rằng:
- PCA cho phép tôi giảm tính chiều của dữ liệu của mình
- Nó làm như vậy bằng cách hợp nhất / loại bỏ các thuộc tính / kích thước tương quan với nhau (và do đó không cần thiết một chút)
- Nó làm như vậy bằng cách tìm các hàm riêng trên dữ liệu hiệp phương sai (nhờ một hướng dẫn tốt đẹp mà tôi đã làm theo để tìm hiểu điều này)
Đó là tuyệt vời.
Tuy nhiên, tôi thực sự loay hoay xem làm thế nào tôi có thể áp dụng điều này thực tế vào dữ liệu của mình. Chẳng hạn (đây không phải là tập dữ liệu tôi sẽ sử dụng, nhưng cố gắng làm một ví dụ điển hình mà mọi người có thể làm việc với), nếu tôi có một tập dữ liệu có nội dung như ...
PersonID Sex Age Range Hours Studied Hours Spent on TV Test Score Coursework Score
1 1 2 5 7 60 75
2 1 3 8 2 70 85
3 2 2 6 6 50 77
... ... ... ... ... ... ...
Tôi không chắc chắn làm thế nào tôi sẽ giải thích bất kỳ kết quả.
Hầu hết các hướng dẫn tôi đã xem trực tuyến dường như cho tôi một cái nhìn rất toán học về PCA. Tôi đã thực hiện một số nghiên cứu về nó và theo dõi họ thông qua - nhưng tôi vẫn không hoàn toàn chắc chắn điều này có ý nghĩa gì với tôi, người chỉ cố gắng rút ra một số ý nghĩa từ đống dữ liệu tôi có trước mặt tôi.
Đơn giản chỉ cần thực hiện PCA trên dữ liệu của tôi (sử dụng gói số liệu thống kê) tạo ra ma trận số NxN (trong đó N là số kích thước gốc), hoàn toàn là Hy Lạp đối với tôi.
Làm thế nào tôi có thể làm PCA và lấy những gì tôi có được theo cách mà sau đó tôi có thể đưa vào tiếng Anh đơn giản về kích thước ban đầu?