Là một phần của dự án phân tích dữ liệu lớn, tôi đang làm việc,
Tôi cần thực hiện PCA trên một số dữ liệu, sử dụng hệ thống điện toán đám mây.
Trong trường hợp của tôi, tôi đang sử dụng Amazon EMR cho công việc và đặc biệt là Spark.
Bỏ câu hỏi "Làm thế nào để thực hiện PCA trong tia lửa", tôi muốn hiểu về cách mọi thứ hoạt động đằng sau hậu trường khi tính toán PC trên kiến trúc dựa trên đám mây.
Ví dụ: một trong những phương tiện để xác định PC của dữ liệu là tính toán ma trận hiệp phương sai của các tính năng.
Ví dụ, khi sử dụng kiến trúc dựa trên HDFS, dữ liệu gốc được phân phối trên nhiều nút, tôi đoán mỗi nút sẽ nhận các bản ghi X.
Làm thế nào sau đó ma trận hiệp phương sai được tính trong trường hợp như vậy khi mỗi nút chỉ có một phần dữ liệu?
Đây chỉ là một ví dụ. Tôi đang cố gắng tìm một số giấy tờ hoặc tài liệu giải thích tất cả những điều xấu xa này, và không thể tìm thấy bất cứ điều gì đủ tốt cho nhu cầu của tôi (có thể là kỹ năng google kém của tôi).
Vì vậy, về cơ bản tôi có thể tóm tắt (các) câu hỏi của mình \ cần phải như sau:
1. Cách PCA phân phối trên kiến trúc đám mây hoạt động
Tốt nhất là một số bài báo học thuật hoặc các loại giải thích khác cũng chứa một số hình ảnh
2. Spark triển khai D-PCA
Làm thế nào để Spark làm điều đó? Họ có bất kỳ "khuynh hướng" nào trong kiến trúc của mình để thực hiện nó hiệu quả hơn không, hoặc việc sử dụng các đối tượng RDD góp phần cải thiện hiệu quả như thế nào? Vân vân.
Một bài thuyết trình thậm chí là một bài học trực tuyến về nó sẽ là tuyệt vời.
Cảm ơn trước cho bất cứ ai có thể cung cấp một số tài liệu đọc.
xBar, yBar
chính xác những gì tượng trưng cho? và cũng là công thức bạn đã sử dụng không quen thuộc với tôi (có thể tôi đang đọc sai). Tôi quen thuộc hơn với các tính toán hiệp phương sai như được mô tả ở đây: onlinecifts.science.psu.edu/stat414/node/109