Tôi không hiểu tại sao việc giảm kích thước lại quan trọng. Lợi ích của việc lấy một số dữ liệu và giảm kích thước của chúng là gì?
Tôi không hiểu tại sao việc giảm kích thước lại quan trọng. Lợi ích của việc lấy một số dữ liệu và giảm kích thước của chúng là gì?
Câu trả lời:
Phân rã giá trị số ít (SVD) không giống như giảm tính chiều của dữ liệu. Đó là một phương pháp phân tách ma trận thành các ma trận khác có nhiều đặc tính tuyệt vời mà tôi sẽ không đi vào đây. Để biết thêm về SVD, xem trang Wikipedia .
Giảm kích thước dữ liệu của bạn đôi khi rất hữu ích. Nó có thể là bạn có nhiều biến hơn so với quan sát; Đây không phải là hiếm trong công việc genomic. Có thể là chúng ta có một số biến có tương quan rất cao, ví dụ: khi chúng bị ảnh hưởng nặng nề bởi một số lượng nhỏ các yếu tố cơ bản và chúng tôi muốn phục hồi một số xấp xỉ cho các yếu tố cơ bản. Các kỹ thuật giảm kích thước như phân tích thành phần chính, chia tỷ lệ đa chiều và phân tích phương sai chính tắc cho chúng ta hiểu biết về mối quan hệ giữa các quan sát và / hoặc các biến mà chúng ta không thể có được bằng bất kỳ cách nào khác.
Một ví dụ cụ thể: vài năm trước tôi đã phân tích một cuộc khảo sát về sự hài lòng của nhân viên với hơn 100 câu hỏi về nó. Chà, không có người quản lý nào có thể nhìn vào hơn 100 câu hỏi có giá trị câu trả lời, thậm chí được tóm tắt và làm nhiều hơn là đoán tất cả những gì nó có nghĩa, bởi vì ai có thể nói câu trả lời có liên quan như thế nào và thực sự điều gì đang thúc đẩy chúng ? Tôi đã thực hiện phân tích nhân tố trên dữ liệu, trong đó tôi có hơn 10.000 quan sát và đưa ra năm yếu tố rất rõ ràng và dễ hiểu có thể được sử dụng để phát triển điểm số cụ thể của người quản lý (mỗi yếu tố) sẽ tóm tắt toàn bộ hơn 100 câu hỏi khảo sát. Một giải pháp tốt hơn nhiều so với kết xuất bảng tính Excel đã từng là phương pháp báo cáo kết quả trước đó!
Về điểm bí mật của bạn về câu hỏi, lợi ích của việc giảm kích thước cho một tập dữ liệu có thể là:
Ngoài ra, ngoài PCA, SVD còn có nhiều ứng dụng trong Xử lý tín hiệu, NLP và nhiều ứng dụng khác
Hãy xem câu trả lời này của tôi. Phân tách giá trị số ít là một thành phần chính của phân tích thành phần chính , đây là một kỹ thuật phân tích dữ liệu rất hữu ích và rất mạnh mẽ.
Nó thường được sử dụng trong các thuật toán nhận dạng khuôn mặt và tôi thường xuyên sử dụng nó trong công việc hàng ngày của mình như là một nhà phân tích quỹ phòng hộ.