Điểm của phân rã giá trị số ít là gì?


9

Tôi không hiểu tại sao việc giảm kích thước lại quan trọng. Lợi ích của việc lấy một số dữ liệu và giảm kích thước của chúng là gì?


3
Giọng điệu của câu hỏi không mời các câu trả lời mang tính xây dựng. Vui lòng xem xét viết lại câu hỏi của bạn.
Sasha

2
Vấn đề có thể là giảm khối lượng dữ liệu cần thiết để lưu trữ một số thông tin nhất định do mất một chút độ chính xác (ví dụ: nén hình ảnh JPEG).
Sasha

2
Cảm ơn bạn đã bình luận của bạn, @Sasha. Đó là một câu hỏi hợp lý, vì vậy tôi đã thực hiện một chỉnh sửa nhỏ để tránh ấn tượng về sự thẳng thừng (chắc chắn ngoài ý muốn) được truyền đạt bởi từ ngữ ban đầu.
whuber


Bạn làm SVD cho mô hình chủ đề KHÔNG có xác suất. Đối với mô hình chủ đề đó là xác suất sử dụng LDA. Nếu bạn KHÔNG làm mô hình chủ đề thì hãy sử dụng PCA.
Brad

Câu trả lời:


18

Phân rã giá trị số ít (SVD) không giống như giảm tính chiều của dữ liệu. Đó là một phương pháp phân tách ma trận thành các ma trận khác có nhiều đặc tính tuyệt vời mà tôi sẽ không đi vào đây. Để biết thêm về SVD, xem trang Wikipedia .

Giảm kích thước dữ liệu của bạn đôi khi rất hữu ích. Nó có thể là bạn có nhiều biến hơn so với quan sát; Đây không phải là hiếm trong công việc genomic. Có thể là chúng ta có một số biến có tương quan rất cao, ví dụ: khi chúng bị ảnh hưởng nặng nề bởi một số lượng nhỏ các yếu tố cơ bản và chúng tôi muốn phục hồi một số xấp xỉ cho các yếu tố cơ bản. Các kỹ thuật giảm kích thước như phân tích thành phần chính, chia tỷ lệ đa chiều và phân tích phương sai chính tắc cho chúng ta hiểu biết về mối quan hệ giữa các quan sát và / hoặc các biến mà chúng ta không thể có được bằng bất kỳ cách nào khác.

Một ví dụ cụ thể: vài năm trước tôi đã phân tích một cuộc khảo sát về sự hài lòng của nhân viên với hơn 100 câu hỏi về nó. Chà, không có người quản lý nào có thể nhìn vào hơn 100 câu hỏi có giá trị câu trả lời, thậm chí được tóm tắt và làm nhiều hơn là đoán tất cả những gì nó có nghĩa, bởi vì ai có thể nói câu trả lời có liên quan như thế nào và thực sự điều gì đang thúc đẩy chúng ? Tôi đã thực hiện phân tích nhân tố trên dữ liệu, trong đó tôi có hơn 10.000 quan sát và đưa ra năm yếu tố rất rõ ràng và dễ hiểu có thể được sử dụng để phát triển điểm số cụ thể của người quản lý (mỗi yếu tố) sẽ tóm tắt toàn bộ hơn 100 câu hỏi khảo sát. Một giải pháp tốt hơn nhiều so với kết xuất bảng tính Excel đã từng là phương pháp báo cáo kết quả trước đó!


Một phương pháp gọi là "SVD mỏng" được sử dụng để giảm kích thước. Xem Wikipedia trên SVD.
cyborg

5

Về điểm bí mật của bạn về câu hỏi, lợi ích của việc giảm kích thước cho một tập dữ liệu có thể là:

  • giảm dung lượng lưu trữ cần thiết
  • tăng tốc tính toán (ví dụ: trong thuật toán học máy), ít kích thước hơn có nghĩa là tính toán les, cũng ít kích thước hơn có thể cho phép sử dụng thuật toán không phù hợp với số lượng lớn kích thước
  • loại bỏ các tính năng không cần thiết, ví dụ như không có điểm trong việc lưu trữ kích thước của một địa hình trong cả mét vuông và dặm vuông (có thể thu thập dữ liệu có sơ hở)
  • giảm kích thước của dữ liệu xuống 2D hoặc 3D có thể cho phép chúng ta vẽ và trực quan hóa nó, có thể quan sát các mẫu, cung cấp cho chúng tôi thông tin chi tiết

Ngoài ra, ngoài PCA, SVD còn có nhiều ứng dụng trong Xử lý tín hiệu, NLP và nhiều ứng dụng khác


2

Hãy xem câu trả lời này của tôi. Phân tách giá trị số ít là một thành phần chính của phân tích thành phần chính , đây là một kỹ thuật phân tích dữ liệu rất hữu ích và rất mạnh mẽ.

Nó thường được sử dụng trong các thuật toán nhận dạng khuôn mặt và tôi thường xuyên sử dụng nó trong công việc hàng ngày của mình như là một nhà phân tích quỹ phòng hộ.


1
Không phải SVD và PCA (trong khi liên quan) các thủ tục khác nhau?
B_Miner

2
Bạn đúng rồi. SVD là một phương pháp để có được một giải pháp cho vấn đề PCA.
bayerj

1
@B_Miner Có - đó là lý do tại sao tôi nói rằng svd là thành phần chính của pca. Tôi tập trung vào pca vì câu hỏi liên quan đến việc giảm kích thước (trong đó pca phù hợp và svd không)
Chris Taylor

Có lẽ sự lựa chọn từ thành phần là thứ đã tạm thời ném @B_Miner. :)
Đức hồng y
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.