Giấy tờ cần thiết về phân rã ma trận


18

Gần đây tôi đã đọc cuốn sách của Skillicorn về phân rã ma trận, và hơi thất vọng, vì nó được nhắm đến đối tượng đại học. Tôi muốn biên soạn (cho bản thân tôi và những người khác) một thư mục ngắn về các bài viết thiết yếu (khảo sát, nhưng cũng là bài báo đột phá) về phân rã ma trận. Những gì tôi có trong tâm trí chủ yếu là một cái gì đó trên SVD / PCA (và các biến thể mạnh mẽ / thưa thớt) và NNMF, vì những thứ này được sử dụng nhiều nhất. Bạn có bất kỳ đề nghị / đề nghị? Tôi đang giữ tôi không thiên vị các câu trả lời. Tôi sẽ yêu cầu giới hạn mỗi câu trả lời trong 2-3 bài.

PS: Tôi đề cập đến hai phân tách này được sử dụng nhiều nhất trong phân tích dữ liệu . Tất nhiên QR, Cholesky, LU và cực rất quan trọng trong phân tích số. Đó không phải là trọng tâm của câu hỏi của tôi mặc dù.

Câu trả lời:


16

Làm thế nào để bạn biết rằng SVD và NMF là các phân tách ma trận được sử dụng nhiều nhất thay vì LU, Cholesky và QR? 'Đột phá' yêu thích cá nhân của tôi sẽ phải là thuật toán QR tiết lộ thứ hạng được đảm bảo,

  • Chan, Tony F. "Xếp hạng tiết lộ các yếu tố QR". Đại số tuyến tính và các ứng dụng của nó Tập 88-89, tháng 4 năm 1987, Trang 67-82. DOI: 10.1016 / 0024-3795 (87) 90103-0

... một sự phát triển của ý tưởng trước đây về QR với tính năng xoay vòng cột:

  • Businger, Peter; Golub, Gene H. (1965). Giải pháp bình phương tuyến tính nhỏ nhất bằng cách biến đổi Householder. Numerische Mathematik Tập 7, Số 3, 269-276, DOI: 10.1007 / BF01436084

A ( các ?) Sách giáo khoa kinh điển là:

  • Golub, Gene H.; Văn Loan, Charles F. (1996). Tính toán ma trận (tái bản lần thứ 3), Johns Hopkins, ISBN 976-8-8018-5414-9 .

(tôi biết bạn đã không yêu cầu sách giáo khoa nhưng tôi không thể cưỡng lại)

Chỉnh sửa: Thêm một chút googling tìm thấy một bài báo mà trừu tượng cho thấy chúng ta có thể hơi ở các mặt phẳng chéo. Văn bản trên của tôi xuất phát từ quan điểm 'đại số tuyến tính' (NLA); có thể bạn quan tâm nhiều hơn với quan điểm 'thống kê / tâm lý học ứng dụng' (AS / P)? Có lẽ bạn có thể làm rõ?


2
Tôi sẽ tự mình nói "cuốn sách giáo khoa", với Thuật toán Ma trận của Stewart ( cả hai phần ). Tôi sẽ tự đưa ra một danh sách các bài báo tiên phong, nhưng OP thực sự nên giải thích nếu anh ta muốn quan điểm số hoặc quan điểm thống kê (tôi có thể giúp với cái trước, nhưng không nhiều về cái sau).
JM không phải là một nhà thống kê

1
+1 cho Golub và Vân Loan. Và, vâng, bài viết dứt khoát là phù hợp.
shabbychef

2
Tôi đã chỉnh sửa câu hỏi của mình để làm rõ rằng tôi đang tập trung vào phần thống kê. Tôi đồng ý với mọi người rằng Golub và Van Loan là tài liệu tham khảo tiêu chuẩn cho phân rã ma trận. Nhưng nó bỏ qua chủ đề phân rã quy mô rất lớn thông qua các phép chiếu ngẫu nhiên. Một bài khảo sát tôi sẽ đưa vào danh sách của mình là "Tìm cấu trúc một cách ngẫu nhiên: Các thuật toán ngẫu nhiên để xây dựng các phân tách ma trận gần đúng" của Halko et al.
vui vẻ

4

Đối với NNMF, Lee và Seung mô tả một thuật toán lặp rất đơn giản để thực hiện. Trên thực tế, họ đưa ra hai thuật toán tương tự nhau, một thuật toán để giảm thiểu định mức dư Frobenius, còn lại để giảm thiểu phân kỳ Kullback-Leibler của ma trận gần đúng và ma trận gốc.


3

Có lẽ, bạn có thể tìm thấy thú vị

  1. [Học với các yếu tố ma trận] Luận án tiến sĩ của Nathan Srebro,
  2. [Điều tra các phương pháp nhân tố ma trận khác nhau cho các hệ thống đề xuất lớn] , Gábor Takács et.al. và gần như cùng một kỹ thuật được mô tả ở đây

Hai liên kết cuối cùng cho thấy các yếu tố ma trận thưa thớt được sử dụng trong Lọc cộng tác. Tuy nhiên, tôi tin rằng các thuật toán nhân tố giống như SGD có thể hữu ích ở một nơi khác (ít nhất là chúng cực kỳ dễ viết mã)


2

5
Cảm ơn. Tôi biết cả hai giấy tờ. Tôi không phải là một fan hâm mộ lớn của Witten [không phải Whitten] và cộng sự, vì tôi nghĩ có nhiều giấy tờ quan trọng hơn về sự phân hủy thưa thớt. Trên SVD ngẫu nhiên, tôi đặc biệt thích bài viết đánh giá "Tìm cấu trúc với tính ngẫu nhiên: Các thuật toán ngẫu nhiên để xây dựng các phân tách ma trận gần đúng" ( arxiv.org/abs/0909.4061 ) cũng được đồng tác giả bởi Martinsson.
vui vẻ

tôi đồng ý. tôi vừa mới đưa ra có 2 bài báo không ai nhắc đến.
pslice

2

Tại NIPS năm nay, có một bài viết ngắn về SVD phân tán, quy mô rất lớn, hoạt động trong một lần truyền qua ma trận đầu vào truyền phát .

Bài viết có định hướng triển khai hơn nhưng đặt mọi thứ vào viễn cảnh với thời gian đồng hồ treo tường thực sự và tất cả. Bảng gần đầu là một khảo sát tốt quá.


NIPS có nghĩa là gì?
vào

@onestop liên kết thêm. NIPS = Hệ thống xử lý thông tin thần kinh. Đó là một cộng đồng (không phải là một hệ thống :)). Nhưng pisk đang nói về hội nghị NIPS 2010
robin girard
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.