Một số sử dụng ma trận dày đặc trong thống kê là gì?


8

OK, tôi không phải là một nhà thống kê (Thậm chí không gần gũi). Tôi là một nhà nghiên cứu High Performance Computing và tôi muốn có một vài trường hợp thử nghiệm cho Large (Lớn hơn 5000x5000) Rậm Ma trận. Tôi đã hỏi ở đây và một vài nơi khác nhưng không bao giờ nhận được bất kỳ câu trả lời nào từ một nhà thống kê. Tôi rất quan tâm đến việc thử các mã của tôi về một vấn đề thống kê. Bạn có thể đề xuất một ứng dụng trong thống kê trong đó người ta cần giải cho x trong đó dày đặc và vuông.AAx=bA

Tôi sẽ đánh giá rất cao nếu bạn cũng có thể cung cấp cho tôi các ứng dụng trong đó A không có cấu trúc, tức là Không đối xứng, Không Tích cực-Chắc chắn, v.v. Nhưng điều đó không hoàn toàn cần thiết. Một ma trận dày đặc với một ứng dụng tốt đủ.

Tôi xin lỗi nếu câu hỏi này có vẻ mở hoặc mơ hồ nhưng tôi không thể tưởng tượng nơi nào tốt hơn để hỏi câu hỏi này.


Một ví dụ khá cơ bản xuất hiện trong đầu tôi là gói lme4 của R cho mô hình hiệu ứng hỗn hợp, dựa trên ma trận thiết kế thưa thớt để xử lý nhiều hiệu ứng ngẫu nhiên. Tuy nhiên, tôi cảm thấy như bạn quan tâm nhiều hơn đến đầu vào thưa thớt, phải không?
chl

Không, tôi muốn một ma trận đậm đặc A. Lý tưởng nhất là nó phải dày đặc gần như không có sự đối xứng

Khi bạn nói 'giải cho dày đặc ', bạn có nghĩa là 'giải cho , trong đó dày đặc'? A A x = b x AAx=bAAx=bxA
onestop

Đúng. Xin lỗi vì các phím tắt xấu. Đó là những gì tôi có nghĩa là. Chẳng hạn, A = rand (5000,5000); b = rand (5000,1); giải (A, x, b); Giả sử rand cung cấp phân phối đồng đều giữa 1 và 2

Có các trình tạo các vấn đề hồi quy, ví dụ như trong scikit-learn samples_generator , và chắc chắn có các vấn đề khác. Nhưng, sửa lại cho tôi, đồng bằng khá nhanh với Lapack và tương tự; Có tôi nghĩ nhiều hơn về một thị trường cho các phương pháp mạnh mẽ, các hệ thống lớn / thưa thớt / không xác định rõ ràng, ... Dù sao bạn cũng có thể yêu cầu tối đa hóa . Ax=b
chối

Câu trả lời:



0

Ở đây rộng, mặc dù tôi không chắc nó có đủ dày đặc cho bạn không. Từ http://www.grouplens.org/node/73

  • MovieLens 100k - Bao gồm 100.000 xếp hạng từ 1000 người dùng trên 1700 phim.
  • MovieLens 1M - Bao gồm 1 triệu xếp hạng từ 6000 người dùng trên 4000 phim.
  • MovieLens 10M - Bao gồm 10 triệu xếp hạng và 100.000 ứng dụng thẻ được áp dụng cho 10.000 phim của 72.000 người dùng.

1. Mật độ có tầm quan trọng hàng đầu và tôi nghi ngờ rằng ma trận hình thành sẽ dày đặc. 2. Điều này có liên quan đến Ax = b như thế nào? Tôi cần các ứng dụng thống kê không phải là thống kê lớn ngẫu nhiên.

Ứng dụng thống kê là lọc cộng tác - đưa ra một ma trận người dùng x phim, dự đoán xếp hạng mà người dùng sẽ dành cho phim mà cô ấy chưa xem. Hãy suy nghĩ đề xuất sản phẩm theo phong cách Amazon.com. Ma trận lớn của các tùy chọn mục người dùng như vậy có xu hướng thưa thớt, nhưng bạn có thể bỏ đi những thứ thực sự dài.
Jack Tanner

"Ma trận lớn của các tùy chọn mục người dùng như vậy có xu hướng thưa thớt" Mật độ có tầm quan trọng hàng đầu Tôi không chắc chắn thứ gì là đuôi dài nhưng dù sao, tôi nghi ngờ nó sẽ dẫn đến một ma trận dày đặc không có cấu trúc.

0

Tôi không chắc ứng dụng bạn đang tìm kiếm sẽ có ý nghĩa trong bối cảnh thống kê. Những gì bạn quan tâm là một phân tích hồi quy tuyến tính. là một ma trận gồm các phép đo trong đó mỗi hàng là một phép đo duy nhất của biến. Hai ứng dụng tiềm năng có thể có xuất hiện trong đầu tôi. 1) phân tích microarray DNA và 2) phân tích dữ liệu MRI chức năng. Trong mọi trường hợp, sẽ khó tìm thấy các tập dữ liệu có người (số đo) trong đó. m n n > 5000 m > 5000ARm×nmnn>5000m>5000

Tuy nhiên, yêu cầu của bạn về hạn chế ý nghĩa của phân tích như vậy một cách nguyên tắc. Sau khi tất cả các số liệu thống kê là về việc suy ra một số cơ sở, giả sử, sự thật từ dữ liệu ồn ào , tức là mô hình thống kê ẩn cho câu hỏi của bạn là trong đó là một phép đo duy nhất, là các tham số giả định mà bạn thử để tìm với phân tích của bạn và là một số dạng nhiễu. Bây giờ bạn nói rằng cần phải được khả nghịch, tức là có được thứ hạng đầy đủ, tức là đo phải không lặp lại, tức là, bạn chỉ có một duy nhất, tiếng ồn hỏng quan sát mỗib = a T x + ϵ a x ϵ A a b a xm=n

b=aTx+ϵ
axϵAabavà đó là một tình huống rất xấu khi cố gắng ước tính các tham số , đặc biệt, trong trường hợp số lượng tham số vượt quá (hoặc bằng) số lượng phép đo. Sau đó, mô hình của bạn chỉ đơn giản phù hợp với tiếng ồn trong dữ liệu được gọi là quá mức.x
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.