Tôi đang làm việc với một số tập dữ liệu lớn bằng gói gbm trong R. Cả ma trận dự đoán và vectơ phản hồi của tôi đều khá thưa thớt (tức là hầu hết các mục đều bằng 0). Tôi đã hy vọng xây dựng cây quyết định bằng thuật toán tận dụng sự thưa thớt này, như đã được thực hiện ở đây ). Trong bài báo đó, như trong tình huống của tôi, hầu hết các mục chỉ có một vài trong số nhiều tính năng có thể, vì vậy chúng có thể tránh được nhiều tính toán lãng phí bằng cách giả sử rằng các mục của chúng thiếu một tính năng nhất định trừ khi dữ liệu nói khác đi. Hy vọng của tôi là tôi có thể có được một sự tăng tốc tương tự bằng cách sử dụng loại thuật toán này (và sau đó gói một thuật toán tăng cường xung quanh nó để cải thiện độ chính xác dự đoán của tôi).
Vì dường như họ không xuất bản mã của họ, tôi đã tự hỏi liệu có bất kỳ gói hoặc thư viện nguồn mở nào (bằng bất kỳ ngôn ngữ nào) được tối ưu hóa cho trường hợp này không. Lý tưởng nhất, tôi muốn thứ gì đó có thể lấy một ma trận thưa thớt trực tiếp từ Matrix
gói của R , nhưng tôi sẽ lấy những gì tôi có thể nhận được.
Tôi đã nhìn xung quanh và có vẻ như những thứ này nên ở ngoài đó:
Các nhà hóa học dường như gặp phải vấn đề này rất nhiều (bài báo tôi liên kết ở trên là về việc tìm kiếm các hợp chất thuốc mới), nhưng các triển khai tôi có thể tìm thấy là độc quyền hoặc chuyên môn cao để phân tích hóa học. Tuy nhiên, một trong số chúng có thể được tái mục đích.
Phân loại tài liệu dường như cũng là một lĩnh vực mà việc học từ các không gian đặc trưng thưa thớt là hữu ích (hầu hết các tài liệu không chứa hầu hết các từ). Ví dụ, có một tài liệu tham khảo xiên cho việc triển khai thưa thớt C4.5 (thuật toán giống GIỎI) trong bài viết này , nhưng không có mã.
Theo danh sách gửi thư , WEKA có thể chấp nhận dữ liệu thưa thớt, nhưng không giống như phương pháp trong bài báo tôi đã liên kết ở trên, WEKA không được tối ưu hóa để thực sự tận dụng lợi thế của nó để tránh lãng phí chu kỳ CPU.
Cảm ơn trước!
glmnet
và e1071::svm
cả hai đều hỗ trợ Matrix
các đối tượng thưa thớt . GAMboost
và GLMboost
(từ gói GAMboost
) cũng có thể.