Tôi đang tìm cách phân loại dữ liệu văn bản của tôi. Tôi có 300 classes
, 200 tài liệu đào tạo mỗi lớp (vì vậy 60000 documents in total
) và điều này có khả năng dẫn đến dữ liệu rất cao (chúng ta có thể đang tìm kiếm vượt quá 1 triệu kích thước ).
Tôi muốn thực hiện các bước sau trong đường ống dẫn (chỉ để cho bạn biết ý nghĩa của tôi về yêu cầu của tôi):
- Chuyển đổi từng tài liệu thành tính năng vector (
tf-idf
hoặcvector space model
) Feature selection
(Mutual Information
tốt nhất là dựa trên, hoặc bất kỳ tiêu chuẩn nào khác)- Đào tạo phân loại (
SVM
,Naive Bayes
,Logistic Regression
hayRandom Forest
) - Dự đoán dữ liệu chưa thấy dựa trên mô hình phân loại được đào tạo.
Vì vậy, câu hỏi là tôi sử dụng công cụ / khung nào để xử lý dữ liệu chiều cao như vậy? Tôi biết về các nghi phạm thông thường (R, WEKA ...) nhưng theo như kiến thức của tôi (tôi có thể sai) có lẽ không ai trong số họ có thể xử lý dữ liệu lớn như vậy. Có cái nào khác ngoài công cụ kệ mà tôi có thể nhìn vào không?
Nếu tôi phải song song hóa nó, tôi có nên xem Apache Mahout không? Có vẻ như nó có thể chưa hoàn toàn cung cấp các chức năng tôi yêu cầu.
Cảm ơn tất cả trước.
Cập nhật: Tôi đã xem qua trang web này , danh sách gửi thư R và internet nói chung. Tôi nhận thấy rằng những vấn đề sau đây có thể xuất hiện trong tình huống của tôi:
(1) Việc xử lý trước dữ liệu của tôi bằng R ( đặc biệt là gói tm ) có thể không thực tế , vì tm
sẽ rất chậm.
(2) Vì tôi sẽ cần sử dụng một nhóm các gói R (tiền xử lý, ma trận thưa thớt, phân loại, v.v.) khả năng tương tác giữa các gói có thể trở thành một vấn đề và tôi có thể phải chịu thêm chi phí trong việc chuyển đổi dữ liệu từ định dạng này sang định dạng khác . Ví dụ: nếu tôi xử lý trước bằng cách sử dụng tm
(hoặc một công cụ bên ngoài như WEKA), tôi sẽ cần tìm ra cách chuyển đổi dữ liệu này thành một dạng mà các thư viện HPC trong R có thể đọc được. Và một lần nữa tôi không rõ liệu các gói phân loại sẽ trực tiếp lấy dữ liệu như được cung cấp bởi các thư viện HPC.
Có phải tôi đang trên đường ray bên phải không? Và quan trọng hơn, tôi có ý nghĩa?
foreach
thư viện viết mã song song trong R. Điều này đặc biệt hiệu quả khi kết hợp với các khu rừng ngẫu nhiên, vốn dễ dàng song song.