Tôi đang cố gắng tăng tốc với R. Cuối cùng tôi muốn sử dụng các thư viện R để thực hiện phân loại văn bản. Tôi chỉ tự hỏi những kinh nghiệm của mọi người liên quan đến khả năng mở rộng của R khi thực hiện phân loại văn bản.
Tôi có khả năng chạy vào dữ liệu chiều cao (~ 300k kích thước). Tôi đang xem xét sử dụng SVM và Random Forest nói riêng như các thuật toán phân loại.
Thư viện R sẽ mở rộng quy mô vấn đề của tôi?
Cảm ơn.
EDIT 1: Chỉ cần làm rõ, tập dữ liệu của tôi có thể có 1000-3000 hàng (có thể hơn một chút) và 10 lớp.
EDIT 2: Vì tôi rất mới với R, tôi sẽ yêu cầu người đăng phải cụ thể hơn nếu có thể. Ví dụ: nếu bạn đang đề xuất một quy trình / đường ống công việc, vui lòng đảm bảo đề cập đến các thư viện R liên quan đến từng bước nếu có thể. Một số con trỏ bổ sung (ví dụ, mã mẫu, v.v.) sẽ đóng băng trên bánh.
EDIT 3: Trước hết, cảm ơn mọi người vì ý kiến của bạn. Và thứ hai, tôi xin lỗi, có lẽ tôi nên đưa ra nhiều bối cảnh hơn cho vấn đề. Tôi mới sử dụng R nhưng không quá nhiều để phân loại văn bản. Tôi đã thực hiện quá trình xử lý trước (xuất phát, loại bỏ từ khóa, chuyển đổi tf-idf, v.v.) trên một phần dữ liệu của mình bằng gói tm , chỉ để cảm nhận mọi thứ. tm rất chậm thậm chí trên khoảng 200docs mà tôi lo ngại về khả năng mở rộng. Sau đó, tôi bắt đầu chơi với FSelector và thậm chí điều đó rất chậm. Và đó là điểm mà tôi đã tạo ra OP của mình.
EDIT 4: Tôi nhận thấy rằng tôi có 10 lớp và khoảng ~ 300 tài liệu đào tạo mỗi lớp và trên thực tế tôi đang xây dựng ma trận termXdoc trong toàn bộ tập huấn dẫn đến tính chiều hướng rất cao. Nhưng làm thế nào về việc giảm mọi vấn đề phân loại 1 trong số các vấn đề phân loại nhị phân? Điều đó sẽ làm giảm đáng kể số lượng tài liệu đào tạo (và do đó là chiều) ở mỗi bước k-1 đáng kể, phải không? Vì vậy, cách tiếp cận này là một cách tốt? Làm thế nào để nó so sánh về độ chính xác với việc thực hiện nhiều lớp thông thường?