Tôi đang xem xét sử dụng các thư viện Python để thực hiện các thí nghiệm Machine Learning của mình. Cho đến nay, tôi đã dựa vào WEKA, nhưng đã không hài lòng về tổng thể. Điều này chủ yếu là vì tôi thấy WEKA không được hỗ trợ tốt (rất ít ví dụ, tài liệu còn thưa thớt và hỗ trợ cộng đồng ít hơn mong muốn trong kinh nghiệm của tôi), và đã thấy mình trong tình huống khó khăn không có sự giúp đỡ sắp tới. Một lý do khác khiến tôi suy ngẫm về động thái này là vì tôi thực sự thích Python (tôi mới biết về Python) và không muốn quay lại mã hóa trong Java.
Vì vậy, câu hỏi của tôi là, những gì nhiều hơn
- toàn diện
- có thể mở rộng (tính năng 100k, ví dụ 10k) và
- thư viện được hỗ trợ tốt để làm ML trong Python ngoài kia?
Tôi đặc biệt quan tâm đến việc thực hiện phân loại văn bản và vì vậy tôi muốn sử dụng một thư viện có bộ sưu tập tốt các phân loại, phương pháp chọn tính năng (Information Gain, Chi-Sqaured, v.v.) và khả năng xử lý trước văn bản (xuất phát, xóa từ khóa , tf-idf, v.v.).
Dựa trên các chủ đề e-mail trước đây ở đây và các nơi khác, tôi đã xem xét PyML, scikits-learn và Orange cho đến nay. Làm thế nào có kinh nghiệm của mọi người đối với 3 số liệu trên mà tôi đề cập?
Bất cứ một đề nghị nào khác?