Tôi đang lên kế hoạch sử dụng trình phân loại máy vectơ hỗ trợ tuyến tính scikit (SVM) để phân loại văn bản trên kho văn bản bao gồm 1 triệu tài liệu được dán nhãn. Những gì tôi dự định làm là, khi người dùng nhập một số từ khóa, trước tiên, bộ phân loại sẽ phân loại nó trong một danh mục và sau đó một truy vấn truy xuất thông tin tiếp theo sẽ xảy ra trong các tài liệu của danh mục đó. Tôi có một vài câu hỏi:
- Làm thế nào để tôi xác nhận rằng phân loại sẽ không mất nhiều thời gian? Tôi không muốn người dùng phải dành thời gian chờ đợi phân loại kết thúc để có kết quả tốt hơn.
- Việc sử dụng thư viện scikit của Python cho các trang web / ứng dụng web có phù hợp với điều này không?
- Có ai biết làm thế nào amazon hoặc flipkart thực hiện phân loại trên các truy vấn của người dùng, hoặc họ sử dụng một logic hoàn toàn khác nhau?