Đầu tiên, một số hãy cẩn thận
Tôi không chắc tại sao bạn không thể sử dụng mô hình lập trình (phụ) ưa thích *, Lập trình logic quy nạp (ILP) hoặc những gì bạn đang cố gắng phân loại. Cung cấp thêm chi tiết có thể sẽ dẫn đến một câu trả lời tốt hơn nhiều; đặc biệt là hơi bất thường khi tiếp cận lựa chọn các thuật toán phân loại trên cơ sở mô hình lập trình mà chúng liên quan. Nếu ví dụ trong thế giới thực của bạn là bí mật, thì chỉ cần tạo một ví dụ hư cấu nhưng tương tự.
Phân loại dữ liệu lớn mà không có ILP
Phải nói rằng, sau khi loại trừ ILP, chúng ta có 4 mô hình lập trình logic khác trong bộ cân nhắc của chúng ta:
- Bắt cóc
- Bộ trả lời
- Hạn chế
- Chức năng
ngoài hàng tá mô hình và mô hình phụ bên ngoài lập trình logic.
Trong Lập trình logic chức năng ví dụ, có tồn tại phần mở rộng của ILP gọi Inductive lập trình chức năng logic , mà là dựa trên đảo hẹp (tức là đảo ngược của cơ chế thu hẹp). Cách tiếp cận này khắc phục một số hạn chế của ILP và ( theo một số học giả, ít nhất ) là phù hợp để áp dụng về mặt đại diện và có lợi ích cho phép các vấn đề được thể hiện theo cách tự nhiên hơn.
Không biết thêm về các chi tiết cụ thể của cơ sở dữ liệu của bạn và các rào cản bạn gặp phải khi sử dụng ILP, tôi không thể biết liệu điều này có giải quyết được vấn đề của bạn hay bị các vấn đề tương tự. Như vậy, tôi cũng sẽ đưa ra một cách tiếp cận hoàn toàn khác.
ILP tương phản với cách tiếp cận "cổ điển" hoặc "đề xuất" trong khai thác dữ liệu . Những cách tiếp cận này bao gồm thịt và xương của Machine Learning như cây quyết định, mạng lưới thần kinh, hồi quy, đóng bao và các phương pháp thống kê khác. Thay vì từ bỏ các cách tiếp cận này do kích thước dữ liệu của bạn, bạn có thể tham gia hàng ngũ nhiều Nhà khoa học dữ liệu, kỹ sư dữ liệu lớn và nhà thống kê sử dụng Máy tính hiệu suất cao (HPC) để sử dụng các phương pháp này với các bộ dữ liệu lớn (có cũng lấy mẫu và các kỹ thuật thống kê khác mà bạn có thể chọn sử dụng để giảm tài nguyên tính toán và thời gian cần thiết để phân tích Dữ liệu lớn trong cơ sở dữ liệu quan hệ của bạn).
HPC bao gồm những thứ như sử dụng nhiều lõi CPU, mở rộng phân tích của bạn với việc sử dụng linh hoạt các máy chủ có bộ nhớ cao và số lượng lớn CPU nhanh, sử dụng các thiết bị kho dữ liệu hiệu suất cao, sử dụng các cụm hoặc các hình thức tính toán song song khác, v.v. Tôi không chắc bộ ngôn ngữ hoặc bộ thống kê nào bạn đang phân tích dữ liệu của mình, nhưng như một ví dụ, Khung nhìn tác vụ CRAN này liệt kê nhiều tài nguyên HPC cho ngôn ngữ R cho phép bạn mở rộng thuật toán đề xuất.