Khi bạn có tập dữ liệu lớn như vậy, bạn có thể chơi với bất kỳ kỹ thuật mô hình học thống kê và máy học nào và điều đó rất được khuyến khích. Như những người khác đã đề xuất, tôi cũng khuyên bạn nên lấy một vài triệu mẫu ngẫu nhiên từ dữ liệu và chơi với nó. Vì đây là một vấn đề phân loại, tôi sẽ làm theo các kỹ thuật phân loại đơn giản trước và sau đó tiếp tục với các vấn đề phức tạp hơn sau đó. Hồi quy logistic là tuyệt vời để bắt đầu với.
Tôi muốn thêm rằng các mô hình thế hệ cũng phải được thử. Trình phân loại Naive Bayes là một trong những trình phân loại xác suất đơn giản nhất và nó vượt trội hơn nhiều phương pháp phức tạp như máy vectơ hỗ trợ trong nhiều tác vụ. Bạn có thể xem triển khai đơn giản này của NB và cái này liên kết để so sánh NB với hồi quy logistic.
Người ta có thể xây dựng một trình phân loại Naive bayes (NB) làm mô hình cơ sở và sau đó sử dụng bất kỳ kỹ thuật học máy nào như máy vectơ hỗ trợ (SVM) hoặc tri giác đa lớp (MLP). Một sự đánh đổi ở đây là NB có giá tính toán thấp hơn MLP nên mong muốn có hiệu suất tốt hơn từ MLP.
Đến với truy vấn chính xác của bạn: Học sâu và tăng cường độ dốc cây là những kỹ thuật rất mạnh có thể mô hình hóa bất kỳ loại mối quan hệ nào trong dữ liệu. Nhưng nếu trong trường hợp của bạn, một hồi quy logistic đơn giản hoặc NB sẽ cho độ chính xác mong muốn. Vì vậy, nó luôn luôn tốt hơn để thử các kỹ thuật đơn giản đầu tiên và có một hiệu suất cơ bản. Sau đó, người ta có thể đi cho các mô hình phức tạp và so sánh với đường cơ sở.