Theo truyền thống, chúng tôi sử dụng mô hình hỗn hợp để mô hình dữ liệu theo chiều dọc, tức là dữ liệu như:
id obs age treatment_lvl yield
1 0 11 M 0.2
1 1 11.5 M 0.5
1 2 12 L 0.6
2 0 17 H 1.2
2 1 18 M 0.9
chúng ta có thể giả định đánh chặn ngẫu nhiên hoặc độ dốc cho những người khác nhau. Tuy nhiên, câu hỏi tôi đang cố gắng giải quyết sẽ liên quan đến các bộ dữ liệu khổng lồ (hàng triệu người, 1 tháng quan sát hàng ngày, tức là mỗi người sẽ có 30 quan sát), hiện tại tôi không biết liệu có các gói có thể thực hiện mức dữ liệu này hay không.
Tôi có quyền truy cập spark / mahout, nhưng họ không cung cấp các mô hình hỗn hợp, câu hỏi của tôi là, dù sao tôi cũng có thể sửa đổi dữ liệu của mình để tôi có thể sử dụng RandomForest hoặc SVM để mô hình bộ dữ liệu này?
Bất kỳ kỹ thuật kỹ thuật tính năng nào tôi có thể tận dụng để nó có thể giúp RF / SVM giải thích cho tương quan tự động?
Cảm ơn nhiều!
Một số phương pháp tiềm năng nhưng tôi không thể dành thời gian để viết chúng thành tia lửa
Làm cách nào tôi có thể đưa các hiệu ứng ngẫu nhiên vào một RandomForest