Làm thế nào để mô hình dữ liệu lớn theo chiều dọc?


13

Theo truyền thống, chúng tôi sử dụng mô hình hỗn hợp để mô hình dữ liệu theo chiều dọc, tức là dữ liệu như:

id obs age treatment_lvl yield
1  0   11   M  0.2
1  1   11.5 M  0.5
1  2   12   L  0.6
2  0   17   H  1.2
2  1   18   M  0.9

chúng ta có thể giả định đánh chặn ngẫu nhiên hoặc độ dốc cho những người khác nhau. Tuy nhiên, câu hỏi tôi đang cố gắng giải quyết sẽ liên quan đến các bộ dữ liệu khổng lồ (hàng triệu người, 1 tháng quan sát hàng ngày, tức là mỗi người sẽ có 30 quan sát), hiện tại tôi không biết liệu có các gói có thể thực hiện mức dữ liệu này hay không.

Tôi có quyền truy cập spark / mahout, nhưng họ không cung cấp các mô hình hỗn hợp, câu hỏi của tôi là, dù sao tôi cũng có thể sửa đổi dữ liệu của mình để tôi có thể sử dụng RandomForest hoặc SVM để mô hình bộ dữ liệu này?

Bất kỳ kỹ thuật kỹ thuật tính năng nào tôi có thể tận dụng để nó có thể giúp RF / SVM giải thích cho tương quan tự động?

Cảm ơn nhiều!

Một số phương pháp tiềm năng nhưng tôi không thể dành thời gian để viết chúng thành tia lửa

Làm cách nào tôi có thể đưa các hiệu ứng ngẫu nhiên vào một RandomForest

Hồi quy SVM với dữ liệu theo chiều dọc


1
bộ dữ liệu không lớn 1 triệu đối tượng với 30 bản ghi, có thể 20 byte dữ liệu trên mỗi bản ghi sẽ mang lại 600MB. không có gì. mọi gói stat sẽ xử lý việc này
Aksakal

Câu trả lời:


4

Nếu bạn chỉ có một vài biến, như trong ví dụ, thì bạn sẽ không gặp vấn đề gì với một số biến thể của lme4.

Trường hợp các kỹ thuật học máy thực sự tỏa sáng là khi bạn có rất nhiều biến số và bạn muốn mô hình hóa các phi tuyến và tương tác giữa các biến của mình. Vài phương pháp ML đã được phát triển có thể làm điều này với dữ liệu theo chiều dọc. RNN là một tùy chọn, mặc dù chúng thường được tối ưu hóa cho các vấn đề về chuỗi thời gian, thay vì dữ liệu bảng.

Về nguyên tắc, mạng nơ ron chuyển tiếp nguồn cấp dữ liệu là mô hình tuyến tính (tổng quát), với các biến hồi quy là các hàm phi tuyến của dữ liệu đầu vào. Nếu các biến hồi quy dẫn xuất - lớp trên cùng của mô hình trước đầu ra - được coi là phần không theo tỷ lệ, thì không có gì ngăn bạn thêm cấu trúc tham số cùng với nó - có lẽ ở dạng hiệu ứng ngẫu nhiên.

Tuy nhiên, điều này đã không được thực hiện đối với các vấn đề phân loại, mà tôi cho rằng bạn đang làm vì bạn quan tâm đến SVM như một ứng cử viên.



2

Bạn có thực sự cần Rừng ngẫu nhiên, NN, vv cho dữ liệu theo chiều dọc của bạn không? lme4có thể xử lý hàng triệu cá nhân:

https://cran.r-project.org/web/packages/lme4/vignettes/Theory.pdf

Nó có thể dễ dàng xử lý các mô hình hỗn hợp tuyến tính và như bạn có thể thấy từ liên kết, nó cũng hỗ trợ cho các mô hình hỗn hợp phi tuyến (mặc dù tôi không mong đợi nó sẽ nhanh như chớp đối với các mô hình phi tuyến).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.