kỹ thuật máy học cho dữ liệu theo chiều dọc


11

Tôi đã tự hỏi nếu có bất kỳ kỹ thuật máy học (không giám sát) để mô hình hóa dữ liệu theo chiều dọc? Tôi đã luôn sử dụng các mô hình hiệu ứng hỗn hợp (chủ yếu là phi tuyến tính) nhưng tôi tự hỏi liệu có cách nào khác để làm điều này không (sử dụng máy học).

Theo học máy, ý tôi là rừng ngẫu nhiên, phân loại / phân cụm, cây quyết định và thậm chí học sâu, v.v.


Bạn có thể vui lòng xác định những gì bạn có nghĩa là "máy học"? Bạn có thể tăng LME sau khi phân tầng thích hợp. Đó thực sự là một cuốn tiểu thuyết!
usεr11852

@ usεr11852, tôi đã thêm một chút giải thích cho câu hỏi - hy vọng điều này sẽ làm rõ hơn một chút.
John_dydx

À ... vậy thì việc tăng tốc không phải là ML theo định nghĩa của bạn. Cool Cảm ơn đã làm rõ hy vọng nó sẽ sớm được chú ý.
usεr11852

... và cũng đang tăng.
John_dydx

3
Câu hỏi này xuất hiện khá mơ hồ. "Học máy" là một thuật ngữ rộng và thậm chí là các loại "rừng ngẫu nhiên, phân loại / phân cụm, cây quyết định và thậm chí học sâu, v.v." khá rộng. Có một ứng dụng rõ ràng mà bạn quan tâm? Ví dụ, nếu bạn cần phân loại đầu ra nhị phân, bạn có thể sử dụng mô hình hiệu ứng hỗn hợp logistic hoặc GEE logistic. Mô hình học máy và thống kê không nhất thiết phải là những thứ khác nhau.
Jon

Câu trả lời:


7

Trong trường hợp có nhiều quan sát từ một đối tượng (ví dụ: nhiều lượt truy cập từ cùng một bệnh nhân), thì 'id bệnh nhân' là biến 'nhóm'. Phải cẩn thận trong quá trình đánh giá mô hình để các lượt truy cập từ cùng một bệnh nhân không xuất hiện trong cả dữ liệu đào tạo và xét nghiệm, bởi vì những điều này có tương quan và sẽ dẫn đến lạm phát độ chính xác của phân loại .

Các tài liệu cross-validation sklearn có lặp cross-validation cho dữ liệu được nhóm. Xem GroupKFold , LeftOnegroupOutLeftPGroupsOut .

Thậm chí tốt hơn, hãy thử Mạng thần kinh tái phát hoặc Mô hình Markov ẩn .


4

Bạn có thể mô hình hóa chiều dọc của mình bằng các phương pháp học máy tiêu chuẩn bằng cách chỉ cần thêm các tính năng, đại diện cho chiều dọc, ví dụ: bằng cách thêm một tính năng thể hiện thời gian. Hoặc một tính năng cho biết tư cách thành viên của một nhóm, người, v.v. (trong trường hợp dữ liệu bảng điều khiển).

Nếu bạn sáng tạo với tính năng tạo / trích xuất, bạn có thể mô hình hóa mọi thứ bằng thuật toán ML.


1
@PhlippePro, tôi hơi bối rối về câu trả lời này. (1) Điều gì sẽ xảy ra nếu bạn muốn dự đoán cho một người không có trong tập huấn luyện của bạn? Bạn chỉ có hệ số cho những người trong tập huấn luyện của bạn, phải không? (2) Thêm một tính năng tương ứng với người có thể dẫn đến thêm tới 100.000 biến giả mới, giả sử bạn có 100.000 người trong tập dữ liệu của mình. Những tính năng mới này sẽ phù hợp với những tính năng ban đầu?
dùng0

(1) Nếu bạn không có những người mà bạn muốn dự đoán trong tập dữ liệu đào tạo của mình, thì bạn không thể sử dụng "tính năng người", điều đó là chính xác. (2) Thay vì tạo các tính năng giả, bạn có thể tạo một tính năng "phân loại" (ví dụ: bạn chỉ định chúng là phân loại với as.factor trong R). Một số thuật toán không thể xử lý nhiều danh mục (ví dụ như RandomForest chỉ có thể xử lý khoảng 50), sau đó bạn thực sự phải chỉ định chúng là các biến giả và bạn có thể nhận được (quá) nhiều tính năng, như bạn đã chỉ ra.
PhilippPro

ML không dịch dễ dàng thành dữ liệu theo chiều dọc
Aksakal
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.