Tôi còn khá mới mẻ với máy học, kỹ thuật GIỎI và những thứ tương tự, và tôi hy vọng sự ngây thơ của tôi không quá rõ ràng.
Random Forest xử lý các cấu trúc dữ liệu đa cấp / phân cấp như thế nào (ví dụ khi tương tác giữa các cấp được quan tâm)?
Đó là, tập dữ liệu với các đơn vị phân tích ở một số cấp bậc ( ví dụ: học sinh được lồng trong các trường học, với dữ liệu về cả học sinh và trường học).
Ví dụ, hãy xem xét một tập hợp dữ liệu đa cấp với các cá nhân ở cấp độ đầu tiên ( ví dụ: với dữ liệu về hành vi bỏ phiếu, nhân khẩu học, v.v.) được lồng trong các quốc gia ở cấp độ thứ hai (với dữ liệu cấp quốc gia; ví dụ: dân số):
ID voted age female country population
1 1 19 1 1 53.01
2 1 23 0 1 53.01
3 0 43 1 1 53.01
4 1 27 1 1 53.01
5 0 67 0 1 53.01
6 1 34 1 2 47.54
7 0 54 1 2 47.54
8 0 22 1 2 47.54
9 0 78 0 2 47.54
10 1 52 0 2 47.54
Hãy nói rằng đó voted
là biến trả lời / biến phụ thuộc và các biến khác là biến dự đoán / biến độc lập. Trong các loại trường hợp, lợi nhuận và các hiệu ứng cận biên của một biến (phụ thuộc một phần) đối với một số biến cấp cao hơn ( ví dụ , population
) cho các biến cấp độ cá nhân khác nhau, vv, có thể là rất thú vị. Trong trường hợp tương tự như vậy, glm
tất nhiên là phù hợp hơn - nhưng khi có nhiều biến, tương tác và / hoặc thiếu giá trị, và / hoặc bộ dữ liệu quy mô rất lớn, v.v., glm
không đáng tin cậy lắm.
Câu hỏi con: Rừng ngẫu nhiên có thể xử lý rõ ràng loại cấu trúc dữ liệu này theo một cách nào đó không? Nếu được sử dụng bất kể, nó giới thiệu loại thiên vị nào? Nếu Rừng ngẫu nhiên không phù hợp, có phương pháp nào khác không?
(Câu hỏi Rừng ngẫu nhiên trên dữ liệu được nhóm có lẽ tương tự nhau, nhưng không thực sự trả lời điều này.)