Rừng ngẫu nhiên trên dữ liệu được nhóm


10

Tôi đang sử dụng rừng ngẫu nhiên trên dữ liệu được nhóm theo chiều cao (50 biến đầu vào số) có cấu trúc chữ tượng hình. Dữ liệu được thu thập với 6 lần sao chép tại 30 vị trí của 70 đối tượng khác nhau dẫn đến 12600 điểm dữ liệu, không độc lập.

Dường như rừng ngẫu nhiên quá khớp dữ liệu, vì lỗi oob nhỏ hơn nhiều so với lỗi chúng ta gặp phải khi để dữ liệu từ một đối tượng ra ngoài trong quá trình huấn luyện và sau đó dự đoán kết quả của đối tượng bị bỏ qua với rừng ngẫu nhiên được đào tạo. Hơn nữa tôi có số dư tương quan.

Tôi nghĩ rằng việc quá mức được gây ra do rừng ngẫu nhiên đang mong đợi dữ liệu độc lập. Có thể nói rừng ngẫu nhiên về cấu trúc phân cấp của dữ liệu? Hoặc có một phương pháp tập hợp hoặc co rút mạnh mẽ khác có thể xử lý dữ liệu được nhóm theo chiều cao với cấu trúc tương tác mạnh?

Bất kỳ gợi ý làm thế nào tôi có thể làm tốt hơn?


Bản chất của dữ liệu phân cấp là gì? Nó có cho phép bạn sử dụng các lá của dữ liệu làm điểm dữ liệu của bạn không?
casperOne

1
Bạn đã xem xét bootstrapping mức cao nhất của hệ thống phân cấp, chứ không phải là cá nhân?
generic_user

Câu trả lời:


1

Cũng rất muộn cho bữa tiệc, nhưng tôi nghĩ điều đó có thể liên quan đến điều mà tôi đã làm vài năm trước. Tác phẩm đó đã được xuất bản ở đây:

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0093379

và là về việc xử lý mối tương quan biến đổi thành tập hợp các cây quyết định. Bạn nên xem qua thư mục chỉ ra nhiều đề xuất để giải quyết loại vấn đề này (thường gặp trong khu vực "di truyền").

Mã nguồn có sẵn ở đây (nhưng không thực sự được duy trì nữa).


-1

Sự phù hợp quá mức của Rừng ngẫu nhiên có thể được gây ra bởi các lý do khác nhau và nó phụ thuộc nhiều vào các thông số RF. Không rõ từ bài viết của bạn như thế nào bạn điều chỉnh RF của bạn.

Dưới đây là một số mẹo có thể giúp:

  1. Tăng số lượng cây

  2. Điều chỉnh độ sâu tối đa của cây. Thông số này phụ thuộc nhiều vào vấn đề trong tầm tay. Sử dụng cây nhỏ hơn có thể giúp giải quyết vấn đề quá mức.


2
Rất muộn cho bữa tiệc, nhưng câu trả lời này sẽ không giải quyết bất kỳ vấn đề nào do tính chất phân cấp của tập dữ liệu.
cbeleites không hài lòng với SX
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.