Tranh chấp với rừng ngẫu nhiên


8

Tôi có hai câu hỏi về việc sử dụng rừng ngẫu nhiên (cụ thể là RandomForest trong R) để bỏ qua giá trị bị thiếu (trong không gian dự đoán).

1) Thuật toán cắt bỏ hoạt động như thế nào - cụ thể như thế nào và tại sao nhãn lớp cần thiết cho việc cắt bỏ? là ma trận lân cận phục vụ trọng số giá trị trung bình để tính một giá trị còn thiếu được xác định riêng biệt theo lớp?

2) Nếu nhãn lớp là cần thiết để áp đặt các giá trị bị thiếu - làm thế nào điều này có thể được sử dụng để áp đặt các giá trị bị thiếu cho dữ liệu mới mà bạn đang cố gắng dự đoán?

Câu trả lời:


8

Ý tưởng cơ bản là thực hiện thay thế nhanh chóng dữ liệu bị thiếu và sau đó lặp đi lặp lại cải thiện việc cắt bỏ thiếu bằng cách sử dụng khoảng cách. Để làm việc với dữ liệu chưa được gắn nhãn, chỉ cần sao chép dữ liệu với tất cả các nhãn và sau đó coi nó là dữ liệu được gắn nhãn.

Phân số cây mà một cặp quan sát chia sẻ một nút đầu cuối đưa ra ma trận lân cận và do đó sử dụng rõ ràng nhãn lớp.

Tập huấn luyện:

  1. Thay thế các giá trị bị thiếu bằng giá trị trung bình.
  2. Lặp lại cho đến khi hài lòng:

    a. Sử dụng các giá trị được tính toán cho đến nay, đào tạo một khu rừng ngẫu nhiên.

    b. Tính toán ma trận lân cận.

    c. Sử dụng khoảng cách làm trọng số, coi các giá trị thiếu là trung bình trọng số của các giá trị không thiếu.

Tập kiểm tra:

  1. Nếu nhãn tồn tại, sử dụng thuật ngữ bắt nguồn từ dữ liệu thử nghiệm.
  2. Nếu dữ liệu không được gắn nhãn, sao chép bộ kiểm tra với một bản sao cho mỗi nhãn lớp và tiến hành như với dữ liệu được dán nhãn.

Ở đây, trung bình (có trọng số) đề cập đến trung bình (có trọng số) cho các biến số và chế độ (có trọng số) cho các biến phân loại. 4 - 6 lần lặp được khuyến nghị trong tài liệu tham khảo.

Tài liệu R (pdf) , hướng dẫn sử dụng của Breiman v4.0 (pdf) , trang RF của Breiman


2
Tôi muốn biết thêm về việc liệu thuật toán này có thể được điều chỉnh cho nhiều lần cắt hay không và liệu nó có đủ độ biến thiên và tính toán cho độ không đảm bảo của mô hình cắt ngang.
Frank Harrell

1
Frank, từ mô tả về nó, tôi nghi ngờ nó sẽ có đủ độ biến thiên. Vẽ sàn nóng từ một lớp thiết bị đầu cuối có thể thực hiện các mẹo. Nếu thuật toán trồng cây có xu hướng quá phù hợp, độ biến thiên vẫn sẽ bị triệt tiêu, nhưng không nhiều như khi bạn sử dụng một giá trị trung bình có điều kiện hoặc một lượng tử có điều kiện. Một lần nữa, đó là cảm giác ruột của tôi liên quan đến cách các phương pháp cắt cụt hoạt động, nói chung.
StasK

1
Cohoz, cảm ơn bạn điều này xác nhận những gì tôi đã học được. Vấn đề là rừng ngẫu nhiên được xây dựng bằng biến mục tiêu. Có một gói missForest trong R với giấy có thể được sử dụng cho việc cắt giảm không giám sát: ncbi.nlm.nih.gov/pubmed/22039212
B_Miner

Nếu tôi hỏi, liệu sklearn.ensemble.RandomForestClassifierquá trình này trên dữ liệu đào tạo hay nó sẽ bỏ qua nó và tôi phải tự làm điều đó?
Abhishta Gatya

3

Tôi đã thử sử dụng Random Forest cho nhiều lần cắt bỏ trong MICE để xử lý dữ liệu bị thiếu trong phân tích sinh tồn. Tôi đã sử dụng bootstrapping để tính toán sự thay đổi lấy mẫu trong các mô hình cắt cụt. Tôi thấy rằng MICE rừng ngẫu nhiên hoạt động tốt hơn MICE tham số khi có sự tương tác giữa các biến dự đoán không được bao gồm trong mô hình cắt cụt.

Gói CALIBERrfimpute cung cấp chức năng cho việc cắt rừng ngẫu nhiên trong MICE:
http://cran.r-project.org/web/packages/CALIBERrfimpute/index.html

Đây là một bài viết mô tả các thử nghiệm của phương pháp trên dữ liệu mô phỏng và một bộ dữ liệu dịch tễ học thực sự:
http://dx.doi.org/10.1093/aje/kwt312


3
Chào mừng đến với trang web, @ user37364. Cảm ơn các liên kết này. Bạn có phiền khi xây dựng chúng một chút, trong trường hợp linkrot & vì vậy độc giả tương lai có thể phán đoán trước khi nhấp vào nếu họ muốn theo đuổi chúng?
gung - Phục hồi Monica

Xin chào @ user37364! Tôi đã thấy bài báo mà bạn trình bày, tuy nhiên, tôi không thể áp dụng rừng ngẫu nhiên với chuột trong tập dữ liệu của mình. Tôi đã đăng một câu hỏi ở đây: stackoverflow.com/questions/24239595/ . Nếu bạn có kinh nghiệm với MICE, bạn có ý tưởng nào để giải quyết những lỗi này không? Cảm ơn
psoares

Xin chào, tôi vừa xem qua bài viết của bạn, và sau đó là chủ đề này. Làm thế nào có phương pháp được tổ chức trong một năm rưỡi qua? Bất kỳ nếp nhăn được phát hiện?
generic_user
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.