Ý tưởng cơ bản là thực hiện thay thế nhanh chóng dữ liệu bị thiếu và sau đó lặp đi lặp lại cải thiện việc cắt bỏ thiếu bằng cách sử dụng khoảng cách. Để làm việc với dữ liệu chưa được gắn nhãn, chỉ cần sao chép dữ liệu với tất cả các nhãn và sau đó coi nó là dữ liệu được gắn nhãn.
Phân số cây mà một cặp quan sát chia sẻ một nút đầu cuối đưa ra ma trận lân cận và do đó sử dụng rõ ràng nhãn lớp.
Tập huấn luyện:
- Thay thế các giá trị bị thiếu bằng giá trị trung bình.
Lặp lại cho đến khi hài lòng:
a. Sử dụng các giá trị được tính toán cho đến nay, đào tạo một khu rừng ngẫu nhiên.
b. Tính toán ma trận lân cận.
c. Sử dụng khoảng cách làm trọng số, coi các giá trị thiếu là trung bình trọng số của các giá trị không thiếu.
Tập kiểm tra:
- Nếu nhãn tồn tại, sử dụng thuật ngữ bắt nguồn từ dữ liệu thử nghiệm.
- Nếu dữ liệu không được gắn nhãn, sao chép bộ kiểm tra với một bản sao cho mỗi nhãn lớp và tiến hành như với dữ liệu được dán nhãn.
Ở đây, trung bình (có trọng số) đề cập đến trung bình (có trọng số) cho các biến số và chế độ (có trọng số) cho các biến phân loại. 4 - 6 lần lặp được khuyến nghị trong tài liệu tham khảo.
Tài liệu R (pdf) , hướng dẫn sử dụng của Breiman v4.0 (pdf) , trang RF của Breiman