Tôi đã đi qua các khoảng cách gần trong rừng ngẫu nhiên. Nhưng tôi không thể hiểu nó làm gì trong những khu rừng ngẫu nhiên. Làm thế nào nó giúp cho mục đích phân loại?
Tôi đã đi qua các khoảng cách gần trong rừng ngẫu nhiên. Nhưng tôi không thể hiểu nó làm gì trong những khu rừng ngẫu nhiên. Làm thế nào nó giúp cho mục đích phân loại?
Câu trả lời:
Thuật ngữ "sự gần gũi" có nghĩa là "sự gần gũi" hoặc "sự gần gũi" giữa các cặp trường hợp.
Các giá trị gần đúng được tính cho từng cặp trường hợp / quan sát / điểm mẫu. Nếu hai trường hợp chiếm cùng một nút thiết bị đầu cuối thông qua một cây, khoảng cách của chúng được tăng thêm một. Vào cuối quá trình chạy của tất cả các cây, các giá trị gần đúng được chuẩn hóa bằng cách chia cho số lượng cây. Tính gần đúng được sử dụng trong việc thay thế dữ liệu bị thiếu, định vị các ngoại lệ và tạo ra các chế độ xem dữ liệu theo chiều thấp của dữ liệu.
Tính gần đúng
Các gần đúng ban đầu hình thành một ma trận NxN. Sau khi một cây được trồng, đặt tất cả dữ liệu, cả đào tạo và oob, xuống cây. Nếu trường hợp k và n ở cùng một nút thiết bị đầu cuối, hãy tăng khoảng cách của chúng thêm một. Cuối cùng, bình thường hóa các giá trị gần bằng cách chia cho số lượng cây.
Người dùng lưu ý rằng với các tập dữ liệu lớn, chúng không thể điều chỉnh ma trận NxN vào bộ nhớ nhanh. Một sửa đổi đã giảm kích thước bộ nhớ cần thiết xuống NxT trong đó T là số lượng cây trong rừng. Để tăng tốc độ thay đổi giá trị chuyên sâu tính toán và thay thế giá trị lặp lặp, người dùng được cung cấp tùy chọn chỉ giữ lại các giá trị gần đúng lớn nhất của từng trường hợp.
Khi có một bộ kiểm tra, tính gần đúng của từng trường hợp trong bộ kiểm tra với từng trường hợp trong tập huấn luyện cũng có thể được tính toán. Số lượng tính toán bổ sung là vừa phải.
trích dẫn: https : //www.stat.ber siêu.edu / ~breiman/RandomForests/cc_home.htmlm
Lưu ý rằng các tác giả của Yếu tố học tập thống kê nói rằng "Các ô gần nhau cho các khu rừng ngẫu nhiên thường trông rất giống nhau, không phân biệt dữ liệu, khiến chúng nghi ngờ về tiện ích của chúng. Chúng có xu hướng hình ngôi sao, một cánh tay trên mỗi lớp, nhiều hơn phát âm càng tốt hiệu suất phân loại. " (tr 595)
Tuy nhiên, tôi nghĩ các tác giả này không đề cập đến những cách mà các khu rừng ngẫu nhiên xử lý dữ liệu bị thiếu rất nhiều (mặc dù họ đề cập đến dữ liệu bị thiếu với các cây trước đó trong cuốn sách); có lẽ các tác giả đã không làm nổi bật khía cạnh này của RF, điều này hợp lý khi xem cuốn sách là rất lớn và có nhiều thông tin về rất nhiều chủ đề / kỹ thuật học máy. Tuy nhiên, tôi không nghĩ rằng việc các ô có hình dạng tương tự cho bất kỳ RF và tập dữ liệu nào có nghĩa là bất kỳ điều gì tiêu cực về RF nói chung. Ví dụ, hồi quy tuyến tính về cơ bản luôn trông giống nhau, nhưng thật đáng để biết những điểm nào nằm sát đường thẳng và dường như là ngoại lệ từ quan điểm của hồi quy tuyến tính. Vì vậy, ... nhận xét của họ về tiện ích của các lô gần không có ý nghĩa với tôi.