Làm cách nào để chọn phân chia trong Rừng ngẫu nhiên cho các yếu tố dự đoán phân loại (tính năng)?


8

Tôi hiểu cách phân chia tốt nhất được chọn cho rừng ngẫu nhiên cho các yếu tố dự đoán số (tính năng).

Các dự đoán số được sắp xếp sau đó cho mỗi giá trị tạp chất hoặc entropy Gini được tính toán và ngưỡng được chọn để phân chia tốt nhất. Nhưng làm thế nào phân chia tốt nhất được chọn cho dự đoán phân loại vì không có thứ tự cụ thể?

Câu trả lời:


9

Việc triển khai vanilla thông thường sẽ thử tất cả các kết hợp có thể có của các danh mục của bạn. Nó biểu thị các kết hợp này dưới dạng một số nguyên biểu thị các danh mục được chọn và các mục còn lại ở phần tách. Nó đi từ trái sang phải. Ví dụ: nếu bạn có một biến với các lớp "Cat", "Dog", "Cow", "Rat" thì nó sẽ quét qua các phần tách có thể, có nghĩa là:

Dog vs phần còn lại = 0100 (nhớ, đọc từ trái sang phải)

Cát so với phần còn lại = 1000

Tự mình, mà còn

Chó và mèo vs bò và chuột = 1100

Bò và Mèo vs Chó và Chuột = 1010

Và sau đó, như đã đề cập, nó sử dụng các số nguyên để xử lý việc này, để thể hiện sự phân chia:

library(R.utils)
> intToBin(12)
[1] "1100"

0

Rừng là một phương pháp tập hợp của cây. Vì vậy, tôi nghĩ rằng câu hỏi của bạn dựa nhiều hơn vào thuật toán của cây về việc tách các biến. Có hai loại yếu tố dự đoán phân loại, yếu tố có thứ tự và yếu tố không được sắp xếp.

Yếu tố được sắp xếp tương tự như biến số và rừng ngẫu nhiên sẽ tìm thấy điểm cắt, trong khi yếu tố sau được sử dụng một thuật toán khác như dưới đây.

Nó sẽ cố gắng bắt mức đầu tiên của yếu tố là phân tách và cố gắng phù hợp với mô hình và tìm hiệu suất với chức năng mất. Sau đó cố gắng tìm cấp độ thứ hai và phù hợp với nó một lần nữa và tìm hiệu suất và như vậy. Cuối cùng, nó tìm thấy sự kết hợp mức chia tách tốt nhất theo hiệu suất tốt nhất.

Vì vậy, bạn sẽ thấy rằng phải mất nhiều thời gian hơn và bộ nhớ cho mô hình cây hoặc mô hình rừng ngẫu nhiên để phù hợp với các yếu tố hơn là số.


0

Nếu các tính năng của bạn là phân loại, ý tưởng đầu tiên xuất hiện trong đầu tôi là tạo ra một tính năng nhị phân cho mọi giá trị có thể có trong danh mục.

Do đó, nếu bạn có một tính năng tương ứng với "thương hiệu điện thoại di động" chỉ có thể là "Samsung, Apple, HTC hoặc Nokia", tôi sẽ biểu thị nó thành bốn loại (1, 0, 0, 0), (0, 1, 0, 0), (0, 0, 1, 0) và (0, 0, 0, 1) tương ứng. Bằng cách này, ngưỡng sẽ chọn giữa việc trở thành một thương hiệu hoặc bất kỳ thương hiệu nào khác ở mỗi lần phân chia, mà không có hiệu ứng lạ.

Hi vọng điêu nay co ich!


0

Hoặc chọn một số danh mục ngẫu nhiên và sử dụng danh mục phân chia tốt nhất hoặc chọn một số kết hợp ngẫu nhiên các danh mục và sử dụng kết hợp mang lại sự phân chia tốt nhất.

Tôi nghĩ việc bạn chọn phương thức nào trong hai phương pháp không thực sự quan trọng vì việc chia tách kết hợp các danh mục tại một nút có thể được mô phỏng bằng cách chia trên một danh mục tại nhiều nút.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.