Tôi đang tìm cách đào tạo một bộ phân loại sẽ phân biệt giữa Type A
và Type B
các đối tượng với một tập huấn hợp lý lớn với khoảng 10.000 đối tượng, khoảng một nửa trong số đó Type A
và một nửa trong số đó là Type B
. Bộ dữ liệu bao gồm 100 tính năng liên tục chi tiết các thuộc tính vật lý của các ô (kích thước, bán kính trung bình, v.v.). Hình dung dữ liệu trong các biểu đồ phân tán theo cặp và mật độ cho chúng ta biết rằng có sự chồng chéo đáng kể trong sự phân bố của các tế bào ung thư và bình thường trong nhiều tính năng.
Tôi hiện đang khám phá các khu rừng ngẫu nhiên như một phương pháp phân loại cho bộ dữ liệu này và tôi đã thấy một số kết quả tốt. Sử dụng R, các khu rừng ngẫu nhiên có thể phân loại chính xác khoảng 90% các đối tượng.
Một trong những điều chúng tôi muốn thử và làm là tạo ra một loại "điểm chắc chắn" sẽ định lượng mức độ tin cậy của chúng tôi đối với việc phân loại các đối tượng. Chúng tôi biết rằng trình phân loại của chúng tôi sẽ không bao giờ chính xác 100% và ngay cả khi đạt được độ chính xác cao trong dự đoán, chúng tôi sẽ muốn các kỹ thuật viên được đào tạo xác định đối tượng nào thực sự Type A
và Type B
. Vì vậy, thay vì cung cấp các dự đoán không thỏa hiệp về Type A
hoặc Type B
, chúng tôi muốn trình bày một số điểm cho từng đối tượng sẽ mô tả cách thức A
hoặc B
một đối tượng. Ví dụ: nếu chúng tôi nghĩ ra một điểm nằm trong khoảng từ 0 đến 10, thì điểm 0 có thể cho thấy một đối tượng rất giống với Type A
các đối tượng, trong khi điểm 10 sẽ cho thấy một đối tượng rất giống Type B
.
Tôi đã nghĩ rằng tôi có thể sử dụng phiếu bầu trong các khu rừng ngẫu nhiên để đưa ra số điểm như vậy. Do việc phân loại trong các khu rừng ngẫu nhiên được thực hiện bằng cách bỏ phiếu đa số trong rừng cây được tạo ra, tôi cho rằng các đối tượng được bầu chọn bởi 100% số cây Type A
sẽ khác với các đối tượng được bầu chọn bởi, ví dụ, 51% số cây được Type A
.
Hiện tại, tôi đã thử đặt ngưỡng tùy ý cho tỷ lệ phiếu bầu mà một đối tượng phải nhận được để được phân loại là Type A
hoặc Type B
, và nếu ngưỡng đó không được thông qua, nó sẽ được phân loại là Uncertain
. Ví dụ, nếu tôi buộc điều kiện là 80% số cây trở lên phải đồng ý với quyết định phân loại, tôi thấy rằng 99% dự đoán của lớp là đúng, nhưng khoảng 40% các đối tượng được đánh dấu là Uncertain
.
Sau đó, nó sẽ có ý nghĩa để tận dụng thông tin bỏ phiếu để ghi điểm chắc chắn của các dự đoán? Hay tôi đang đi sai hướng với suy nghĩ của mình?