GIỎI và các cây quyết định như các thuật toán hoạt động thông qua phân vùng đệ quy của tập huấn luyện để có được các tập hợp con thuần nhất có thể cho một lớp mục tiêu nhất định. Mỗi nút của cây được liên kết với một tập hợp các bản ghi cụ thể được phân tách bằng một thử nghiệm cụ thể trên một tính năng. Ví dụ, một phân chia trên thuộc tính A liên tục có thể được tạo ra bằng phép thử A ≤ x . Tập hợp các bản ghi T sau đó được phân vùng thành hai tập con dẫn đến nhánh bên trái của cây và bên phải.TAA≤xT
Tl={t∈T:t(A)≤x}
và
Tr={t∈T:t(A)>x}
Tương tự, một tính năng phân loại có thể được sử dụng để tạo ra các phân chia theo các giá trị của nó. Ví dụ: nếu B = { b 1 , Trực , b k } mỗi nhánh i có thể được cảm ứng bằng phép thử B = b i .BB={b1,…,bk}iB=bi
Bước phân chia của thuật toán đệ quy để tạo ra cây quyết định có tính đến tất cả các phân chia có thể có cho mỗi tính năng và cố gắng tìm ra tính năng tốt nhất theo thước đo chất lượng đã chọn: tiêu chí chia tách. Nếu tập dữ liệu của bạn được cảm ứng theo sơ đồ sau
A1,…,Am,C
Trong đó là các thuộc tính và C là lớp đích, tất cả các phân chia ứng viên được tạo và đánh giá theo tiêu chí chia tách. Chia tách trên các thuộc tính liên tục và các thuộc tính phân loại được tạo ra như mô tả ở trên. Việc lựa chọn sự phân chia tốt nhất thường được thực hiện bằng các biện pháp tạp chất. Tạp chất của nút cha phải được giảm bằng cách chia . Cho ( E 1 , E 2 , Nhìn , E k )AjC(E1,E2,…,Ek) được phân chia theo gây ra trên bộ hồ sơ , một tiêu chuẩn tách mà làm cho sử dụng của biện pháp tạp chất I ( ⋅ ) là:EI(⋅)
Δ=I(E)−∑i=1k|Ei||E|I(Ei)
Các biện pháp tạp chất tiêu chuẩn là entropy Shannon hoặc chỉ số Gini. Cụ thể hơn, GIỎI sử dụng chỉ số Gini được xác định cho tập như sau. Đặt p j là phân số của các bản ghi trong E của lớp c j p j = | { t ∈ E : t [ C ] = c j } |EpjEcj
sau đó
Gini(E)=1- Q Σ j=1p
pj=|{t∈E:t[C]=cj}||E|
nơi
Qlà số lượng các lớp học.
Gini(E)=1−∑j=1Qp2j
Q
Nó dẫn đến một tạp chất 0 khi tất cả các hồ sơ thuộc về cùng một lớp.
Như một ví dụ, giả sử rằng chúng ta có một tập hợp lớp nhị phân của hồ sơ nơi phân phối của lớp là ( 1 / 2 , 1 / 2 ) - sau đây là một sự chia rẽ tốt cho TT(1/2,1/2)T
Tl(1,0)Tr(0,1)TlTr| Ttôi| / | T| = | Tr| / | T| =1 / 2Δ
Δ = 1 - 1 / 22- 1 / 22- 0 - 0 = 1 / 2
Δ
Δ = 1 - 1 / 22- 1 / 22- 1 / 2 ( 1 - ( 3 / 4 )2- ( 1 / 4 )2) -1/2 ( 1-(1/4)2−(3/4)2)=1/2−1/2(3/8)−1/2(3/8)=1/8
Phân chia đầu tiên sẽ được chọn là phân chia tốt nhất và sau đó thuật toán tiến hành theo cách đệ quy.
Thật dễ dàng để phân loại một thể hiện mới với một cây quyết định, trên thực tế, nó là đủ để theo đường dẫn từ nút gốc đến một chiếc lá. Một bản ghi được phân loại với lớp đa số của lá mà nó đạt được.
Nói rằng chúng tôi muốn phân loại hình vuông trên hình này
A,B,CCAB
Cây quyết định có thể gây ra có thể là như sau:
Rõ ràng là hình vuông bản ghi sẽ được phân loại theo cây quyết định dưới dạng hình tròn cho rằng bản ghi rơi trên một chiếc lá có dán hình tròn.
Trong ví dụ đồ chơi này, độ chính xác trên tập huấn luyện là 100% vì không có bản ghi nào được phân loại sai bởi cây. Trên biểu diễn đồ họa của tập huấn luyện ở trên, chúng ta có thể thấy các ranh giới (đường đứt nét màu xám) mà cây sử dụng để phân loại các thể hiện mới.
Có rất nhiều tài liệu về cây quyết định, tôi chỉ muốn viết ra một lời giới thiệu sơ sài. Một triển khai nổi tiếng khác là C4.5.