Toán học đằng sau cây phân loại và hồi quy


13

Bất cứ ai có thể giúp giải thích một số toán học đằng sau phân loại trong GIỎI? Tôi đang tìm hiểu làm thế nào hai giai đoạn chính xảy ra. Chẳng hạn, tôi đã đào tạo một trình phân loại GIỎI trên một tập dữ liệu và sử dụng một tập dữ liệu thử nghiệm để đánh dấu hiệu suất dự đoán của nó nhưng:

  1. Làm thế nào là gốc ban đầu của cây được chọn?

  2. Tại sao và mỗi nhánh được hình thành như thế nào?

Tập dữ liệu của tôi là 400 nghìn bản ghi với 15 cột và 23 lớp đạt được độ chính xác 100% từ ma trận nhầm lẫn, tôi sử dụng phép xác định chéo 10 lần trên tập dữ liệu. Tôi sẽ thực sự tuyệt vời nếu có ai có thể giúp giải thích các giai đoạn phân loại GIỎI?

Câu trả lời:


23

GIỎI và các cây quyết định như các thuật toán hoạt động thông qua phân vùng đệ quy của tập huấn luyện để có được các tập hợp con thuần nhất có thể cho một lớp mục tiêu nhất định. Mỗi nút của cây được liên kết với một tập hợp các bản ghi cụ thể được phân tách bằng một thử nghiệm cụ thể trên một tính năng. Ví dụ, một phân chia trên thuộc tính A liên tục có thể được tạo ra bằng phép thử A x . Tập hợp các bản ghi T sau đó được phân vùng thành hai tập con dẫn đến nhánh bên trái của cây và bên phải.TAAxT

Tl={tT:t(A)x}

Tr={tT:t(A)>x}

Tương tự, một tính năng phân loại có thể được sử dụng để tạo ra các phân chia theo các giá trị của nó. Ví dụ: nếu B = { b 1 , Trực , b k } mỗi nhánh i có thể được cảm ứng bằng phép thử B = b i .BB={b1,,bk}iB=bi

Bước phân chia của thuật toán đệ quy để tạo ra cây quyết định có tính đến tất cả các phân chia có thể có cho mỗi tính năng và cố gắng tìm ra tính năng tốt nhất theo thước đo chất lượng đã chọn: tiêu chí chia tách. Nếu tập dữ liệu của bạn được cảm ứng theo sơ đồ sau

A1,,Am,C

Trong đó là các thuộc tính và C là lớp đích, tất cả các phân chia ứng viên được tạo và đánh giá theo tiêu chí chia tách. Chia tách trên các thuộc tính liên tục và các thuộc tính phân loại được tạo ra như mô tả ở trên. Việc lựa chọn sự phân chia tốt nhất thường được thực hiện bằng các biện pháp tạp chất. Tạp chất của nút cha phải được giảm bằng cách chia . Cho ( E 1 , E 2 , Nhìn , E k )AjC(E1,E2,,Ek) được phân chia theo gây ra trên bộ hồ sơ , một tiêu chuẩn tách mà làm cho sử dụng của biện pháp tạp chất I ( ) là:EI()

Δ=I(E)i=1k|Ei||E|I(Ei)

Các biện pháp tạp chất tiêu chuẩn là entropy Shannon hoặc chỉ số Gini. Cụ thể hơn, GIỎI sử dụng chỉ số Gini được xác định cho tập như sau. Đặt p j là phân số của các bản ghi trong E của lớp c j p j = | { t E : t [ C ] = c j } |EpjEcj sau đó Gini(E)=1- Q Σ j=1p

pj=|{tE:t[C]=cj}||E|
nơiQlà số lượng các lớp học.
Gini(E)=1j=1Qpj2
Q

Nó dẫn đến một tạp chất 0 khi tất cả các hồ sơ thuộc về cùng một lớp.

Như một ví dụ, giả sử rằng chúng ta có một tập hợp lớp nhị phân của hồ sơ nơi phân phối của lớp là ( 1 / 2 , 1 / 2 ) - sau đây là một sự chia rẽ tốt cho TT(1/2,1/2)T

Chia tốt

Tl(1,0)Tr(0,1)TlTr|Ttôi|/|T|= =|Tr|/|T|= =1/2Δ

Δ= =1-1/22-1/22-0-0= =1/2

ΔTách xấu

Δ=11/221/221/2(1(3/4)2(1/4)2)1/2(1(1/4)2(3/4)2)=1/21/2(3/8)1/2(3/8)=1/8

Phân chia đầu tiên sẽ được chọn là phân chia tốt nhất và sau đó thuật toán tiến hành theo cách đệ quy.

Thật dễ dàng để phân loại một thể hiện mới với một cây quyết định, trên thực tế, nó là đủ để theo đường dẫn từ nút gốc đến một chiếc lá. Một bản ghi được phân loại với lớp đa số của lá mà nó đạt được.

Nói rằng chúng tôi muốn phân loại hình vuông trên hình này

Hai bộ dữ liệu tính năng

A,B,CCAB

Cây quyết định có thể gây ra có thể là như sau: nhập mô tả hình ảnh ở đây

Rõ ràng là hình vuông bản ghi sẽ được phân loại theo cây quyết định dưới dạng hình tròn cho rằng bản ghi rơi trên một chiếc lá có dán hình tròn.

Trong ví dụ đồ chơi này, độ chính xác trên tập huấn luyện là 100% vì không có bản ghi nào được phân loại sai bởi cây. Trên biểu diễn đồ họa của tập huấn luyện ở trên, chúng ta có thể thấy các ranh giới (đường đứt nét màu xám) mà cây sử dụng để phân loại các thể hiện mới.

Có rất nhiều tài liệu về cây quyết định, tôi chỉ muốn viết ra một lời giới thiệu sơ sài. Một triển khai nổi tiếng khác là C4.5.


1
sơ đồ tuyệt vời!
Cam.Davidson.Pilon

Rất tiếc, có vẻ như trình soạn thảo không hỗ trợ tải lên ở định dạng PDF. Họ là véc tơ.
Simone

2

Tôi không phải là chuyên gia về GIỎ HÀNG nhưng bạn có thể dùng thử cuốn sách "Các yếu tố của học thống kê" được cung cấp miễn phí trực tuyến (xem chương 9 về GIỎ HÀNG). Tôi tin rằng cuốn sách được viết bởi một trong những người tạo ra thuật toán GIỎI (Friedman).


Điều đó đã giúp rất nhiều! Tìm kiếm rực rỡ +1!
G Gr

@GarrithGraham không có vấn đề gì, tôi nghĩ cuốn sách miễn phí này là một "bí mật nổi tiếng".
Bitwise
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.