Hãy để tôi đánh giá từng quan sát của bạn từng cái một, để nó rõ ràng hơn:
Biến phụ thuộc của cây quyết định này là Xếp hạng tín dụng có hai lớp là Xấu hoặc Tốt. Rễ của cây này chứa tất cả 2464 quan sát trong bộ dữ liệu này.
Nếu đó Good, Bad
là những gì bạn có nghĩa là xếp hạng tín dụng, thì Có . Và bạn đã đúng với kết luận rằng tất cả 2464 quan sát được chứa trong gốc của cây.
Thuộc tính có ảnh hưởng nhất để xác định cách phân loại xếp hạng tín dụng tốt hay xấu là thuộc tính Mức thu nhập.
Tranh cãi Phụ thuộc vào cách bạn coi một cái gì đó có ảnh hưởng . Một số người có thể lập luận rằng số lượng thẻ có thể có ảnh hưởng nhất và một số có thể đồng ý với quan điểm của bạn. Vì vậy, bạn là cả đúng và sai ở đây.
Phần lớn những người (454 trên 553) trong mẫu của chúng tôi có thu nhập thấp hơn cũng có xếp hạng tín dụng xấu. Nếu tôi ra mắt thẻ tín dụng cao cấp mà không có giới hạn, tôi nên bỏ qua những người này.
Có , nhưng cũng sẽ tốt hơn nếu bạn xem xét khả năng nhận được tín dụng xấu từ những người này. Nhưng, thậm chí điều đó sẽ trở thành KHÔNG đối với lớp học này, điều này khiến cho sự quan sát của bạn trở lại chính xác.
Nếu tôi sử dụng cây quyết định này để dự đoán để phân loại các quan sát mới, thì số lượng lớn nhất của lớp trong một chiếc lá được sử dụng như dự đoán? Ví dụ: Observation x có thu nhập trung bình, 7 thẻ tín dụng và 34 tuổi. Phân loại dự đoán cho xếp hạng tín dụng = "Tốt"
Phụ thuộc vào xác suất . Vì vậy, tính toán xác suất từ lá và sau đó đưa ra quyết định tùy thuộc vào đó. Hoặc đơn giản hơn nhiều, hãy sử dụng một thư viện như trình phân loại cây quyết định của Sklearn để làm điều đó cho bạn.
Một quan sát mới khác có thể là Quan sát Y, có thu nhập thấp hơn thu nhập thấp nên xếp hạng tín dụng của họ = "Xấu"
Một lần nữa, giống như lời giải thích ở trên.
Đây có phải là cách chính xác để diễn giải một cây quyết định hay tôi đã hoàn toàn sai?
Vâng , đây là một cách chính xác để giải thích cây quyết định. Bạn có thể bị cám dỗ lắc lư khi lựa chọn các biến có ảnh hưởng , nhưng điều đó phụ thuộc vào rất nhiều yếu tố, bao gồm tuyên bố vấn đề, xây dựng cây, phán đoán của nhà phân tích, v.v.