Làm thế nào để giải thích một cây quyết định chính xác?


7

Tôi đang cố gắng giải quyết nếu tôi diễn giải chính xác một cây quyết định được tìm thấy trực tuyến.

  • Biến phụ thuộc của cây quyết định này là Xếp hạng tín dụng có hai lớp là Xấu hoặc Tốt. Rễ của cây này chứa tất cả 2464 quan sát trong bộ dữ liệu này.

  • Thuộc tính có ảnh hưởng nhất để xác định cách phân loại xếp hạng tín dụng tốt hay xấu là thuộc tính Mức thu nhập.

  • Phần lớn những người (454 trên 553) trong mẫu của chúng tôi có thu nhập thấp hơn thu nhập thấp cũng có xếp hạng tín dụng xấu. Nếu tôi ra mắt thẻ tín dụng cao cấp mà không có giới hạn, tôi nên bỏ qua những người này.

  • Nếu tôi sử dụng cây quyết định này để dự đoán để phân loại các quan sát mới, thì số lượng lớn nhất của lớp trong một chiếc lá được sử dụng như dự đoán? Ví dụ: Observation x có thu nhập trung bình, 7 thẻ tín dụng và 34 tuổi. Phân loại dự đoán cho xếp hạng tín dụng = "Tốt"

  • Một quan sát mới khác có thể là Quan sát Y, có thu nhập thấp hơn thu nhập thấp nên xếp hạng tín dụng của họ = "Xấu"

Đây có phải là cách chính xác để diễn giải một cây quyết định hay tôi đã hoàn toàn sai?

nhập mô tả hình ảnh ở đây


1
Chào mừng đến với trang web. Đó là một câu hỏi rất hay (+1) :)
Dawny33

1
@Data_D Bạn có thể chia sẻ cách bạn tạo biểu diễn đồ họa của cây quyết định không?

Câu trả lời:


4

Hãy để tôi đánh giá từng quan sát của bạn từng cái một, để nó rõ ràng hơn:

Biến phụ thuộc của cây quyết định này là Xếp hạng tín dụng có hai lớp là Xấu hoặc Tốt. Rễ của cây này chứa tất cả 2464 quan sát trong bộ dữ liệu này.

Nếu đó Good, Badlà những gì bạn có nghĩa là xếp hạng tín dụng, thì . Và bạn đã đúng với kết luận rằng tất cả 2464 quan sát được chứa trong gốc của cây.

Thuộc tính có ảnh hưởng nhất để xác định cách phân loại xếp hạng tín dụng tốt hay xấu là thuộc tính Mức thu nhập.

Tranh cãi Phụ thuộc vào cách bạn coi một cái gì đó có ảnh hưởng . Một số người có thể lập luận rằng số lượng thẻ có thể có ảnh hưởng nhất và một số có thể đồng ý với quan điểm của bạn. Vì vậy, bạn là cả đúng và sai ở đây.

Phần lớn những người (454 trên 553) trong mẫu của chúng tôi có thu nhập thấp hơn cũng có xếp hạng tín dụng xấu. Nếu tôi ra mắt thẻ tín dụng cao cấp mà không có giới hạn, tôi nên bỏ qua những người này.

, nhưng cũng sẽ tốt hơn nếu bạn xem xét khả năng nhận được tín dụng xấu từ những người này. Nhưng, thậm chí điều đó sẽ trở thành KHÔNG đối với lớp học này, điều này khiến cho sự quan sát của bạn trở lại chính xác.

Nếu tôi sử dụng cây quyết định này để dự đoán để phân loại các quan sát mới, thì số lượng lớn nhất của lớp trong một chiếc lá được sử dụng như dự đoán? Ví dụ: Observation x có thu nhập trung bình, 7 thẻ tín dụng và 34 tuổi. Phân loại dự đoán cho xếp hạng tín dụng = "Tốt"

Phụ thuộc vào xác suất . Vì vậy, tính toán xác suất từ lá và sau đó đưa ra quyết định tùy thuộc vào đó. Hoặc đơn giản hơn nhiều, hãy sử dụng một thư viện như trình phân loại cây quyết định của Sklearn để làm điều đó cho bạn.

Một quan sát mới khác có thể là Quan sát Y, có thu nhập thấp hơn thu nhập thấp nên xếp hạng tín dụng của họ = "Xấu"

Một lần nữa, giống như lời giải thích ở trên.

Đây có phải là cách chính xác để diễn giải một cây quyết định hay tôi đã hoàn toàn sai?

Vâng , đây là một cách chính xác để giải thích cây quyết định. Bạn có thể bị cám dỗ lắc lư khi lựa chọn các biến có ảnh hưởng , nhưng điều đó phụ thuộc vào rất nhiều yếu tố, bao gồm tuyên bố vấn đề, xây dựng cây, phán đoán của nhà phân tích, v.v.


1
Để tính xác suất xếp hạng tín dụng của X và Y bằng cách sử dụng công thức tìm thấy trên liên kết bạn đã đưa ra: # (NodeCondition & Attr = Value) / # (NodeCondition) Quan sát X P (Tốt) = 272/483 = 0.56 P (Xấu) = 211/483 = 0,44 Quan sát Y P (Tốt) = 99/553 = 0,18 P (Xấu) = 454/553 = 0,82 Tôi đã làm điều này đúng chưa?
DataD

Xin lỗi, tôi dường như không thể sử dụng ngắt dòng :(
DataD

@DataNewb Vâng, bạn đang đi đúng hướng :)
Dawny33

2

Vâng, giải thích của bạn là chính xác. Mỗi cấp độ trong cây của bạn có liên quan đến một trong các biến (điều này không phải lúc nào cũng đúng với các cây quyết định, bạn có thể tưởng tượng chúng chung chung hơn).

  • X có thu nhập trung bình, vì vậy bạn chuyển đến Nút 2 và hơn 7 thẻ, vì vậy bạn chuyển đến Nút 5. Bây giờ, bạn đã đạt đến một nút lá. bạn thấy rằng trong tập dữ liệu của mình, bạn có 54 người như X, người mà bạn xác định có xếp hạng Xấu (một người có lẽ đã đánh giá này dựa trên các yếu tố khác. Và bạn có 336 người như X có xếp hạng Tốt. Vì vậy, dựa trên Chỉ thông tin này, bạn có thể nói X có thể có xếp hạng Tốt. Vì vậy, cây quyết định đã cho bạn câu trả lời nhanh, mặc dù gần đúng.

    • Điểm phụ: 54 so với 336 ở đây cung cấp cho bạn một thước đo về sự tự tin. Ví dụ, bạn có thể coi nó như một xác suất. Bạn có thể nóiP(Good)= =336/(54+336)0,86và cũng tính toán khoảng tin cậy theo nhiều cách khác nhau.
  • Y có thu nhập thấp, vì vậy bạn có thể ngay lập tức nhìn vào cây và đi đến Nút 1, và nói rằng anh ta có thể có xếp hạng Xấu, với P(Bmộtd)= =454/(454+99)0,82.

Về nhận xét về thuộc tính "có ảnh hưởng nhất", điều này thực sự phụ thuộc vào cách cây được xây dựng và định nghĩa về "ảnh hưởng" mà bạn sử dụng. Vì vậy, bạn sẽ phải hỏi người / phần mềm / thuật toán tạo ra cây. Nó chắc chắn là một thuộc tính quan trọng, như bạn có thể thấy từ chính bảng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.