Ngoại trừ cây quyết định và hồi quy logistic, mô hình phân loại nào khác cung cấp giải thích tốt? Tôi không quan tâm đến độ chính xác hoặc các thông số khác, chỉ có việc giải thích kết quả là quan trọng.
Ngoại trừ cây quyết định và hồi quy logistic, mô hình phân loại nào khác cung cấp giải thích tốt? Tôi không quan tâm đến độ chính xác hoặc các thông số khác, chỉ có việc giải thích kết quả là quan trọng.
Câu trả lời:
1) Tôi sẽ lập luận rằng cây quyết định không thể giải thích được như mọi người đưa ra. Chúng trông có thể hiểu được, vì mỗi nút là một quyết định nhị phân đơn giản. Vấn đề là khi bạn đi xuống cây, mỗi nút có điều kiện trên mỗi nút phía trên nó. Nếu cây của bạn chỉ sâu bốn hoặc năm cấp, thì việc chuyển đổi một đường dẫn của một nút thiết bị đầu cuối (bốn hoặc năm phân tách) thành một thứ gì đó có thể hiểu được (ví dụ: "nút này phản ánh khách hàng dài hạn là nam giới có thu nhập cao với nhiều tài khoản "), Nhưng cố gắng theo dõi nhiều nút thiết bị đầu cuối là khó khăn.
Nếu tất cả những gì bạn phải làm là thuyết phục khách hàng rằng mô hình của bạn có thể hiểu được ("nhìn này, mỗi vòng tròn ở đây có một quyết định có / không đơn giản trong đó, dễ hiểu, không?") Thì tôi sẽ giữ các cây quyết định trong danh sách của bạn . Nếu bạn muốn có thể diễn giải được, tôi đề nghị họ có thể không cắt giảm.
2) Một vấn đề khác là làm rõ ý của bạn bằng "khả năng diễn giải kết quả". Tôi đã chạy vào khả năng diễn giải trong bốn bối cảnh:
Các khách hàng có thể hiểu phương pháp luận. (Không phải những gì bạn đang hỏi về.) Một khu rừng ngẫu nhiên khá dễ giải thích bằng cách tương tự, và hầu hết khách hàng đều cảm thấy thoải mái với nó một khi nó được giải thích đơn giản.
Giải thích làm thế nào phương pháp phù hợp với một mô hình. (Tôi có một khách hàng khăng khăng tôi giải thích cách cây quyết định được trang bị bởi vì họ cảm thấy nó sẽ giúp họ hiểu cách sử dụng kết quả một cách thông minh hơn. Sau khi tôi viết một bài rất hay, với rất nhiều sơ đồ đẹp, họ đã bỏ chủ đề. Nó không hữu ích để diễn giải / hiểu gì cả.) Một lần nữa, tôi tin rằng đây không phải là điều bạn đang hỏi về.
Khi một mô hình được trang bị, diễn giải những gì mô hình "tin" hoặc "nói" về các yếu tố dự đoán. Đây là nơi một cây quyết định có thể hiểu được, nhưng phức tạp hơn nhiều so với lần hiển thị đầu tiên. Hồi quy logistic khá đơn giản ở đây.
Khi một điểm dữ liệu cụ thể được phân loại, giải thích lý do tại sao quyết định đó được đưa ra. Tại sao hồi quy logistic của bạn nói rằng nó có khả năng lừa đảo 80%? Tại sao cây quyết định của bạn nói rằng nó có rủi ro thấp? Nếu khách hàng hài lòng với việc in ra các nút quyết định dẫn đến nút đầu cuối, điều này dễ dàng cho cây quyết định. Nếu "tại sao" cần được tóm tắt thành tiếng nói của con người ("người này được đánh giá rủi ro thấp vì họ là khách hàng nam dài hạn có thu nhập cao và nhiều tài khoản với công ty của chúng tôi"), thì khó hơn rất nhiều.
Vì vậy, ở một mức độ có thể giải thích hoặc giải thích được (số 1 với số 4 nhỏ ở trên), Hàng xóm K-Recent rất dễ: "khách hàng này được đánh giá là có rủi ro cao vì 8 trong số 10 khách hàng đã được đánh giá trước đây và hầu hết tương tự như họ về X, Y và Z, có nguy cơ cao. " Ở cấp độ 4, có thể hành động, nó không quá dễ hiểu. (Tôi đã nghĩ đến việc thực sự giới thiệu 8 khách hàng khác cho họ, nhưng điều đó sẽ yêu cầu họ đi sâu vào những khách hàng đó để tìm ra những điểm chung của những khách hàng đó, và do đó khách hàng được xếp hạng có điểm gì chung với họ.)
Gần đây tôi đã đọc một vài bài báo về việc sử dụng các phương pháp giống như phân tích độ nhạy để cố gắng đưa ra các giải thích tự động loại 4. Tôi không có trong tay, mặc dù. Có lẽ ai đó có thể ném một số liên kết vào ý kiến?
Nó phụ thuộc vào dữ liệu bạn đang sử dụng. Nếu bạn không quan tâm đến độ chính xác, tôi tin rằng trực quan hóa dữ liệu và phân loại là một trong những cách tốt nhất để giải thích dữ liệu và hiệu suất của thuật toán.
Dưới đây là một ví dụ so sánh các phân loại khác nhau. Mỗi hàng là một tập dữ liệu khác nhau với dữ liệu có độ phân tách khác nhau. Mỗi cột là trực quan của từng phân loại.
http://scikit-learn.org/ sóng / auto_examples / classification / plot_ classifier_comparison.html
Phân tích phân biệt đối xử là mô hình phân loại ban đầu, có niên đại hơn một trăm năm với RA Fisher ( https://en.wikipedia.org/wiki/Linear_discriminant_analysis ). Tất cả quá thường bị bỏ qua trong thế giới mô hình học máy và thống kê ngày nay, đã bị áp đảo bởi các phương pháp phù hợp hơn với thuật ngữ gần đây nhất.
Bài viết này đã được đăng trên Tạp chí Học máy và có một danh sách các phương pháp khác, Chúng ta có cần hàng trăm phân loại để giải quyết các vấn đề phân loại thế giới thực không? http://jmlr.org/ con / vololume15 / delgado14a / delgado14a.pdf
Để tìm mối quan hệ giữa các tính năng và các lớp, bạn có thể sử dụng một phương thức mối quan hệ. Bạn cũng có thể sử dụng phương pháp chi bình phương để tìm xem một tính năng có liên quan đến lớp không. Để làm điều này, bạn nên sử dụng đẳng thức nhãn lớp. Chẳng hạn, nếu bạn đang kiểm tra tính năng 1 và lớp 1, bạn nên thực hiện việc tạo thùng cho tính năng 1 và tính chi ^ 2 giữa các xác suất bị đánh cắp và biến thành viên có giá trị 1 khi lớp khác là 1, 0. Theo cách này, nếu là loại 1 phụ thuộc vào tính năng 1, một số thùng sẽ có tỷ lệ là loại 1 cao hơn trong khi một số thùng sẽ có giá thấp hơn.
Một phương pháp bổ sung mà tôi đã thử với thành công vừa phải là điều chỉnh một tính năng của một lớp thành một bản phân phối bình thường. Sau đó, đối với mỗi mẫu trong lớp, cải thiện điểm số của tính năng bằng cách phù hợp với mẫu để phân phối. Đối với mỗi mẫu không có trong lớp, phạt các tính năng cho thể dục. Rõ ràng bạn cần bình thường hóa cho số lượng mẫu trong và không có trong lớp. Điều này chỉ hoạt động trên các tính năng được phân phối gần với phân phối bình thường. Tôi đã sử dụng phương pháp này để gán điểm cho mỗi tính năng cho mỗi lớp.
Không ai đề cập đến phân loại Hàng xóm gần nhất. Điều này rất đơn giản để giải thích; một quan sát được phân loại theo lớp phổ biến nhất trong số các quan sát gần nhất với nó. Chúng tôi thường chọn một số lẻ của hàng xóm gần nhất để xem xét để không có mối quan hệ nào bị phá vỡ.