Mà, nếu có, các thuật toán học máy được chấp nhận là một sự đánh đổi tốt giữa khả năng giải thích và dự đoán?

9

Các văn bản học máy mô tả các thuật toán như máy tăng cường độ dốc hoặc mạng lưới thần kinh thường nhận xét rằng các mô hình này có khả năng dự đoán tốt, nhưng điều này dẫn đến việc mất khả năng giải thích hoặc giải thích được. Ngược lại, các cây quyết định đơn và mô hình hồi quy cổ điển được dán nhãn là giải thích tốt, nhưng cho độ chính xác dự đoán kém (tương đối) so với các mô hình phức tạp hơn như rừng ngẫu nhiên hoặc SVM. Có những mô hình học máy thường được chấp nhận là đại diện cho một sự đánh đổi tốt giữa hai người không? Có tài liệu nào liệt kê các đặc điểm của thuật toán cho phép chúng có thể giải thích được không? (Câu hỏi này trước đây đã được hỏi về xác thực chéo)

machine-learning predictive-modeling

— Robert de Graaf
nguồn

3

Có tài liệu nào liệt kê các đặc điểm của thuật toán cho phép chúng có thể giải thích được không?

Tài liệu duy nhất tôi biết là bài báo gần đây của Ribero, Singh và Guestrin. Đầu tiên họ xác định khả năng giải thích của một dự đoán duy nhất:

Bằng cách giải thích một dự đoán, chúng tôi có nghĩa là trình bày các tạo tác văn bản hoặc hình ảnh cung cấp sự hiểu biết định tính về mối quan hệ giữa các thành phần của ví dụ (ví dụ như các từ trong văn bản, các bản vá trong hình ảnh) và dự đoán của mô hình.

Các tác giả giải thích thêm về ý nghĩa của điều này đối với các ví dụ cụ thể hơn, và sau đó sử dụng khái niệm này để xác định khả năng giải thích của một mô hình. Mục tiêu của họ là cố gắng và có thể nói thêm khả năng giải thích một cách nhân tạo cho các mô hình nội bộ khác, thay vì so sánh khả năng giải thích của các phương thức hiện có. Bài báo có thể hữu ích dù sao đi nữa, vì cố gắng đưa ra một thuật ngữ chính xác hơn xung quanh khái niệm "giải thích".

Có những mô hình học máy thường được chấp nhận là đại diện cho một sự đánh đổi tốt giữa hai người không?

Tôi đồng ý với @Winter rằng hồi quy mạng đàn hồi (không chỉ logistic) có thể được xem là một ví dụ cho một sự thỏa hiệp tốt giữa độ chính xác dự đoán và khả năng giải thích.

Đối với một loại miền ứng dụng khác (chuỗi thời gian), một lớp phương thức khác cũng cung cấp một sự thỏa hiệp tốt: Mô hình chuỗi thời gian cấu trúc Bayesian. Nó kế thừa khả năng giải thích từ mô hình chuỗi thời gian cấu trúc cổ điển và một số tính linh hoạt từ phương pháp Bayes. Tương tự như hồi quy logistic, khả năng giải thích được trợ giúp bởi các phương trình hồi quy được sử dụng cho mô hình. Xem bài viết này cho một ứng dụng tốt đẹp trong tiếp thị và tham khảo thêm.

Liên quan đến bối cảnh Bayes vừa được đề cập, bạn cũng có thể muốn xem xét các mô hình đồ họa xác suất. Khả năng giải thích của họ không dựa vào các phương trình hồi quy, mà dựa trên các cách mô hình hóa đồ họa; xem "Mô hình đồ họa xác suất: Nguyên tắc và kỹ thuật" của Koller và Friedman để biết tổng quan tuyệt vời.

Tôi không chắc liệu chúng ta có thể đề cập đến các phương pháp Bayes ở trên như là một "sự đánh đổi tốt thường được chấp nhận" hay không. Họ có thể không đủ nổi tiếng về điều đó, đặc biệt là so với ví dụ lưới đàn hồi.

— MightyCantly
nguồn

Bây giờ tôi đã có nhiều cơ hội để xem xét bài báo được liên kết của Ribeiro và cộng sự, tôi muốn nói rằng Phần 2 'Trường hợp giải thích' chứa một định nghĩa hữu ích về 'khả năng giải thích', và thực hiện công việc tốt của việc phác thảo tầm quan trọng của nó, và như vậy, xứng đáng được đọc rộng rãi trong cộng đồng Khoa học dữ liệu.

— Robert de Graaf

Mặc dù tiền đề của câu hỏi của tôi không được chấp nhận trên CV, @SeanEaster đã giúp tôi với liên kết hữu ích này: jstage.jst.go.jp/article/bhmk1974/26/1/26_1_29/_article

— Robert de Graaf

3

Có những mô hình học máy thường được chấp nhận là đại diện cho một sự đánh đổi tốt giữa hai người không?

Tôi giả định rằng bằng cách dự đoán tốt, bạn có nghĩa là có thể phù hợp với các phi tuyến có trong dữ liệu trong khi khá mạnh mẽ để vượt quá. Sự đánh đổi giữa khả năng diễn giải và khả năng dự đoán các phi tuyến đó phụ thuộc vào dữ liệu và câu hỏi được hỏi. Thực sự không có bữa ăn trưa miễn phí trong khoa học dữ liệu và không có thuật toán đơn lẻ nào có thể được coi là tốt nhất cho bất kỳ tập hợp dữ liệu nào (và áp dụng tương tự cho tính dễ hiểu).

Nguyên tắc chung là bạn càng biết nhiều thuật toán thì càng tốt cho bạn vì bạn có thể chấp nhận các nhu cầu cụ thể của mình dễ dàng hơn.

Nếu tôi phải chọn yêu thích của mình cho nhiệm vụ phân loại mà tôi thường sử dụng trong môi trường kinh doanh, tôi sẽ chọn mạng lưới đàn hồi để hồi quy logistic . Mặc dù có giả định mạnh mẽ về quy trình tạo ra dữ liệu, nó có thể dễ dàng chấp nhận dữ liệu nhờ thuật ngữ chính quy duy trì tính dễ hiểu của nó từ hồi quy logistic cơ bản.

Có tài liệu nào liệt kê các đặc điểm của thuật toán cho phép chúng có thể giải thích được không?

Tôi sẽ đề nghị bạn chọn một cuốn sách được viết tốt mô tả các thuật toán học máy thường được sử dụng và các ưu và nhược điểm của chúng trong các tình huống khác nhau. Một ví dụ về cuốn sách như vậy có thể là Các yếu tố của việc học thống kê của T. Hastie, R. Tibshirani và J. Friedman

— Mùa đông
nguồn

3

TBH, đó là sự thất vọng của tôi đối với văn bản chính xác đó - trong đó sử dụng từ 'có thể hiểu được' nhiều lần liên quan đến các mô hình khác nhau và ở một giai đoạn nói '... ứng dụng khai thác dữ liệu yêu cầu các mô hình có thể hiểu được. Chỉ đơn giản là không đủ để đưa ra dự đoán '(phần 10.7), mà tôi không thể tìm thấy tài liệu về cách xác định một mô hình có thể hiểu được - điều này đã đặt ra câu hỏi. Mặc dù tôi đã và không thích xuất hiện chỉ trích một văn bản được đánh giá cao như vậy. Tương tự, bài viết của TIbshirani giới thiệu danh sách LASSO "có thể hiểu được" là một trong những đức tính của nó mà không cần nói "có thể hiểu được" là gì.

— Robert de Graaf

1

Có thể thấy câu trả lời của tôi liên quan đến hiệu quả vô lý của các bản hòa tấu, và sự đánh đổi về lời giải thích so với dự đoán. Độ dài thông báo tối thiểu (MML, Wallace 2005) đưa ra định nghĩa chính thức về giải thích về mặt nén dữ liệu và thúc đẩy kỳ vọng rằng các giải thích thường phù hợp mà không cần quá mức và giải thích tốt tạo ra các dự đoán tốt, khái quát. Nhưng nó cũng chạm vào lý thuyết chính thức tại sao các bản hòa tấu sẽ dự đoán tốt hơn - kết quả quay trở lại (Solomonoff 1964) về dự đoán tối ưu và nội tại đối với các phương pháp Bayesian: tích hợp qua phân phối sau, không chỉ chọn trung bình, trung bình, hoặc chế độ.

— ctwardy
nguồn