Học máy để dự đoán xác suất của lớp


20

Tôi đang tìm kiếm các trình phân loại tạo ra các xác suất đầu ra mà các ví dụ thuộc về một trong hai lớp.

Tôi biết về hồi quy logistic và Bayes ngây thơ, nhưng bạn có thể cho tôi biết những người khác làm việc theo cách tương tự không? Đó là, các trình phân loại dự đoán không phải các lớp thuộc về ví dụ nào, nhưng xác suất mà các ví dụ đó phù hợp với một lớp cụ thể?

Điểm thưởng cho bất kỳ suy nghĩ nào bạn có thể chia sẻ về ưu điểm và nhược điểm của các phân loại khác nhau này (bao gồm hồi quy logistic và Bayes ngây thơ). Ví dụ, một số tốt hơn để phân loại nhiều lớp?

Câu trả lời:


5

SVM có liên quan chặt chẽ với hồi quy logistic và có thể được sử dụng để dự đoán xác suất cũng dựa trên khoảng cách đến siêu phẳng (điểm của từng điểm). Bạn làm điều này bằng cách ghi điểm -> lập bản đồ xác suất theo cách nào đó, điều này tương đối dễ dàng vì vấn đề là một chiều. Một cách là khớp đường cong S (ví dụ đường cong logistic hoặc độ dốc của nó) với dữ liệu. Một cách khác là sử dụng hồi quy đẳng hướng để phù hợp với hàm phân phối tích lũy tổng quát hơn cho dữ liệu.

Khác với SVM, bạn có thể sử dụng hàm mất phù hợp cho bất kỳ phương thức nào bạn có thể phù hợp bằng các phương pháp dựa trên độ dốc, chẳng hạn như các mạng sâu.

Dự đoán xác suất không phải là điều cần xem xét trong những ngày này khi thiết kế phân loại. Đó là một phần bổ sung làm phân tán hiệu suất phân loại, vì vậy nó bị loại bỏ. Tuy nhiên, bạn có thể sử dụng bất kỳ trình phân loại nhị phân nào để tìm hiểu một tập hợp xác suất phân loại cố định (ví dụ: "p in [0, 1/4] hoặc [1/4, 1/2] hoặc ...") với " thăm dò "giảm Langford và Zadrozny.


4
"Dự đoán xác suất không phải là điều cần xem xét trong những ngày này khi thiết kế phân loại". Tôi không chắc liệu điều này có đúng vào năm 2013 hay không, nhưng gần như chắc chắn là sai vào năm 2018.
Matthew Drury

9

Một khả năng khác là các mạng thần kinh, nếu bạn sử dụng entropy chéo như là hàm chi phí với các đơn vị đầu ra sigmoidal. Điều đó sẽ cung cấp cho bạn các ước tính bạn đang tìm kiếm.

Mạng lưới thần kinh, cũng như hồi quy logistic, là các phân loại phân biệt đối xử, có nghĩa là chúng cố gắng tối đa hóa phân phối có điều kiện trên dữ liệu đào tạo. Không có triệu chứng, trong giới hạn của các mẫu vô hạn, cả hai ước tính đều đạt đến giới hạn giống nhau.

Bạn sẽ tìm thấy một phân tích chi tiết về chính câu hỏi này trong bài viết này . Ý tưởng mang đến là mặc dù mô hình thế hệ có lỗi tiệm cận cao hơn, nhưng nó có thể tiếp cận lỗi không triệu chứng này nhanh hơn nhiều so với mô hình phân biệt đối xử. Do đó, cái nào cần thực hiện, tùy thuộc vào vấn đề của bạn, dữ liệu trong tay và các yêu cầu cụ thể của bạn.

Cuối cùng, coi các ước tính của xác suất có điều kiện là một điểm tuyệt đối để dựa vào các quyết định dựa trên cơ sở (nếu đó là những gì bạn đang theo đuổi) không có ý nghĩa chung chung. Điều quan trọng là xem xét, đưa ra một mẫu cụ thể, các lớp ứng cử viên tốt nhất xuất ra bởi bộ phân loại và so sánh các xác suất liên quan. Nếu sự khác biệt giữa hai điểm tốt nhất là cao, điều đó có nghĩa là người phân loại rất tự tin về câu trả lời của mình (không nhất thiết phải đúng).


2

Có rất nhiều - và những gì hoạt động tốt nhất phụ thuộc vào dữ liệu. Cũng có nhiều cách để gian lận - ví dụ: bạn có thể thực hiện hiệu chuẩn xác suất trên các đầu ra của bất kỳ phân loại nào cung cấp một số giá trị của điểm số (ví dụ: một sản phẩm chấm giữa vectơ trọng lượng và đầu vào). Ví dụ phổ biến nhất về điều này được gọi là tỉ lệ của Platt.

Ngoài ra còn có vấn đề về hình dạng của mô hình cơ bản. Nếu bạn có các tương tác đa thức với dữ liệu của mình, thì hồi quy logistic vanilla sẽ không thể mô hình hóa nó tốt. Nhưng bạn có thể sử dụng một phiên bản hạt nhân của hồi quy logistic để mô hình phù hợp với dữ liệu hơn. Điều này thường làm tăng "độ tốt" của đầu ra xác suất vì bạn cũng đang cải thiện độ chính xác của trình phân loại.

Nói chung, hầu hết các mô hình đưa ra xác suất thường sử dụng hàm logistic, vì vậy có thể khó so sánh. Nó chỉ có xu hướng hoạt động tốt trong thực tế, các mạng Bayes là một lựa chọn thay thế. Naive Bayes chỉ đưa ra một giả định quá đơn giản cho xác suất của nó là tốt - và điều đó dễ dàng được quan sát trên bất kỳ tập dữ liệu có kích thước hợp lý nào.

Cuối cùng, việc tăng chất lượng ước tính xác suất của bạn thường dễ dàng hơn bằng cách chọn mô hình có thể biểu thị dữ liệu tốt hơn. Theo nghĩa này, nó không quan trọng quá nhiều làm thế nào bạn có được xác suất. Nếu bạn có thể có được độ chính xác 70% với hồi quy logistic và 98% với SVM - thì chỉ cần đưa ra xác suất "hoàn toàn tự tin" sẽ giúp bạn có kết quả "tốt hơn" bằng hầu hết các phương pháp tính điểm, mặc dù chúng không thực sự có xác suất (và sau đó bạn có thể thực hiện hiệu chuẩn mà tôi đã đề cập trước đó, làm cho chúng thực sự tốt hơn).

Câu hỏi tương tự trong bối cảnh không thể có được một bộ phân loại chính xác sẽ thú vị hơn, nhưng tôi không chắc ai đã nghiên cứu / so sánh trong một kịch bản như vậy.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.