Ngưỡng xác suất phân loại


49

Tôi có một câu hỏi liên quan đến phân loại nói chung. Đặt f là trình phân loại, đưa ra một tập hợp các xác suất được cung cấp một số dữ liệu D. Thông thường, người ta sẽ nói: tốt, nếu P (c | D)> 0,5, chúng ta sẽ gán một lớp 1, nếu không thì 0 (hãy coi đây là nhị phân phân loại).

Câu hỏi của tôi là, điều gì sẽ xảy ra nếu tôi phát hiện ra rằng, nếu tôi phân loại là 1 thì xác suất, lớn hơn: tức là 0,2, bộ phân loại hoạt động tốt hơn. Có hợp pháp để sau đó sử dụng ngưỡng mới này khi thực hiện phân loại không?

Tôi sẽ giải thích sự cần thiết cho phân loại thấp hơn bị ràng buộc trong bối cảnh dữ liệu phát ra tín hiệu nhỏ hơn; nhưng vẫn có ý nghĩa cho vấn đề phân loại.

Tôi nhận ra đây là một cách để làm điều đó, nhưng nếu điều này không đúng, thì một số biến đổi dữ liệu sẽ nhấn mạnh các tính năng riêng lẻ theo cách tương tự, để ngưỡng có thể duy trì ở mức 0,5?


8
Bạn đã có một số câu trả lời tuyệt vời, vì vậy hãy để tôi nói điều này: "bình thường" của bạn không phải là bình thường nên là bình thường. Tôi không chắc chắn nơi "ngưỡng ở mức 0,5" trở thành tiêu chuẩn và tôi biết có một số phần mềm, nếu không thì tuyệt vời, khuyến khích ý tưởng, nhưng nói chung đó là một thực tiễn rất kém.
Matthew Drury

1
@MatthewDrury: tất nhiên, trừ khi điểm số là xác suất hậu nghiệm có liên quan được hiệu chỉnh tốt, không có sai lầm quan trọng (sau này sẽ xử lý các chi phí khác nhau của phân loại sai).
cbeleites hỗ trợ Monica

Câu trả lời:


68

Frank Harrell đã viết về điều này trên blog của mình: Phân loại so với Dự đoán , mà tôi đồng ý hết lòng.

Về cơ bản, lập luận của anh ta là thành phần thống kê của bài tập của bạn kết thúc khi bạn đưa ra một xác suất cho mỗi lớp của mẫu mới của bạn. Chọn ngưỡng vượt quá mức bạn phân loại một quan sát mới là 1 so với 0 không còn là một phần của thống kê nữa. Nó là một phần của thành phần quyết định . Và ở đây, bạn cần đầu ra xác suất của mô hình của bạn - nhưng cũng cần cân nhắc như:

  • Hậu quả của việc quyết định coi một quan sát mới là lớp 1 so với 0 là gì? Sau đó tôi có gửi thư tiếp thị giá rẻ cho tất cả 1 người không? Hay tôi áp dụng một phương pháp điều trị ung thư xâm lấn với tác dụng phụ lớn?
  • Hậu quả của việc coi "đúng" 0 là 1 và ngược lại là gì? Tôi sẽ đánh dấu một khách hàng? Đối tượng ai đó phải điều trị y tế không cần thiết?
  • Là "lớp học" của tôi thực sự rời rạc? Hoặc thực sự có một sự liên tục (ví dụ, huyết áp), trong đó các ngưỡng lâm sàng trong thực tế chỉ là các phím tắt nhận thức? Nếu vậy, hiện tại tôi đã "phân loại" bao xa?
  • Hay một xác suất thấp nhưng tích cực là lớp 1 thực sự có nghĩa là "lấy thêm dữ liệu", "chạy thử nghiệm khác"?

Vì vậy, để trả lời câu hỏi của bạn: hãy nói chuyện với người tiêu dùng cuối cùng của phân loại của bạn và nhận câu trả lời cho các câu hỏi ở trên. Hoặc giải thích đầu ra xác suất của bạn cho cô ấy hoặc anh ấy và để cô ấy hoặc anh ấy bước qua các bước tiếp theo.


1
Cảm ơn bạn rất nhiều vì câu trả lời sâu sắc này. Tôi sẽ nghiên cứu thêm về chính vấn đề này - tôi chắc chắn rằng bằng cách nào đó tôi có thể chuyển đổi tính chất này sang phần học thống kê.
sdgaw erzswer

Wow, ước gì tôi có thể thêm một cái gì đó vào đây nhưng không có gì, câu trả lời nổi bật!
the_SJC

4
Câu trả lời rất tốt: các câu hỏi được đặt ra! Tuy nhiên, nghề nghiệp của tôi thuộc về phía ứng dụng, cho dù việc tìm ra ngưỡng quyết định có được gọi là thống kê hay không - nó hoàn toàn nằm trong nhiệm vụ chuyên môn của tôi ... Và đối với tôi, nó là một phần của mô hình giống như "tiền xử lý" là một phần của mô hình - cũng vì lý do tất cả những quyết định đó cần được đề cập trong quá trình xác nhận.
cbeleites hỗ trợ Monica

11

Câu trả lời của Stephan rất hay. Về cơ bản, nó phụ thuộc vào những gì bạn muốn làm với trình phân loại.

Chỉ cần thêm một vài ví dụ.

Một cách để tìm ngưỡng tốt nhất là xác định hàm mục tiêu. Đối với phân loại nhị phân, đây có thể là độ chính xác hoặc điểm F1 chẳng hạn. Tùy thuộc vào bạn chọn, ngưỡng tốt nhất sẽ khác nhau. Đối với điểm F1, có một câu trả lời thú vị ở đây: Ngưỡng tối ưu F1 là gì? Làm thế nào để tính toán nó? . Nhưng nói "Tôi muốn sử dụng điểm F1" là nơi bạn thực sự lựa chọn. Sự lựa chọn này có tốt hay không phụ thuộc vào mục đích cuối cùng.

Một cách khác để thấy nó đang đối mặt với sự đánh đổi giữa thăm dò và khai thác (điểm cuối cùng của Stephan): Kẻ cướp đa vũ trang là một ví dụ về vấn đề như vậy: bạn phải đối phó với hai mục tiêu mâu thuẫn là thu thập thông tin và chọn tên cướp tốt nhất . Chiến lược của một người Bayes là chọn ngẫu nhiên từng tên cướp với xác suất nó là tốt nhất. Đó không phải là phân loại chính xác nhưng xử lý xác suất đầu ra theo cách tương tự.

Nếu bộ phân loại chỉ là một viên gạch trong thuật toán ra quyết định, thì ngưỡng tốt nhất sẽ phụ thuộc vào mục đích cuối cùng của thuật toán. Nó cần được đánh giá và điều chỉnh liên quan đến chức năng khách quan của toàn bộ quá trình.


Cảm ơn bạn cho một câu trả lời tuyệt vời. Nếu tôi hiểu chính xác, nếu tôi đang xử lý bước cuối cùng trong đường ống, việc tối ưu hóa trực tiếp ngưỡng là hoàn toàn hợp pháp.
sdgaw erzswer

@sdgawerzswer: vâng. Và a) đảm bảo bạn tối ưu hóa câu trả lời cho câu hỏi đúng và b) đảm bảo rằng bạn xác nhận quyết định đó (và tìm ngưỡng) cùng với phần còn lại của mô hình.
cbeleites hỗ trợ Monica

3

Có thể có một số giá trị trong việc xem xét cách xác suất được tính toán. Ngày nay, Classifier sử dụng một vectơ thiên vị, được nhân với một ma trận (đại số tuyến tính). Miễn là có bất kỳ giá trị khác không trong vectơ, xác suất (tích của vectơ và ma trận) sẽ không bao giờ bằng 0.

Điều này gây ra sự nhầm lẫn trong thế giới thực của những người không dùng đại số tuyến tính, tôi đoán vậy. Họ bị làm phiền bởi thực tế là có điểm xác suất cho các mục mà họ nghĩ nên có 0. Nói cách khác, họ đang nhầm lẫn giữa đầu vào thống kê, từ quyết định dựa trên đầu vào đó. Là con người, chúng ta có thể nói rằng một cái gì đó có xác suất 0,0002234 giống như 0, trong hầu hết các trường hợp sử dụng "thực tế". Trong các cuộc thảo luận khoa học nhận thức cao hơn, có thể, có một cuộc thảo luận thú vị về lý do tại sao vectơ thiên vị làm điều này, hay đúng hơn, nó có giá trị cho các ứng dụng nhận thức.


2

Không có ngưỡng sai. Ngưỡng bạn chọn phụ thuộc vào mục tiêu của bạn trong dự đoán của bạn, hoặc đúng hơn là những gì bạn muốn ủng hộ, ví dụ như độ chính xác so với thu hồi (thử vẽ biểu đồ và đo AUC liên quan của nó để so sánh các mô hình phân loại khác nhau mà bạn chọn).

Tôi sẽ đưa cho bạn ví dụ về độ chính xác so với thu hồi, bởi vì trường hợp vấn đề của riêng tôi hiện đang xử lý, tôi chọn ngưỡng của mình tùy thuộc vào độ chính xác tối thiểu (hoặc Giá trị dự đoán tích cực PPV) mà tôi muốn mô hình của mình có khi dự đoán, nhưng tôi không quan tâm nhiều về tiêu cực. Vì vậy, tôi lấy ngưỡng tương ứng với độ chính xác mong muốn khi tôi đã đào tạo mô hình của mình. Chính xác là hạn chế của tôi và Recall là hiệu suất của mô hình của tôi, khi tôi so sánh với các mô hình phân loại khác.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.