Kết hợp các phân loại bằng cách lật một đồng xu


15

Tôi đang học một khóa học máy và các bài giảng chứa thông tin những gì tôi thấy mâu thuẫn với cuốn sách được đề xuất.

Vấn đề là như sau: có ba phân loại:

  • phân loại A cung cấp hiệu suất tốt hơn trong phạm vi ngưỡng thấp hơn,
  • phân loại B cung cấp hiệu suất tốt hơn trong phạm vi ngưỡng cao hơn,
  • phân loại C những gì chúng ta nhận được bằng cách lật một đồng xu và chọn từ hai phân loại.

Hiệu suất của phân loại C, như được xem trên đường cong ROC là gì?

Bài giảng trình bày rằng chỉ bằng cách lật đồng tiền này, chúng ta sẽ có được " vỏ lồi " kỳ diệu của đường cong ROC của A và B.

Tôi không hiểu điểm này. Chỉ bằng cách lật một đồng xu, làm thế nào chúng ta có thể có được thông tin?

Bài giảng

slide bài giảng

Cuốn sách nói gì

Cuốn sách được đề xuất ( Khai thác dữ liệu ... của Ian H. Witten, Eibe Frank và Mark A. Hall ) mặt khác nói rằng:

Để thấy điều này, hãy chọn một mức cắt xác suất cụ thể cho phương pháp A mang lại tỷ lệ dương đúng và sai tương ứng của tA và fA, và một mức cắt khác cho phương pháp B cung cấp tB và fB. Nếu bạn sử dụng hai sơ đồ này một cách ngẫu nhiên với xác suất p và q, trong đó p + q = 1, thì bạn sẽ nhận được tỷ lệ dương đúng và sai của p. tA + q. tB và p. fA + q. fB. Điều này thể hiện một điểm nằm trên đường thẳng nối các điểm (tA, fA) và (tB, fB), và bằng cách thay đổi p và q, bạn có thể tìm ra toàn bộ đường thẳng giữa hai điểm này.

Theo hiểu biết của tôi, những gì cuốn sách nói là để thực sự có được thông tin và tiếp cận thân tàu lồi, chúng ta cần phải làm một cái gì đó cao cấp hơn là chỉ đơn giản là lật một đồng xu.

AFAIK, cách chính xác (như được đề xuất bởi cuốn sách) là như sau:

  1. chúng ta nên tìm một ngưỡng tối ưu Oa cho phân loại A
  2. chúng ta nên tìm một ngưỡng tối ưu Ob cho phân loại B
  3. định nghĩa C như sau:

    • Nếu t <Oa, sử dụng phân loại A với t
    • Nếu t> Ob, sử dụng phân loại B với t
    • Nếu Oa <t <Ob, chọn giữa phân loại A với Oa và B với Ob theo xác suất là tổ hợp tuyến tính của nơi chúng ta nằm giữa Oa và Ob.

Điều này có đúng không? Nếu có, có một vài khác biệt chính so với những gì các slide gợi ý.

  1. Đây không phải là một loại tiền xu đơn giản, mà là một thuật toán tiên tiến hơn, cần các điểm và điểm được xác định thủ công dựa trên khu vực chúng ta rơi vào.
  2. Nó không bao giờ sử dụng phân loại A và B với các giá trị ngưỡng giữa Oa và Ob.

Bạn có thể giải thích cho tôi vấn đề nàycách hiểu chính xác về vấn đề này là gì , nếu cách hiểu của tôi không đúng?

Điều gì sẽ xảy ra nếu chúng ta chỉ đơn giản lật một đồng xu như các slide sẽ gợi ý? Tôi nghĩ rằng chúng ta sẽ có một đường cong ROC nằm giữa A và B, nhưng không bao giờ "tốt hơn" so với đường cong tốt hơn tại một điểm nhất định.

Theo như tôi có thể thấy, tôi thực sự không hiểu làm thế nào các slide có thể đúng. Tính toán xác suất ở phía bên tay trái không có ý nghĩa với tôi.

Cập nhật: Tìm thấy bài viết được viết bởi tác giả gốc, người đã phát minh ra phương pháp vỏ lồi: http://www.bmva.org/bmvc/1998/pdf/p082.pdf


Từ việc tôi đọc cả slide mà bạn đăng và đoạn trích sách, dường như chúng đang mô tả chính xác cùng một điều, và các slide không bị lỗi.
Đức hồng y

Lưu ý rằng cũng không quá khó để xây dựng một mô phỏng để thuyết phục bản thân về thực tế được nêu trong slide. Khó khăn duy nhất bạn có thể gặp phải là xây dựng hai đường cong ROC trông gần giống như vậy, nhưng có thể quản lý được, bằng cách sử dụng mô hình hỗn hợp Gaussian để tạo ra các quan sát và một số quy tắc quyết định dưới mức tối ưu.
Đức hồng y

Câu trả lời:


12

(Đã chỉnh sửa)

Các slide bài giảng là đúng.

Phương pháp A có "điểm tối ưu" cho tỷ lệ dương đúng và sai tương ứng (TPA, FPA trong biểu đồ). Điểm này sẽ tương ứng với một ngưỡng, hoặc nói chung là [*] một ranh giới quyết định tối ưu cho A. Tất cả đều giống nhau đối với B. (Nhưng các ngưỡng và các ranh giới không liên quan).

Người ta thấy rằng phân loại A hoạt động tốt theo ưu tiên "giảm thiểu dương tính giả" (chiến lược bảo thủ) và phân loại B khi chúng ta muốn "tối đa hóa tích cực thực" (chiến lược háo hức).

Câu trả lời cho câu hỏi đầu tiên của bạn, về cơ bản là có, ngoại trừ xác suất của đồng xu là (theo một cách nào đó) là tùy ý. Clasiffier cuối cùng sẽ là:

xxp

(Đã sửa: thực ra, các bài giảng hoàn toàn đúng, chúng ta có thể lật đồng xu trong mọi trường hợp. Xem sơ đồ)

p

[*] Bạn nên nói chung ở đây: nếu bạn nghĩ theo một ngưỡng vô hướng duy nhất, tất cả điều này có ý nghĩa rất nhỏ; một tính năng một chiều với phân loại dựa trên ngưỡng không cung cấp cho bạn đủ mức độ tự do để có các phân loại khác nhau như A và B, hoạt động dọc theo các đường cong khác nhau khi các thông số tự do (ranh giới quyết định = ngưỡng) thay đổi. Nói cách khác: A và B được gọi là "phương thức" hoặc "hệ thống", không phải là "phân loại"; bởi vì A là toàn bộ họ phân loại, được tham số hóa bởi một số tham số (vô hướng) xác định ranh giới quyết định, không chỉ là vô hướng]

Tôi đã thêm một số sơ đồ để làm cho nó rõ ràng hơn:

nhập mô tả hình ảnh ở đây

ttttA=2ttB=4

Sau đó, trong kịch bản này, người ta có thể nói rằng dòng màu cam đầy là "phân loại A tối ưu" (bên trong họ của nó) và tương tự cho B. Nhưng người ta không thể biết liệu dòng màu cam có tốt hơn dòng màu xanh hay không: người ta thực hiện tốt hơn khi chúng ta gán chi phí cao cho dương tính giả, khác khi âm tính giả sẽ tốn kém hơn nhiều.

nhập mô tả hình ảnh ở đây

Bây giờ, có thể xảy ra rằng hai phân loại này quá cực đoan cho nhu cầu của chúng tôi, chúng tôi muốn rằng cả hai loại lỗi đều có trọng số tương tự nhau. Chúng tôi muốn, thay vì sử dụng phân loại A (chấm màu cam) hoặc B (chấm màu xanh) để đạt được hiệu suất nằm giữa chúng. Như khóa học nói, người ta có thể đạt được kết quả đó bằng cách chỉ cần lật một đồng xu và chọn một trong các phân loại ngẫu nhiên.

Chỉ bằng cách lật một đồng xu, làm thế nào chúng ta có thể có được thông tin?

Chúng tôi không có được thông tin. Trình phân loại ngẫu nhiên mới của chúng tôi không chỉ đơn giản là "tốt hơn" A hay B, hiệu suất của nó là loại trung bình của A và B, liên quan đến chi phí được gán cho từng loại lỗi. Điều đó có thể có hoặc không có lợi cho chúng tôi, tùy thuộc vào chi phí của chúng tôi là gì.

AFAIK, cách chính xác (như được đề xuất bởi cuốn sách) là như sau ... Điều này có đúng không?

p


@leonboy Tôi tin rằng x là ngưỡng và cho các giá trị thấp của phân loại x A hoạt động tốt nhất. Đối với các giá trị cao của x phân loại B hoạt động tốt nhất. Theo tôi, tốt nhất là đối với tỷ lệ dương tính giả định, tỷ lệ dương tính thật là cao nhất. Nếu tất cả những gì chúng ta biết là A hoạt động tốt nhất đến một điểm mà chúng giao nhau và B cho tất cả các ngưỡng trên thì bất kỳ thuật toán nào có trọng số nhỏ hơn 1 đến A trong khu vực giữa FPa và FPb nơi A có TP cao hơn không thể thực hiện cũng như A. Vì vậy, một thuật toán C như vậy phải giảm xuống dưới A trong khu vực đó.
Michael R. Chernick

Tương tự ở khu vực giữa FPa và FPb nơi TP cao hơn đối với B, thuật toán không có p lớn hơn 0 sẽ hoạt động tốt hơn B. Công thức của TPc là chính xác nhưng trung bình có trọng số cố định giữa TPb và TPa không thể lớn hơn TPa và TPb. Nó phải rơi giữa họ. Nhưng sơ đồ luôn hiển thị TPc trên TPa và TPb trên toàn khu vực từ FPa và FPb. Bạn có thấy một cái gì đó ở đây mà chúng ta đang thiếu? Tôi không tìm thấy nó trong câu trả lời của bạn.
Michael R. Chernick

1
Được rồi, bóng đèn đã tắt! X là một vectơ trong tâm trí của bạn chứ không phải là một ngưỡng vô hướng. Điều đó thực sự thay đổi bất cứ điều gì? Các aixs FP là một xác suất vô hướng. Điểm giao nhau của tôi là điểm FP bình đẳng cho A và B. Có thể có nhiều vectơ X dẫn đến nó. Tôi chỉ nói rằng tại bất kỳ điểm nào dọc theo trục FP giữa FPa và FPb. TPc = p TPa + (1-p) TPb. Dòng trong cốt truyện nằm trong mặt phẳng TP vs FP. Làm thế nào dòng đó có thể đi qua các điểm trên các đường cong cho cả A và B như OP đã hỏi (tôi nghĩ đúng)?
Michael R. Chernick

1
@Michael: Tôi nghĩ A và B là các phương pháp riêng biệt đưa ra các quyết định ranh giới khác nhau. Mỗi cái có một tham số có thể điều chỉnh (trong 1D là một ngưỡng), các tham số là độc lập và cung cấp (cho mỗi) một họ các phân loại. Tôi sẽ cố gắng vẽ sơ đồ để cố gắng làm rõ, giữ lại.
leonbloy

1
Tôi đã đưa leonbloy một upvote cho mô tả đẹp đó. Nhưng tôi thích bình luận cuối cùng của hồng y bởi vì lập luận đó rõ ràng với tôi và đồng ý với suy nghĩ mới nhất của tôi. @leobloy Một điều còn thiếu trong sơ đồ của bạn là một chuỗi các điểm cho quy tắc ngẫu nhiên đánh bại cả hai cá nhân. Tôi đoán bạn có thể mô tả quy tắc mới là một quy tắc có hai trọng số khác nhau nhưng không cần thiết và tôi nghĩ sẽ ít gây nhầm lẫn hơn nếu bạn bỏ qua lập luận đó.
Michael R. Chernick

2

Tôi đồng ý với lý luận của bạn. Nếu bạn sử dụng trình phân loại bằng cách lật đồng xu để chọn một điểm khi bạn ở giữa điểm A và B, điểm của bạn trên đường cong sẽ luôn nằm dưới trình phân loại tốt hơn và trên điểm kém hơn và không thể ở trên cả hai! Phải có một cái gì đó sai với sơ đồ. Tại điểm mà 2 đường cong ROC vượt qua thuật toán chọn ngẫu nhiên sẽ có hiệu suất tương đương với hai thuật toán. Nó sẽ không ở trên nó theo cách biểu đồ mô tả nó.


1
Tôi tin rằng slide là chính xác. Nếu bạn sử dụng hai quy trình quyết định khác nhau với hai ngưỡng khác nhau và sau đó đưa ra quyết định ngẫu nhiên, bạn sẽ nhận được kết hợp lồi sẽ đưa ra một điểm nằm ở giữa hai. Điểm này thể ở trên cả hai ( ! ) Của các đường cong với cùng tỷ lệ dương tính giả. Điều này là do ngưỡng được sử dụng cho mỗi thủ tục là khác nhau tại thời điểm đó.
Đức hồng y

1
Vì vậy, A và B trong tổ hợp lồi khác với A và B được chọn riêng lẻ với tỷ lệ dương sai. Tôi chỉ nghĩ rằng sơ đồ là khó hiểu vì tôi không thấy rằng A và B được chọn từ một gia đình phân loại.
Michael R. Chernick

1
AB

Tôi tin rằng câu trả lời này là chính xác, được thêm vào bình luận của hồng y! Ra khỏi khu vực giao lộ có thể xảy ra, nhưng đó không phải là một phương pháp. Tôi đã tìm thấy bài báo gốc từ anh chàng đã phát minh ra phương pháp này và nó giải thích rất rõ! bmva.org/bmvc/1998/pdf/p082.pdf
hyperjack

@zsero: Tôi tin rằng ngay cả Michael cũng sẽ thừa nhận rằng câu trả lời này dựa trên sự hiểu biết về sơ đồ tại thời điểm câu trả lời được đăng và cách giải thích của anh ấy đã thay đổi kể từ khi các bình luận và câu trả lời khác xuất hiện. Giống như hình vẽ, người ta có thể đạt được thông qua ngẫu nhiên bất kỳ điểm nào trên bất kỳ đường nào giữa một điểm trên đường cong thứ nhất và một điểm trên điểm thứ hai ngay cả khi tỷ lệ dương thực sự chi phối hai đường cong còn lại cho tỷ lệ dương tính giả định.
Đức hồng y
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.