Các tác động của việc chọn các hàm mất khác nhau trong phân loại để mất xấp xỉ 0-1


27

Chúng tôi biết rằng một số chức năng khách quan dễ dàng tối ưu hóa hơn và một số khó khăn. Và có nhiều hàm mất mà chúng ta muốn sử dụng nhưng khó sử dụng, ví dụ mất 0-1. Vì vậy, chúng tôi tìm thấy một số chức năng mất proxy để thực hiện công việc. Ví dụ: chúng tôi sử dụng mất bản lề hoặc mất logistic để "mất gần đúng" 0-1.

Cốt truyện tiếp theo đến từ cuốn sách PRML của Chris Bishop . Mất bản lề được vẽ màu xanh lam, Mất bản ghi màu đỏ, Mất hình vuông màu xanh lá cây và lỗi 0/1 màu đen.

nhập mô tả hình ảnh ở đây

Tôi hiểu lý do chúng tôi có thiết kế như vậy (đối với mất bản lề và logistic) là chúng tôi muốn hàm mục tiêu được lồi.

Bằng cách xem xét mất bản lề và mất hậu cần, nó sẽ phạt nhiều hơn đối với các trường hợp được phân loại sai , và thật thú vị, nó cũng phạt các trường hợp được phân loại chính xác nếu chúng được phân loại yếu . Đó là một thiết kế thực sự kỳ lạ.

Câu hỏi của tôi là giá mà chúng ta cần phải trả bằng cách sử dụng các "chức năng mất proxy" khác nhau, chẳng hạn như mất bản lề và mất hậu cần?


Trong hồi quy, chọn tổn thất bình phương dễ dàng hơn để thực hiện tối ưu hóa so với mất giá trị tuyệt đối. Nhưng mất bình phương nhạy cảm hơn với các ngoại lệ. Vì vậy, nó cũng nên nhạy cảm với loại dữ liệu nhất định?
Haitao Du

4
Một giải pháp dễ dàng hơn là phát triển các xác suất dự đoán tối ưu không yêu cầu chức năng tiện ích. Hàm tiện ích / mất có thể được áp dụng sau bởi người ra quyết định thực tế. Phân loại tương đương với việc đưa ra quyết định cho người ra quyết định và đòi hỏi quá nhiều kiến ​​thức trước.
Frank Harrell

@FrankHarrell Cảm ơn, và tôi đang sử dụng phương pháp bạn đã đề cập trong công việc, nơi chúng tôi tách biệt dự đoán và hoạt động kinh doanh. Tuy nhiên, điều này vẫn chưa được tối ưu hóa toàn bộ mà là một giải pháp địa phương tham lam, phải không? Đây có phải là "chính sách đà điểu" không?
Haitao Du

2
Nó có thể không dẫn đến quyết định tối ưu. Hàm mất / tiện ích / chi phí không đến từ các yếu tố dự đoán mô hình.
Frank Harrell

1
+1. Giảm thiểu tổn thất logistic tương ứng với tối đa hóa khả năng nhị thức. Giảm thiểu mất bình phương lỗi tương ứng với tối đa hóa khả năng Gaussian (đó chỉ là hồi quy OLS; đối với phân loại 2 lớp, nó thực sự tương đương với LDA). Bạn có biết nếu giảm thiểu mất bản lề tương ứng với tối đa hóa một số khả năng khác? Tức là có mô hình xác suất tương ứng với mất bản lề?
amip nói phục hồi Monica

Câu trả lời:


16

Một số suy nghĩ của tôi, có thể không chính xác mặc dù.

Tôi hiểu lý do chúng tôi có thiết kế như vậy (đối với mất bản lề và logistic) là chúng tôi muốn hàm mục tiêu được lồi.

Convexity chắc chắn là một tài sản tốt, nhưng tôi nghĩ lý do quan trọng nhất là chúng ta muốn hàm mục tiêu có các đạo hàm khác không , để chúng ta có thể sử dụng các đạo hàm để giải nó. Hàm mục tiêu có thể không lồi, trong trường hợp đó chúng ta thường chỉ dừng lại ở một số điểm tối ưu cục bộ hoặc yên xe.

và thật thú vị, nó cũng xử phạt các trường hợp được phân loại chính xác nếu chúng được phân loại yếu. Đó là một thiết kế thực sự kỳ lạ.

Tôi nghĩ rằng kiểu thiết kế như vậy khuyên người mẫu không chỉ đưa ra dự đoán đúng mà còn tự tin về các dự đoán. Nếu chúng ta không muốn các trường hợp được phân loại chính xác bị trừng phạt, ví dụ, chúng ta có thể di chuyển mất bản lề (màu xanh) sang trái 1, để chúng không còn bị mất nữa. Nhưng tôi tin rằng điều này thường dẫn đến kết quả tồi tệ hơn trong thực tế.

giá mà chúng ta cần phải trả bằng cách sử dụng các "chức năng mất proxy" khác nhau, chẳng hạn như mất bản lề và mất hậu cần?

IMO bằng cách chọn các hàm mất khác nhau, chúng tôi sẽ đưa ra các giả định khác nhau cho mô hình. Ví dụ, mất hồi quy logistic (màu đỏ) giả định phân phối Bernoulli, mất MSE (màu xanh lá cây) giả định nhiễu Gaussian.


Theo ví dụ hồi quy bình phương nhỏ nhất so với hồi quy logistic trong PRML, tôi đã thêm mất bản lề để so sánh. nhập mô tả hình ảnh ở đây

Như thể hiện trong hình, mất bản lề và hồi quy logistic / entropy chéo / khả năng đăng nhập / softplus có kết quả rất gần nhau, bởi vì các hàm mục tiêu của chúng gần nhau (trong hình bên dưới), trong khi MSE thường nhạy cảm hơn với các ngoại lệ. Mất bản lề không phải lúc nào cũng có một giải pháp duy nhất bởi vì nó không hoàn toàn lồi.

nhập mô tả hình ảnh ở đây

Tuy nhiên, một đặc tính quan trọng của mất bản lề là, các điểm dữ liệu ở xa ranh giới quyết định không đóng góp gì cho tổn thất, giải pháp sẽ giống với các điểm bị xóa.

Các điểm còn lại được gọi là vectơ hỗ trợ trong ngữ cảnh của SVM. Trong khi đó, SVM sử dụng thuật ngữ chính quy để đảm bảo thuộc tính ký quỹ tối đa và một giải pháp duy nhất.


Cảm ơn câu trả lời. Có thể tạo ra một số bản demo để hiển thị tác động cho sự mất mát khác nhau bằng trực giác? Giống như chúng tôi cho thấy tác động của các ngoại lệ của hồi quy sử dụng tổn thất bình phương so với mất mát tuyệt đối.
Haitao Du

@ hxd1011 bạn được chào đón, tôi sẽ cố gắng thêm một số bản demo sau.
dontloo

2
Mất bản lề là lồi ...
Mustafa S Eisa

1
@ MustafaM.Eisa đúng, cảm ơn, ý tôi là không hoàn toàn lồi lõm ..
dontloo

@dontloo mô phỏng tuyệt vời! Cảm ơn bạn. Tôi cũng sẽ cố gắng tải lên một số mô phỏng của tôi sau này.
Haitao Du

6

Gửi một câu trả lời muộn, vì có một câu trả lời rất đơn giản chưa được đề cập.

giá mà chúng ta cần phải trả bằng cách sử dụng các "chức năng mất proxy" khác nhau, chẳng hạn như mất bản lề và mất hậu cần?

Khi bạn thay thế hàm mất 0-1 không lồi bằng một thay thế lồi (ví dụ như mất bản lề), bạn thực sự đang giải quyết một vấn đề khác với vấn đề bạn dự định giải quyết (đó là giảm thiểu số lỗi phân loại). Vì vậy, bạn có được khả năng chuyển đổi tính toán (vấn đề trở nên lồi, nghĩa là bạn có thể giải quyết nó một cách hiệu quả bằng cách sử dụng các công cụ tối ưu hóa lồi), nhưng trong trường hợp chung thực sự không có cách nào liên quan đến lỗi của trình phân loại làm giảm thiểu mất "proxy" và lỗi của trình phân loại giảm thiểu tổn thất 0-1 . Nếu những gì bạn thực sự quan tâm là giảm thiểu số lượng phân loại sai, tôi cho rằng đây thực sự là một cái giá lớn phải trả.

D


1

Lý tưởng nhất là chức năng mất mát của bạn sẽ phản ánh tổn thất thực tế phát sinh bởi doanh nghiệp. Ví dụ: nếu bạn đang phân loại hàng hóa bị hư hỏng, thì việc mất phân loại sai có thể như sau:

  • đánh dấu hàng hóa bị hư hỏng không: lợi nhuận bị mất khi bán tiềm năng
  • không đánh dấu hàng hóa bị hư hỏng: chi phí xử lý trở lại
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.