Xây dựng hàm mất mát đặc thù


8

Mô tả vấn đề

Tôi đang bắt đầu xây dựng mạng cho một vấn đề mà tôi cảm thấy có thể có chức năng mất mát sâu sắc hơn nhiều so với hồi quy MSE đơn giản.

Vấn đề của tôi liên quan đến phân loại đa danh mục ( xem câu hỏi của tôi về SO để biết ý tôi là gì), trong đó có một khoảng cách hoặc mối quan hệ xác định giữa các danh mục cần được tính đến.

Một điểm khác là lỗi không nên bị ảnh hưởng bởi số lượng các loại bắn hiện tại. Tức là lỗi cho 5 loại bắn mỗi loại bằng 0,1, phải giống với 1 loại bắn ra bằng 0,1. (bằng cách bắn tôi có nghĩa là chúng khác không, hoặc vượt quá ngưỡng nào đó)


Những điểm chính

  • phân loại đa loại (bắn nhiều lần cùng một lúc)
  • mối quan hệ giữa các loại
  • số lượng các loại bắn không nên mất hiệu lực:
    • nhập mô tả hình ảnh ở đây

Nỗ lực của tôi

Lỗi bình phương có vẻ như là một nơi tốt để bắt đầu:

nhập mô tả hình ảnh ở đây

Điều này chỉ đơn giản là xem xét theo từng loại, vẫn còn có giá trị trong vấn đề của tôi nhưng bỏ lỡ một phần lớn của bức tranh.

nhập mô tả hình ảnh ở đây

Đây là nỗ lực của tôi để khắc phục ý tưởng về khoảng cách giữa các loại. Tiếp theo tôi muốn tính đến số lượng danh mục bắn ( gọi nó là: v )

nhập mô tả hình ảnh ở đây


Câu hỏi của tôi

Tôi có một nền tảng rất yếu trong thống kê; kết quả là, tôi không có nhiều công cụ trong vành đai của mình để khắc phục một vấn đề như thế này. Chủ đề ô của những gì tôi đang hỏi sẽ xuất hiện là "Khi hình thành hàm chi phí, làm thế nào để kết hợp nhiều thước đo chi phí? Hoặc người ta có thể áp dụng những kỹ thuật nào để làm như vậy?" . Tôi cũng sẽ đánh giá cao bất kỳ sai sót nào trong quá trình suy nghĩ của tôi được bộc lộ và cải thiện.

Tôi đánh giá cao việc được dạy tại sao những sai lầm của tôi là sai lầm, trái ngược với việc ai đó chỉ sửa chúng mà không cần giải thích.

Nếu bất kỳ phần nào của câu hỏi này thiếu rõ ràng hoặc có thể được cải thiện, xin vui lòng cho tôi biết.


Aidan, thật tốt khi thấy rất nhiều suy nghĩ dành cho việc xây dựng một chức năng mất cụ thể cho vấn đề. Tôi sẽ có khuynh hướng xem đây là một vấn đề toán học, hơn là một vấn đề thống kê. Bạn đang tìm kiếm một hàm mất có ma trận 2x5 cho các số thực và bạn có một số ý tưởng mạnh mẽ về các bất biến nhất định mà hàm này phải thỏa mãn, do đó áp đặt các ràng buộc đối với dạng hàm. Nếu bạn giải thích ý nghĩa của ma trận của bạn, tôi có thể cung cấp một số hướng dẫn cụ thể hơn để xây dựng hàm mất mát của bạn.
David C. Norris

Câu trả lời:


2

Bạn có thể sử dụng mất bản lề , giới hạn trên của tổn thất phân loại; nghĩa là, nó sẽ phạt người mẫu nếu nhãn của hạng mục ghi điểm cao nhất khác với nhãn của lớp sự thật.

Để biết thêm chi tiết về mối quan hệ giữa mất phân loại và mất bản lề, bạn có thể đọc Phần 2 của bài báo tuyệt vời này từ CNJ Yu và T. Joachims.

Tóm lại, có một mất nhiệm vụ , thường được ký hiệu là , đo lường hình phạt để dự đoán đầu ra cho đầu vào khi đầu ra dự kiến ​​(sự thật) là . Mất nhiệm vụ cho phân loại nhiều lớp thường được xác định là . Tuy nhiên, miễn là chỉ phụ thuộc vào hai nhãn và , bạn có thể xác định nó theo cách bạn muốn. Cụ thể, người ta có thể xem là tùy ýΔ(yi,y^(xi))y^(xi)xiyiΔ(yi,y^(xi))=1{yiy^(xi)}Δyy^ΔK×Kma trận trong đó là số lượng danh mục và biểu thị hình phạt phân loại đầu vào của danh mục là thuộc danh mục .KΔ(a,b)ab

Ví dụ: input data:{(x1,y1),(x2,y2),(x3,y3)},xiRd,yiY={c1,c2,c3,c4}network predictions:y^(x1)=c2,y^(x2)=c1,y^(x3)=c3task loss matrix:[Δ(y1,y1)Δ(y1,y2)Δ(y1,y3)Δ(y1,y4)Δ(y2,y1)Δ(y2,y2)Δ(y2,y3)Δ(y2,y4)Δ(y3,y1)Δ(y3,y2)Δ(y3,y3)Δ(y3,y4)Δ(y4,y1)Δ(y4,y2)Δ(y4,y3)Δ(y4,y4)]=[0123101221013210]classification loss assuming y1=c4,y2=c1,y3=c4:Δ(y1,y^(x1))=Δ(c4,c2)=2Δ(y2,y^(x2))=Δ(c1,c1)=0Δ(y3,y^(x3))=Δ(c4,c3)=1


1
Cảm ơn nhiều vì sự phản hồi. Tôi đã thêm một ví dụ cho câu hỏi của bạn (có thể vẫn ở trạng thái bình duyệt khi bạn thấy nhận xét này). Bạn có thể xác nhận rằng giải thích của tôi là chính xác?
Aidan Gomez

Tôi thấy, điều này có giá trị trong một vấn đề kiểu phân loại, nhưng của tôi là hồi quy (với nhãn đa chiều), trong đó nhiều danh mục có thể "bật" cùng một lúc. Điều này dường như tương tự như một argmax; Đối với mỗi đầu vào, nó chỉ xem xét loại đầu ra lớn nhất. Trong vấn đề của tôi, người ta có thể có một nhãn như {1,0,1,1} trong đó các loại 0, 2, 3 đều có trong dữ liệu nhưng loại 1 thì không. Nếu mạng của tôi đoán {0,8, 0, 0,6, 0,3}, thì tổn thất của tôi không giống như dự đoán như {0,8, 0, 0,7, 0,7}.
Aidan Gomez

Tôi vẫn tin rằng câu trả lời của tôi trả lời câu hỏi của bạn! Những gì tôi đã giải thích được gọi là Kết cấu SVM trong đó không gian nhãn (tức là không gian mà các nhãn sự thật sống trong đó) có thể có bất kỳ cấu trúc nào. Dường như với tôi rằng những gì bạn muốn có thể đạt được như sau: xem xét một vấn đề phân loại với loại; xác định . Điều duy nhất là kích thước của bạn ma trận sau đó trở thành . Tuy nhiên, bạn có thể không cần chỉ định ma trận. Hãy hỏi để biết thêm chi tiết nếu âm thanh này trả lời câu hỏi của bạn. YKY={0,1}KΔ2K×2K
Sobi

Điều này nghe có vẻ đúng đường dẫn, bạn có thể cung cấp một ví dụ dễ dàng như chúng tôi đã làm cho trường hợp nhãn 1 chiều không? Có lẽ với K = 2 hoặc 3
Aidan Gomez

Giả sử đầu vào câu trả lời đúng là nhưng phân loại của bạn dự đoán . Trong trường hợp này, tôi giả sử . Bạn có thể xác định hàm mất, ví dụ:; cái này xem xét các dự đoán của trình phân loại cho tất cả các lớp và trả về giá trị tổn thất của lớp nằm xa nhất so với giá trị chân thực tương ứng của nó. y = ( 0 , 1 , 1 ) y ( x ) = ( 0.1 , 0.9 , 0.8 ) Δ : { 0 , 1 } 3 × [ 0 , 1 ] 3R Δ ( y , y ) = max K k = 1 | y [ k ] -xy=(0,1,1)y^(x)=(0.1,0.9,0.8)Δ:{0,1}3×[0,1]3RΔ(y,y^)=maxk=1K|y[k]y^[k]|
Sobi
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.