Có thể sử dụng lỗi bình phương trung bình để phân loại?


13

Tôi biết công thức lỗi bình phương trung bình và cách tính nó. Khi chúng ta nói về hồi quy, chúng ta có thể tính sai số bình phương trung bình. Tuy nhiên, chúng ta có thể nói về một MSE cho một vấn đề phân loại và làm thế nào để tính toán nó?

Câu trả lời:


12

Nhiều phân loại có thể dự đoán điểm liên tục. Thông thường, điểm liên tục là kết quả trung gian chỉ được chuyển đổi thành nhãn lớp (thường là theo ngưỡng) là bước cuối cùng của phân loại. Trong các trường hợp khác, ví dụ xác suất sau cho thành viên lớp có thể được tính toán (ví dụ phân tích phân biệt, hồi quy logistic). Bạn có thể tính toán MSE bằng cách sử dụng các điểm số liên tục này thay vì nhãn lớp. Ưu điểm của việc đó là bạn tránh được việc mất thông tin do sự phân đôi.
Khi điểm liên tục là một xác suất, số liệu MSE được gọi là điểm của Brier.

Tuy nhiên, cũng có những vấn đề phân loại là vấn đề hồi quy khá ngụy trang. Trong lĩnh vực của tôi, ví dụ có thể phân loại các trường hợp tùy theo nồng độ của một số chất có vượt quá giới hạn pháp lý hay không (đó là vấn đề hai lớp nhị phân / phân biệt đối xử). Ở đây, MSE là một lựa chọn tự nhiên do tính chất hồi quy cơ bản của tác vụ.

Trong bài báo này, chúng tôi giải thích nó như là một phần của khuôn khổ tổng quát hơn: C. Beleites, R. Salzer và V. Sergo:
Xác nhận các mô hình phân loại mềm bằng cách sử dụng tư cách thành viên của một phần: Một khái niệm mở rộng về độ nhạy và công ty
Hóa học. Intell. Phòng thí nghiệm. Syst., 122 (2013), 12 - 22.

Cách tính toán: nếu bạn làm việc trong R, một triển khai nằm trong gói "softgroupval", http: /softclassval.r-forge.r-project.org.


@ seanv507: cảm ơn nhiều!
cbeleites không hài lòng với SX

1

Tôi hoàn toàn không thấy cách ... phân loại thành công là một biến nhị phân (đúng hay không), vì vậy rất khó để xem bạn sẽ làm gì.

Nói chung, phân loại được đo lường dựa trên các chỉ số như tỷ lệ phần trăm chính xác, khi phân loại được ước tính từ tập huấn luyện, được áp dụng cho tập kiểm tra đã được đặt sang một bên trước đó.

Lỗi bình phương trung bình chắc chắn có thể được (và được) tính cho các dự báo hoặc giá trị dự đoán của các biến liên tục, nhưng tôi nghĩ không phải để phân loại.


0

π^

L=iπ^iyi(1π^i)1yi

Khả năng này là cho một phản ứng nhị phân, được giả định là có phân phối Bernoulli.

L


0

Về mặt kỹ thuật bạn có thể, nhưng hàm MSE không lồi để phân loại nhị phân. Do đó, nếu một mô hình phân loại nhị phân được đào tạo với chức năng Chi phí MSE, thì nó không được đảm bảo để giảm thiểu chức năng Chi phí . Ngoài ra, sử dụng MSE làm hàm chi phí giả định phân phối Gaussian không phải là trường hợp phân loại nhị phân.


1
Tại sao MSE sẽ giả định phân phối Gaussian? (Trái ngược với, hồi quy bình phương tối thiểu sử dụng MSE là mất và chúng tôi có thể chỉ ra rằng nó là tối ưu cho các vấn đề hồi quy với phần dư được phân phối bình thường)
cbeleites không hài lòng với SX

Nó không phải là tối ưu để phân loại nhị phân nhưng tối ưu cho hồi quy. Câu hỏi là cho nhị phân.
Mostafa Nakhaei

Câu hỏi không nói phân loại nhị phân. Nó thậm chí không nói phân loại phân biệt. Và nó không hỏi về sự tối ưu (mà bạn vẫn cần phải cụ thể hơn về tình huống ngay cả khi nói nhị phân hoặc phân biệt đối xử với 2 lớp), chỉ là liệu MSE có thể được sử dụng hay không. Ngoài ra, điểm số của Brier là một quy tắc chấm điểm đúng đắn để dự báo, do đó, một lời giải thích chi tiết hơn về sự không tối ưu chắc chắn sẽ hữu ích (và có thể rất sáng tỏ khi áp dụng tính không tối ưu này).
cbeleites không hài lòng với SX
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.