Tính toán lỗi của phân loại Bayes một cách phân tích


9

Nếu hai lớp và có phân phối chuẩn với các thông số được biết đến ( , làm phương tiện của họ và , là hiệp phương sai của họ) như thế nào chúng ta có thể tính toán sai số của phân loại Bayes cho họ theorically?w 2 M 1 M 2 Σ 1 Σ 2w1w2M1M2Σ1Σ2

Cũng giả sử các biến nằm trong không gian N chiều.

Lưu ý: Một bản sao của câu hỏi này cũng có sẵn tại https://math.stackexchange.com/q/11891/4051 vẫn chưa được trả lời. Nếu bất kỳ câu hỏi nào trong số này được trả lời, câu hỏi còn lại sẽ bị xóa.


1
Câu hỏi này có giống như stats.stackexchange.com/q/4942/919 không?
whuber

@whuber Câu trả lời của bạn cho thấy nó thực sự là trường hợp.
chl

@whuber: Vâng. tôi không biết câu hỏi này phù hợp với câu hỏi nào. Tôi đang chờ phản hồi cho một người để loại bỏ người kia. Có trái với quy định không?
Isaac

Nó có thể dễ dàng hơn, và chắc chắn sẽ sạch hơn, để chỉnh sửa câu hỏi ban đầu. Tuy nhiên, đôi khi một câu hỏi được khởi động lại như một câu hỏi mới khi phiên bản trước đó thu thập quá nhiều bình luận được đưa ra không liên quan bởi các chỉnh sửa, vì vậy đó là một lời kêu gọi phán xét. Trong mọi trường hợp, thật hữu ích khi đặt các tài liệu tham khảo chéo giữa các câu hỏi liên quan chặt chẽ để giúp mọi người kết nối chúng dễ dàng.
whuber

Câu trả lời:


25

Không có hình thức đóng, nhưng bạn có thể làm điều đó bằng số.

Để làm ví dụ cụ thể, hãy xem xét hai Gaussian với các tham số sau

μ1= =(-1-1),μ2= =(11)

Σ1= =(21/21/22), Σ2= =(1001)

Ranh giới phân loại tối ưu của Bayes sẽ tương ứng với điểm có hai mật độ bằng nhau

Vì trình phân loại của bạn sẽ chọn lớp có khả năng nhất ở mọi điểm, nên bạn cần tích hợp trên mật độ không phải là điểm cao nhất cho mỗi điểm. Đối với vấn đề trên, nó tương ứng với khối lượng của các khu vực sau

Bạn có thể tích hợp hai phần riêng biệt bằng cách sử dụng một số gói tích hợp số. Đối với vấn đề ở trên, tôi nhận được 0.253579bằng cách sử dụng mã Mathicala sau đây

dens1[x_, y_] = PDF[MultinormalDistribution[{-1, -1}, {{2, 1/2}, {1/2, 2}}], {x, y}];
dens2[x_, y_] = PDF[MultinormalDistribution[{1, 1}, {{1, 0}, {0, 1}}], {x, y}];
piece1 = NIntegrate[dens2[x, y] Boole[dens1[x, y] > dens2[x, y]], {x, -Infinity, Infinity}, {y, -Infinity, Infinity}];
piece2 = NIntegrate[dens1[x, y] Boole[dens2[x, y] > dens1[x, y]], {x, -Infinity, Infinity}, {y, -Infinity, Infinity}];
piece1 + piece2

4
Câu trả lời tốt đẹp. Bạn có thể vui lòng cung cấp các lệnh để tái tạo các số liệu đẹp của bạn?
Andrej

3
(+1) Những đồ họa này rất đẹp.
COOLSerdash

1

Dường như bạn có thể thực hiện điều này theo hai cách, tùy thuộc vào giả định mô hình nào mà bạn hài lòng thực hiện.

Phương pháp tiếp cận sáng tạo

Giả sử một sinh sản mô hình cho dữ liệu, bạn cũng cần phải biết xác suất trước của mỗi lớp cho một tuyên bố phân tích các lỗi phân loại. Tra cứu Phân tích Phân biệt để có được ranh giới quyết định tối ưu ở dạng đóng, sau đó tính toán các khu vực ở phía sai của nó cho mỗi lớp để có tỷ lệ lỗi.

Tôi giả sử đây là cách tiếp cận dành cho việc gọi trình phân loại Bayes của bạn, chỉ được xác định khi mọi thứ về quy trình tạo dữ liệu được chỉ định. Vì điều này hiếm khi có thể, nó luôn luôn đáng để xem xét

Phương pháp phân biệt đối xử

Nếu bạn không muốn hoặc không thể chỉ định xác suất của lớp trước, bạn có thể lợi dụng thực tế là hàm phân biệt có thể trong nhiều trường hợp (đại khái, phân phối có điều kiện của lớp gia đình theo cấp số nhân) được mô hình trực tiếp bằng mô hình hồi quy logistic. Tính toán tỷ lệ lỗi sau đó là một mô hình cho mô hình hồi quy logistic có liên quan.

Để so sánh các phương pháp tiếp cận và thảo luận về tỷ lệ lỗi, Jordan 1995Jordan 2001 và các tài liệu tham khảo có thể được quan tâm.



0

(1-TV)/2TV

Để hoàn thành, không khó để tìm thấy các tài liệu tham khảo tốt khi tính toán TV giữa các bản phân phối Gaussian đa biến.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.