Làm thế nào để đánh giá ý nghĩa thống kê về độ chính xác của phân loại?


8

Tôi có đầu ra độ chính xác phân loại theo tỷ lệ phần trăm và số lượng mẫu đầu vào. Có thử nghiệm nào có thể cho biết mức độ có ý nghĩa thống kê là kết quả dựa trên thông tin này.

Cảm ơn


Bạn có thể đưa ra một ví dụ không?
Tối đa Gordon

3
Nó không rõ ràng với tôi những gì bạn có và những gì bạn đang yêu cầu. Có các bài kiểm tra xem tỷ lệ có bằng 0 hay không, nhưng đó không phải là bài kiểm tra có ý nghĩa về độ chính xác - độ chính xác của 0 sẽ hoàn hảo theo một cách nào đó - luôn luôn sai!
Peter Flom

Câu trả lời:


10

Bạn muốn xác định phân phối độ chính xác của chỉ cần đoán. Có lẽ nó giống nhưX/n Ở đâu X nhị thức (n, p) cho một số được biết đến p (nói 50%).

Sau đó tính toán cơ hội quan sát kết quả bạn đã làm, nếu mô hình null này là đúng. Trong R, bạn có thể sử dụng binom.testhoặc tính toán trực tiếp với pbinom.

Thông thường, bạn muốn so sánh độ chính xác không phải là "đoán" mà với một số phương pháp thay thế, trong trường hợp đó bạn có thể sử dụng thử nghiệm của McNemar ; trong R , mcnemar.test.


6

Tôi không thấy nơi kiểm tra chống lại sự ngẫu nhiên hoàn toàn là hữu ích. Một trình phân loại chỉ có thể đánh bại các dự đoán ngẫu nhiên thuần túy không hữu ích lắm. Một vấn đề lớn hơn là việc bạn sử dụng tỷ lệ được phân loại chính xác như điểm chính xác của bạn. Đây là một quy tắc chấm điểm không liên tục có thể dễ dàng thao tác vì nó tùy tiện và không nhạy cảm. Một (nhiều) cách để thấy sự thiếu sót của nó là tính toán tỷ lệ được phân loại chính xác nếu bạn có một mô hình chỉ có một phần chặn. Nó sẽ cao nếu kết quả không gần 0,5 trong tỷ lệ hiện mắc.

Khi bạn chọn một quy tắc phù hợp hơn, sẽ rất có giá trị để tính khoảng tin cậy cho chỉ mục. Ý nghĩa thống kê là ít giá trị.


Về tỷ lệ phân loại chính xác, bạn có nghĩa là độ chính xác phân loại tiêu chuẩn? cảm ơn
Simone

1
Đúng; một biện pháp có vấn đề cao.
Frank Harrell

Vâng, nó là một biện pháp có vấn đề cao. Tôi đồng ý với bạn.
Simone

2
Các phân loại chỉ cần đánh bại đoán ngẫu nhiên có thể cực kỳ hữu ích trong một số tình huống. Do đó, có một số thử nghiệm định lượng niềm tin vào một bộ phân loại tốt hơn cơ hội cũng hữu ích.
ely

3

Để chắc chắn bạn có thể máy tính một khoảng tin cậy . Nếuacc độ chính xác của bạn được ước tính trên một bộ thử nghiệm N các yếu tố, nó giữ rằng

accpp(1p)/NN(0,1)
Như vậy
P(accpp(1p)/N[zα/2,+zα/2])1α
Vì vậy, bạn có thể nói rằng:
P(p[l,u])1α
Ví dụ, bạn có thể tính khoảng Wilson .
l=2 N acc+zα/22zα/2zα/22+4 N acc4 N acc22(N+zα/22)
u=2 N acc+zα/22+zα/2zα/22+4 N acc4 N acc22(N+zα/22)

Tôi nghĩ rằng bạn có thể tính toán hiệu suất của bạn khác bao nhiêu so với một tính toán ngẫu nhiên đạt được . Độ chính xác của phân loại ngẫu nhiên là:

accr=i=1cpi2
Ở đâu pi là tần số thực nghiệm của lớp i ước tính trên bộ thử nghiệm, và clà số lượng các lớp khác nhau. Trung bình một trình phân loại ngẫu nhiên, phân loại đoán ngẫu nhiên lớpi dựa vào xác suất linh mục của bộ thử nghiệm, phân loại pini=niNni ví dụ về lớp học ichính xác Ở đâuni là số lượng hồ sơ của lớp itrong bộ thử nghiệm. Như vậy
accr=p1n1++pcncn1++nc=p1n1N++pcncN=icpi2
Bạn có thể có một cái nhìn cho một câu hỏi của tôi.

Lợi ích là:

gain=accaccr

Tôi thực sự nghĩ rằng một bài kiểm tra thống kê có thể được phác thảo. Tử số có thể được xem như một biến ngẫu nhiên bình thường,N(acc,p(1p)/N), nhưng bạn nên tìm ra loại mẫu số ngẫu nhiên nào accr có thể là.


3
Một lần nữa tôi không tin rằng một bài kiểm tra thống kê hoàn toàn không có giá trị dự đoán là có giá trị.
Frank Harrell

2
Các phân loại chỉ cần đánh bại đoán ngẫu nhiên có thể cực kỳ hữu ích trong một số tình huống. Do đó, có một số thử nghiệm định lượng niềm tin vào một bộ phân loại tốt hơn cơ hội cũng hữu ích.
ely

1
Trong phần lớn các tình huống, chúng tôi muốn biết dự đoán phân biệt đối xử tốt như thế nào, không chỉ là liệu nó có phân biệt tốt hơn cơ hội ngẫu nhiên hay không.
Frank Harrell

Không phải nếu bạn đang thúc đẩy một loạt các phân loại yếu, đó là một hoạt động rất phổ biến. Bạn có thể quan tâm đến sự phân biệt đối xử một khi bạn đạt đến phân loại cuối cùng được tăng cường đầy đủ, nhưng có rất nhiều công việc giữa bắt đầu và kết thúc, và chứng minh rằng một phân loại phức tạp thực hiện tốt hơn thực tế là rất quan trọng.
ely

1
Và một số lĩnh vực ứng dụng, ví dụ như thị trường tài chính, nơi bạn có thể sử dụng trình phân loại trong nhiều trường hợp độc lập gần như, chỉ tốt hơn một chút so với cơ hội (bình phương R như 11% hoặc 12% được coi là tuyệt vời) có thể có ý nghĩa rất lớn. Trong những trường hợp đó, nếu ngay cả bộ phân loại được tăng cường có R bình phương 15% có thể được coi là rất tốt - trong trường hợp đó thực sự có vấn đề nếu bạn có thể giải quyết theo thống kê liệu phân loại yếu có chắc chắn tốt hơn đoán không.
ely

1

Bạn có thể quan tâm đến các giấy tờ sau đây:

  • Eric W. Noreen, Phương pháp kiểm tra các giả thuyết chuyên sâu về máy tính: Giới thiệu, John Wiley & Sons, New York, NY, USA, 1989.
  • Alexander Yeh, Các thử nghiệm chính xác hơn về ý nghĩa thống kê của sự khác biệt về kết quả, trong: Thủ tục tố tụng của Hội nghị quốc tế lần thứ 18 về Ngôn ngữ học tính toán, Tập 2, trang 947-953, 2000.

Tôi nghĩ rằng họ bao gồm những gì Dimitrios Athanasakis nói về.

Tôi đã thực hiện một lựa chọn của Yeh theo cách mà tôi hiểu nó:

http: //www.clips.ugewerpen.be/~vincent/software#art


0

Tôi nghĩ rằng một điều bạn có thể thử sẽ là một bài kiểm tra hoán vị. Đơn giản chỉ cần đặt ngẫu nhiên hoán vị các cặp đầu ra mong muốn đầu vào mà bạn cung cấp cho bộ phân loại của bạn trong một số lần. Nếu nó không thể tái tạo bất cứ thứ gì ở cùng cấp trên 100 hoán vị khác nhau thì nó có ý nghĩa ở khoảng 99% và cứ thế. Về cơ bản, đây là quá trình tương tự được sử dụng để thu được các giá trị p (tương ứng với xác suất có được mối tương quan tuyến tính của cùng một số đo sau khi hoán vị ngẫu nhiên dữ liệu), v.v.


Bạn có thể giải thích rõ hơn về ý nghĩa của các cặp đầu vào / đầu ra mong muốn không?
Simone
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.