So sánh hai kết quả chính xác của phân loại cho ý nghĩa thống kê với kiểm tra t

Tôi muốn so sánh độ chính xác của hai phân loại cho ý nghĩa thống kê. Cả hai phân loại được chạy trên cùng một tập dữ liệu. Điều này khiến tôi tin rằng tôi nên sử dụng một bài kiểm tra mẫu từ những gì tôi đã đọc .

Ví dụ:

Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000

Đây có phải là thử nghiệm đúng để sử dụng? Nếu vậy làm thế nào để tôi tính toán nếu sự khác biệt về độ chính xác giữa phân loại là đáng kể?

Hay tôi nên sử dụng một bài kiểm tra khác?

— Chris
nguồn

Câu trả lời:

Tôi có thể chọn tham gia bài kiểm tra của McNemar nếu bạn chỉ đào tạo các trình phân loại một lần. David Barber cũng gợi ý một bài kiểm tra Bayes khá gọn gàng có vẻ khá tao nhã đối với tôi, nhưng không được sử dụng rộng rãi (nó cũng được đề cập trong cuốn sách của ông ).

Nói thêm, như Peter Flom nói, câu trả lời gần như chắc chắn là "có" chỉ bằng cách nhìn vào sự khác biệt về hiệu suất và kích thước của mẫu (tôi lấy các số liệu được trích dẫn là hiệu suất của bộ thử nghiệm thay vì hiệu suất của bộ huấn luyện).

Tình cờ Japkowicz và Shah có một cuốn sách gần đây về "Đánh giá thuật toán học tập: Quan điểm phân loại" , tôi chưa đọc nó, nhưng có vẻ như là một tài liệu tham khảo hữu ích cho các loại vấn đề này.

— Sao Hỏa Dikran
nguồn

Tôi đang chạy xác nhận chéo 10 lần để có được những kết quả này. Điều đó có nghĩa là chúng thực sự là các tập dữ liệu khác nhau. Đó là tổng kích thước, được phân chia để kiểm tra / đào tạo trong xác nhận chéo

— Chris

Độ chính xác cho mỗi lần gấp sẽ không độc lập, điều này sẽ vi phạm các giả định của hầu hết các bài kiểm tra thống kê, nhưng có lẽ sẽ không phải là vấn đề lớn. Tôi thường sử dụng 100 phân tách kiểm tra / huấn luyện ngẫu nhiên và sau đó sử dụng kiểm tra xếp hạng có chữ ký được ghép đôi Wilcoxon (sử dụng các phân chia ngẫu nhiên giống nhau cho cả hai phân loại). Tôi thích loại thử nghiệm này vì tôi thường sử dụng các bộ dữ liệu nhỏ (vì tôi quan tâm đến việc quá mức) vì vậy độ biến thiên giữa các phân chia ngẫu nhiên có xu hướng tương đương với sự khác biệt về hiệu suất giữa các phân loại.

— Dikran Marsupial

(+1) đối với Wilcoxon đã ghép nối bài kiểm tra xếp hạng có chữ ký (và liên kết đến cuốn sách ... nếu toc có thể thực hiện lời hứa của mình, cuốn sách này có thể trở thành một phần phải đọc của tất cả ML: O)

— steffen

Tôi cũng đã sử dụng các bài kiểm tra xếp hạng đã ký cũng như các bài kiểm tra t được ghép nối để so sánh các phân loại. Tuy nhiên, mỗi lần tôi báo cáo bằng cách sử dụng thử nghiệm một phía cho mục đích này, tôi nhận được một khoảng thời gian khó khăn từ những người đánh giá vì vậy đã quay trở lại sử dụng thử nghiệm hai mặt!

— BGreene

Cho rằng OP đã làm rõ trong các ý kiến rằng câu hỏi thực sự là về xác nhận chéo, có lẽ bạn sẽ xem xét mở rộng câu trả lời của mình để bao quát chủ đề đó? Chúng ta có thể chỉnh sửa Q rồi. Đây là một chủ đề quan trọng và có một vài câu hỏi rất liên quan (hoặc thậm chí trùng lặp) nhưng không có câu trả lời hay. Trong một nhận xét ở trên, bạn khuyên bạn nên sử dụng một bài kiểm tra được ghép nối trên các ước tính CV và nói rằng bạn không nghĩ rằng sự không độc lập là một vấn đề lớn ở đây. Tại sao không? Nghe có vẻ như tôi là một vấn đề lớn

— amip nói rằng Phục hồi Monica

Tôi có thể nói với bạn, thậm chí không cần chạy bất cứ thứ gì, rằng sự khác biệt sẽ có ý nghĩa thống kê cao. Nó vượt qua IOTT (bài kiểm tra chấn thương nội nhãn - nó đập vào mắt bạn).

Tuy nhiên, nếu bạn muốn làm một bài kiểm tra, bạn có thể làm một bài kiểm tra theo hai tỷ lệ - điều này có thể được thực hiện với một bài kiểm tra hai mẫu.

Tuy nhiên, bạn có thể muốn chia "độ chính xác" thành các thành phần của nó; độ nhạy và độ đặc hiệu, hoặc dương tính giả và âm tính giả. Trong nhiều ứng dụng, chi phí cho các lỗi khác nhau là khá khác nhau.

— Peter Flom - Tái lập Monica
nguồn

z

$z$

n

$n$

t

$t$

z

$z$

Tỷ lệ chính xác tôi đã đặt trong câu hỏi của tôi chỉ là một ví dụ.

— Chris

Vì độ chính xác, trong trường hợp này là tỷ lệ mẫu được phân loại chính xác, chúng tôi có thể áp dụng thử nghiệm giả thuyết liên quan đến một hệ thống có hai tỷ lệ.

$\hat p_1$ $\hat p_2$ $n$ $x_1$ $x_2$

$\hat p_1 = x_1/n,\quad \hat p_2 = x_2/n$

Thống kê kiểm tra được đưa ra bởi

$\displaystyle Z = \frac{\hat p_1 - \hat p_2}{\sqrt{2\hat p(1 -\hat p)/n}}\qquad$ Ở đâu $\quad\hat p= (x_1+x_2)/2n$

$p_2$ $p_1$

$H_0: p_1 = p_2\quad$ (giả thuyết không nêu cả hai đều bằng nhau)
$H_a: p_1 < p_2\quad$ (giả thuyết thay thế tuyên bố cái mới hơn là tốt hơn cái hiện có)

Vùng loại bỏ được đưa ra bởi

$Z < -z_\alpha \quad$ $H_0$ $H_a$

$z_\alpha$ $\alpha$ $z_{0.5} = 1.645$ $Z < -1.645$ $1-\alpha$

Người giới thiệu:

Số liệu thống kê và xác suất của R. Johnson và J. Freund, Miller và Freund dành cho kỹ sư, Ed 8. Prentice Hall International, 2011. (Nguồn chính)
Kiểm tra tóm tắt công thức giả thuyết-súc tích . (Thông qua từ [1])

— Ébe Isaac
nguồn

Không nên

\hat{p}

$\quad\hat p$

{\hat{p}}_{1}

$\hat p_1$

{\hat{p}}_{2}

$\hat p_2$

\hat{p} = (x_{1} + x_{2}) / 2 n

$\quad\hat p= (x_1+x_2)/2n$

Mặc dù tôi đồng ý rằng một bài kiểm tra về tỷ lệ có thể được sử dụng, nhưng không có gì trong câu hỏi ban đầu cho thấy bài kiểm tra một phía là phù hợp. Hơn nữa, "chúng tôi có thể nói với độ tin cậy 95%" là một cách hiểu sai phổ biến. Xem ví dụ tại đây: metheval.uni-jena.de/lehre/0405-ws/ev Assessmentuebung / home.pdf

— Frans Rodenburg

@ShivaTp Thật vậy. Cảm ơn đã chỉ việc sửa lỗi chính tả rất cần thiết. Chỉnh sửa xác nhận.

— Ébe Isaac