Cách chính xác để kiểm tra tầm quan trọng của kết quả phân loại

21

Có nhiều tình huống bạn có thể huấn luyện một số phân loại khác nhau hoặc sử dụng một số phương pháp trích xuất tính năng khác nhau. Trong các tài liệu, các tác giả thường đưa ra lỗi phân loại trung bình đối với một tập hợp các phân chia ngẫu nhiên của dữ liệu (nghĩa là sau khi xác thực chéo được lồng đôi), và đôi khi cũng đưa ra các phương sai về lỗi trên các phần tách. Tuy nhiên, điều này tự nó không đủ để nói rằng một phân loại tốt hơn đáng kể so với phân loại khác. Tôi đã thấy nhiều cách tiếp cận khác nhau - sử dụng các bài kiểm tra Chi bình phương, kiểm tra t, ANOVA với kiểm tra sau đại học, v.v.

Phương pháp nào nên được sử dụng để xác định ý nghĩa thống kê? Đặt câu hỏi đó là: Chúng ta nên đưa ra giả định gì về phân phối điểm số phân loại?

classification statistical-significance

— tdc
nguồn

2

Bạn có thể đăng các bài báo mẫu với: "Tôi đã thấy nhiều cách tiếp cận khác nhau - sử dụng các bài kiểm tra Chi bình phương, kiểm tra t, ANOVA với kiểm tra sau đại học, v.v."? Tôi thực sự quan tâm đến điều đó.

— jb.

1

@jb có một cái nhìn về một điều này: cmpe.boun.edu.tr/~ethem/i2ml/slides/v1-1/i2ml-chap14-v1-1.pdf

— Dov

8

Ngoài câu trả lời tuyệt vời của @ jb., hãy để tôi nói thêm rằng bạn có thể sử dụng bài kiểm tra của McNemar trên cùng một bộ kiểm tra để xác định xem một trình phân loại có tốt hơn đáng kể so với phân loại khác không. Điều này sẽ chỉ hoạt động cho các vấn đề phân loại (công việc ban đầu của McNemar gọi là "đặc điểm phân đôi") có nghĩa là các trình phân loại có thể hiểu đúng hoặc sai, không có khoảng trắng ở giữa.

— carlosdc
nguồn

Điều gì về kịch bản khi phân loại có thể vượt qua? Như trong nó nói nó không biết. Bạn vẫn có thể sử dụng thử nghiệm của McNemar chứ?

— S0rin

5

Vì phân phối lỗi phân loại là phân phối nhị phân (có phân loại sai hoặc không có) --- Tôi nói rằng sử dụng Chi-squared là không hợp lý.

Ngoài ra, chỉ so sánh hiệu quả của các bộ phân loại hoạt động trên cùng một bộ dữ liệu là hợp lý --- 'Không có định lý bữa trưa miễn phí' nói rằng tất cả các mô hình có hiệu suất trung bình như nhau trên tất cả các bộ dữ liệu, do đó mô hình nào sẽ xuất hiện tốt hơn sẽ chỉ phụ thuộc vào bộ dữ liệu nào chọn để đào tạo họ http://en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization .

Nếu bạn đang so sánh hiệu quả của các mô hình A và B so với tập dữ liệu D tôi nghĩ rằng hiệu quả trung bình + trung bình là đủ để đưa ra lựa chọn.

Ngoài ra, nếu một mô hình có nhiều mô hình có hiệu quả cộng hưởng (và độc lập tuyến tính với nhau), tôi muốn xây dựng mô hình tập hợp hơn là chỉ chọn mô hình tốt nhất.

— jb.
nguồn

Nhưng đối với một trình phân loại duy nhất, bạn kết thúc với một tập hợp điểm số (ví dụ MSE trên 100 lần phân tách), có thể nằm trong phạm vi [0,1] chẳng hạn. Tôi nghĩ rằng sẽ rất tốn kém khi lấy kết quả của mỗi lần chạy và phân tích chúng.

— tdc

Vâng. Nhưng trong trường hợp này có nghĩa là + stddev là đủ để kiểm tra xem cái này có tốt hơn đáng kể so với cái kia hay không, giống như với bất kỳ phép đo nào khác.

— jb.

2

Tôi không chắc lắm. Nghĩa và stddev giả định Gaussianity cho một sự khởi đầu, và thứ hai, điều này không tính đến việc có bao nhiêu so sánh đang được thực hiện (ví dụ có thể cần điều chỉnh Bonferroni )

— tdc

1

Nó là như nhau trong lý thuyết đo lường cơ bản. Giả sử chúng ta có một micromet và chúng ta muốn kiểm tra xem hai thanh có cùng một đường kính hay không, chúng ta thực hiện 100 phép đo của cả hai thanh và kiểm tra xem trung bình + stddev có trùng nhau không. Trong cả hai trường hợp (phát hiện que và siêu mô hình) chúng ta chỉ giả sử phân phối kết quả gaussian, chỉ có đối số hợp lý là định lý giới hạn trung tâm .

— jb.

3

Tôi đề nghị bài báo của Tom Dietterich có tiêu đề "Các bài kiểm tra thống kê gần đúng để so sánh các thuật toán học phân loại được giám sát". Đây là hồ sơ của bài báo trên CiteSeer: http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.37.3325 . Từ bản tóm tắt: "Bài viết này xem xét năm bài kiểm tra thống kê gần đúng để xác định xem một thuật toán học có thực hiện khác với một nhiệm vụ học tập cụ thể hay không. Các bài kiểm tra này được so sánh bằng thực nghiệm để xác định xác suất phát hiện sai khác khi không có sự khác biệt (lỗi loại I ). ... Thử nghiệm của McNemar, được hiển thị là có lỗi Loại I thấp. ... "

— Eric Ringger
nguồn

2

IMHO không nên có bất kỳ sự khác biệt nào giữa phân phối điểm số với phân phối bất kỳ loại dữ liệu nào khác. vì vậy về cơ bản, tất cả những gì bạn phải kiểm tra là liệu dữ liệu của bạn có được phân phối bình thường hay không xem tại đây . Hơn nữa, có những cuốn sách tuyệt vời giải quyết triệt để câu hỏi này xem tại đây (ví dụ: tất cả đều kiểm tra xem kết quả của hai phân loại có khác nhau đáng kể không .. và nếu có, chúng có thể được kết hợp thành một mô hình đồng bộ)

— Chính phủ
nguồn

Tôi nghĩ rằng họ rất có thể không được phân phối bình thường. Trong trường hợp thông thường, điểm số sẽ dương và lệch về một đầu của phạm vi (1 hoặc 0 tùy thuộc vào việc bạn đang sử dụng độ chính xác hay lỗi làm thước đo).

— tdc

@tdc: trường hợp phân phối hàm này (số lượng phân loại sai) -> (số mô hình có số lượng phân loại sai này) thường sẽ bị IMHO phân tách tương tự.

— jb.

@Dov: Kiểm tra mô hình nào tốt hơn đáng kể (đó là câu hỏi OP) và testin nếu chúng khác nhau là một điều hoàn toàn khác.

— jb.

@jb. cảm ơn. nhưng tôi đã nói khác biệt đáng kể không tốt hơn ...

— Dov

@Dov liên kết đầu tiên của bạn bị hỏng - Tôi không thể biết nơi nào cần phải trỏ đến.

— Tamzin Blake

2

Không có thử nghiệm duy nhất phù hợp cho tất cả các tình huống; Tôi có thể giới thiệu cuốn sách "Đánh giá các thuật toán học tập" của Nathalie Japkowicz và Mohak Shah, Nhà xuất bản Đại học Cambridge, 2011. Việc một cuốn sách gần 400 trang có thể được viết về chủ đề này cho thấy nó không phải là một vấn đề đơn giản. Tôi thường thấy rằng không có bài kiểm tra nào thực sự phù hợp với nhu cầu học tập của tôi, vì vậy điều quan trọng là phải nắm bắt tốt những ưu điểm và nhược điểm của bất kỳ phương pháp nào cuối cùng được sử dụng.

Một vấn đề phổ biến là đối với các bộ dữ liệu lớn, có thể thu được sự khác biệt có ý nghĩa thống kê với kích thước hiệu ứng không có ý nghĩa thực tế.

— Sao Hỏa Dikran
nguồn