Làm thế nào để so sánh thống kê hiệu suất của phân loại học máy?


29

Dựa trên độ chính xác phân loại ước tính, tôi muốn kiểm tra xem một phân loại có tốt hơn về mặt thống kê trên một bộ cơ sở so với phân loại khác hay không. Đối với mỗi phân loại, tôi chọn ngẫu nhiên một mẫu đào tạo và kiểm tra từ bộ cơ sở, huấn luyện mô hình và kiểm tra mô hình. Tôi làm điều này mười lần cho mỗi phân loại. Do đó tôi có mười phép đo độ chính xác phân loại ước tính cho mỗi phân loại. Làm cách nào để kiểm tra thống kê xem có phải là phân loại tốt hơn phân trên tập dữ liệu cơ sở hay không. Những gì kiểm tra t là thích hợp để sử dụng?ctôimộtSStôiftôier1ctôimộtSStôiftôier2


Bạn đã kiểm tra các phân loại trên cùng một mẫu? tức là sample1, c1 (sample1), c2 (sample1)? Hay bạn đã sử dụng các mẫu khác nhau cho mỗi phân loại?
John Moeller

Kiểm tra t ghép đôi sẽ thích hợp trong kịch bản này.
GEL

1
@lewellen: độ chính xác là một tỷ lệ: các bài kiểm tra t thường không phù hợp.
cbeleites hỗ trợ Monica

3
@JohnMoeller: "sự khác biệt về tỷ lệ" sẽ là cụm từ tìm kiếm, độc lập hoặc phụ thuộc mà chúng tôi chưa biết. Nếu nó được ghép nối: thử nghiệm của McNemar. Tôi đoán rằng kiểm tra t có nghĩa là cỡ mẫu khá nhỏ, vì vậy có thể xấp xỉ bình thường không phải là một ý kiến ​​hay. Tôi muốn dùng Phương pháp thống kê về tỷ lệ và tỷ lệ để tra cứu chi tiết.
cbeleites hỗ trợ Monica

2
@ John John: Tôi đang nói rằng mỗi độ chính xác là một tỷ lệ. Nếu bạn muốn so sánh chúng, hãy sử dụng các phương pháp cho "sự khác biệt về tỷ lệ". Tôi mở rộng điều này thành một câu trả lời để ngăn chặn những bình luận bất tận.
cbeleites hỗ trợ Monica

Câu trả lời:


14

Dietterich nói: "Phân phối nhị thức có thể được xấp xỉ bằng một phân phối chuẩn cho các giá trị hợp lý của ." Cho đến nay, bạn đã không nói với chúng tôi rằng bạn có n hợp lý . @ 30 trường hợp của JohnMoeller là IMHO khá ít đối với xấp xỉ bình thường (ít nhất là không có bất kỳ kiến ​​thức nào về p 1p 2 ). nnp1p2
cbeleites hỗ trợ Monica

Tôi có ít nhất 4000 bản ghi cho mỗi lớp có sẵn trong bộ dữ liệu cơ sở, do đó mẫu tôi chọn có thể là bất cứ thứ gì ít hơn cái này. Hạn chế lớn nhất với sự khác biệt của các bài kiểm tra tỷ lệ là chúng bỏ qua "biến thể bên trong của thuật toán học tập". Tôi nghĩ rằng điều này rất quan trọng đối với một bộ phân loại như một mạng nơ-ron mà tôi đang sử dụng.
entropy

tốt, đó là một tình huống hoàn toàn khác với những gì JohnMoeller đã theo đuổi. Nếu bạn có nghĩa là sự không ổn định của mô hình bằng "biến thể bên trong": bạn có thể đo lường điều này. Tôi sẽ cập nhật câu trả lời của tôi.
cbeleites hỗ trợ Monica

Để làm rõ, 30 là số lần tôi chọn bộ phân vùng kiểm tra / đào tạo, không phải số lượng điểm kiểm tra tôi chọn.
John Moeller

@JohnMoeller: xin lỗi, tôi hoàn toàn hiểu nhầm rằng (đến từ một lĩnh vực trong đó "một mẫu" là một mẫu vật lý nào đó).
cbeleites hỗ trợ Monica

10

Tôi không có cuốn sách Fleiss trong tay, vì vậy tất cả đây là IIRC.

Trả lời câu hỏi của @ JohnMoeller trong các bình luận vào lúc này: câu hỏi ban đầu là IMHO không thể trả lời được.

Vì vậy, giả sử rằng tôi có 30 mẫu, và tôi kiểm tra c1 và c2 trên mỗi mẫu và ghi lại độ chính xác cho từng mẫu trên mỗi mẫu.

làm điều này, bạn kết thúc với bảng dự phòng 2 x 2, đưa ra phân loại 1 đúng / sai so với phân loại 2 đúng / sai. Đó là điểm khởi đầu cho bài kiểm tra của McNemar . Vì vậy, đây là để so sánh theo cặp, mạnh hơn so với tỷ lệ "độc lập" (không hoàn toàn độc lập nếu chúng đến từ việc vẽ ngẫu nhiên từ cùng một mẫu hữu hạn).

Tôi không thể tra cứu "bản in nhỏ" của McNemar ngay bây giờ, nhưng 30 mẫu không nhiều. Vì vậy, bạn thậm chí có thể phải chuyển từ thử nghiệm chính xác của McNemar sang thử nghiệm chính xác của Fisher [hoặc một cái gì khác] để tính toán xác suất nhị thức.


Phương tiện tỷ lệ:
Không quan trọng bạn kiểm tra một và cùng phân loại 10 lần với 10 trường hợp kiểm tra hay một lần với tất cả 100 trường hợp đó (bảng 2 x 2 chỉ tính tất cả các trường hợp kiểm tra).

Nếu 10 ước tính về độ chính xác cho mỗi phân loại trong câu hỏi ban đầu thu được bằng cách giữ ngẫu nhiên hoặc xác thực chéo 10 lần hoặc hết 10 lần khởi động, thì giả định thường là 10 mô hình thay thế được tính cho mỗi phân loại là tương đương (= có cùng độ chính xác), vì vậy kết quả kiểm tra có thể được gộp chung *. Để xác thực chéo 10 lần, sau đó bạn giả sử rằng kích thước mẫu thử bằng tổng số mẫu thử. Đối với các phương pháp khác tôi không chắc lắm: bạn có thể kiểm tra trường hợp tương tự nhiều lần. Tùy thuộc vào dữ liệu / vấn đề / ứng dụng, điều này không có nhiều thông tin như kiểm tra một trường hợp mới.

k

knp^= =knσ2(p^)= =σ2(kn)= =p(1-p)n


À, được rồi Đó là chút cuối cùng làm sáng tỏ mọi thứ, ít nhất là đối với tôi. Cảm ơn.
John Moeller

Cảm ơn vì sự trả lời. Chỉ cần không rõ ràng về các thủ tục để làm theo. Bạn nói xác thực chéo 10 lần trên một tập dữ liệu. Đo độ chính xác trên mẫu giữ ngoài, đó là tính toán ma trận nhầm lẫn 2x2. Thêm mười ma trận nhầm lẫn 2x2. Tạo trước thử nghiệm của McNemar trên ma trận nhầm lẫn 2x2 tổng hợp.
entropy

@entropy: 1. Bảng dự phòng 2x2 không phải là ma trận nhầm lẫn. 2. mẫu mới mỗi lần so với kiểm tra cả hai phân loại trên cùng một dữ liệu thử nghiệm: các thử nghiệm được ghép nối mạnh hơn (và có thể ở đây). Xem câu trả lời cập nhật.
cbeleites hỗ trợ Monica

Xin lỗi vì điều đó, vâng, bảng dự phòng. Tôi có đúng không khi nói rằng bài kiểm tra của McNemar cũng dịch trực tiếp đến một vấn đề đa lớp.
entropy

@cbeleites cảm ơn rất nhiều vì đã phản hồi !!! Tôi nghĩ rằng bạn đã trả lời chính xác câu hỏi của tôi. Tuy nhiên, tôi vẫn không hiểu thủ tục chính xác để làm theo. Bạn có phiền chỉ cần xây dựng trên đoạn cuối cùng.
entropy
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.