Một điểm khác biệt quan trọng trong cách thông thường là xác thực chéo và phương pháp ngoài bootstrap được áp dụng là hầu hết mọi người chỉ áp dụng xác thực chéo một lần (tức là mỗi trường hợp được kiểm tra chính xác một lần), trong khi xác thực ngoài bootstrap được thực hiện với số lượng lớn lặp đi lặp lại / lặp đi lặp lại. Trong tình huống đó, xác nhận chéo có thể có phương sai cao hơn do sự không ổn định của mô hình. Tuy nhiên, điều đó có thể tránh được bằng cách sử dụng ví dụ xác thực chéo lặp lại / lặp lại . Nếu điều đó được thực hiện, ít nhất là đối với các tập dữ liệu phổ mà tôi đang làm việc, tổng lỗi của cả hai sơ đồ lấy mẫu lại có vẻ giống nhau trong thực tế.k
Xác nhận chéo bỏ qua một lần không được khuyến khích, vì không có khả năng làm giảm phương sai kiểu không ổn định mô hình và có một số phân loại và vấn đề trong đó thể hiện sự thiên vị bi quan rất lớn.
.632 bootstrap thực hiện công việc hợp lý miễn là lỗi lấy mẫu lại được trộn lẫn trong đó không quá thiên vị. (Ví dụ: đối với dữ liệu tôi làm việc với các ma trận rất rộng với nhiều biến thể, nó không hoạt động tốt vì các mô hình có xu hướng bị quá mức nghiêm trọng). Điều này cũng có nghĩa là tôi sẽ tránh sử dụng .632 bootstrap để so sánh các mô hình có độ phức tạp khác nhau. Với .632+ bootstrap tôi không có kinh nghiệm: nếu quá mức xảy ra và được phát hiện đúng, nó sẽ bằng với ước tính hết bootstrap ban đầu, vì vậy tôi gắn bó với xác thực chéo oob hoặc lặp lại / lặp lại cho dữ liệu của mình.
Văn chương:
- Kohavi, R.: Một nghiên cứu về tính hợp lệ chéo và Bootstrap để ước tính độ chính xác và lựa chọn mô hình Kỷ yếu hội thảo quốc tế nhân tạo lần thứ 14, 20 - 25. Tháng 8 năm 1995, Montréal, Québec, Canada, 1995, 1137 - 1145.
(một tác phẩm kinh điển )
Dougherty và Braga-Neto có một số ấn phẩm về chủ đề này , vd
Dougherty, ER và cộng sự. : Hiệu suất của Công cụ ước tính Lỗi để phân loại Tin sinh học hiện tại, 2010, 5, 53-67
Beleites, C. et al. : Giảm phương sai trong việc ước tính lỗi phân loại bằng cách sử dụng bộ dữ liệu thưa thớt Chemom Intell Lab Syst, 2005, 79, 91 - 100.
Chúng tôi có so sánh chỉ thực hiện xác thực chéo một lần hoặc lặp lại / lặp lại và so sánh với việc không có bootstrap và .632 bootstrap cũng cho dữ liệu đặc biệt rộng với đa cộng tuyến.
Kim, J.-H .: Ước tính phân loại tỷ lệ lỗi: Lặp đi lặp lại cross-validation, lặp đi lặp lại hold-out và bootstrap, tính toán thống kê & phân tích dữ liệu, năm 2009, 53, 3735-374
cũng cho thấy rằng lặp đi lặp lại / lặp -fold cross validation và out-of-bootstrap có hiệu suất tương tự (trái ngược với việc thực hiện xác nhận chéo chỉ một lần).k
Lựa chọn số liệu:
chính xác (trong đó @FrankHarrell sẽ nói với bạn rằng đó là một lựa chọn tồi vì nó không phải là quy tắc chấm điểm thích hợp ) có thể có phương sai cao vì nó tính từng trường hợp là hoàn toàn chính xác hoặc hoàn toàn không chính xác, ngay cả khi trình phân loại dự đoán chỉ 60 % xác suất sau cho trường hợp kiểm tra thuộc về lớp được đề cập. Một quy tắc tính điểm thích hợp là ví dụ: Điểm của Brier, liên quan chặt chẽ đến lỗi bình phương trung bình trong hồi quy.
Trung bình lỗi analoga có sẵn cho các tỷ lệ như độ chính xác, độ nhạy, độ đặc hiệu, giá trị tiên đoán: Beleites, C. et al. : Xác nhận các mô hình phân loại mềm bằng cách sử dụng tư cách thành viên lớp một phần: Một khái niệm mở rộng về độ nhạy & Công ty áp dụng để phân loại mô tế bào hình sao, Chemom Intell Lab Syst, 2013, 122, 12 - 22; DOI: 10.1016 / j.oololab.2012.12.003 (trang tóm tắt cũng cung cấp liên kết đến bản in sẵn)
Mục tiêu cuối cùng của tôi là có thể tự tin nói rằng một phương pháp học máy tốt hơn một phương pháp khác cho một tập dữ liệu cụ thể.
Sử dụng một bài kiểm tra ghép nối để đánh giá điều đó. Để so sánh tỷ lệ, hãy xem thử nghiệm của McNemar.
Câu trả lời cho điều này sẽ bị ảnh hưởng bởi sự lựa chọn số liệu. Vì các biện pháp lỗi kiểu hồi quy không có bước "cứng" trong việc cắt các quyết định có ngưỡng, chúng thường có ít phương sai hơn so với các đối tác phân loại của chúng. Các số liệu như độ chính xác về cơ bản là tỷ lệ sẽ cần số lượng lớn các trường hợp thử nghiệm để thiết lập tính ưu việt của một phân loại so với phân loại khác.
Fleiss: "Phương pháp thống kê tỷ lệ và tỷ lệ" đưa ra ví dụ (và bảng) để so sánh tỷ lệ không ghép đôi . Để cho bạn ấn tượng về ý nghĩa của tôi với "kích thước mẫu khổng lồ", hãy xem hình ảnh trong câu trả lời của tôi cho câu hỏi khác này . Các thử nghiệm được ghép nối như McNemar cần ít trường hợp thử nghiệm hơn, nhưng IIRC vẫn trong trường hợp tốt nhất một nửa (?) Kích thước mẫu cần thiết cho thử nghiệm không ghép cặp.
Để mô tả hiệu suất của trình phân loại (đã được làm cứng), bạn thường cần một đường cong làm việc có ít nhất hai giá trị như ROC (độ nhạy so với độ đặc hiệu) hoặc tương tự.
Tôi hiếm khi sử dụng độ chính xác tổng thể hoặc AUC, vì các ứng dụng của tôi thường có các hạn chế, ví dụ như độ nhạy quan trọng hơn độ đặc hiệu hoặc các giới hạn nhất định đối với các biện pháp này phải được đáp ứng. Nếu bạn sử dụng các đặc điểm tổng hợp "một số", hãy đảm bảo rằng điểm làm việc của các mô hình bạn đang xem thực sự nằm trong một phạm vi hợp lý.
Để biết độ chính xác và các biện pháp hiệu suất khác tóm tắt hiệu suất cho một số lớp theo nhãn tham chiếu, hãy đảm bảo rằng bạn tính đến tần suất tương đối của các lớp mà bạn sẽ gặp trong ứng dụng - không nhất thiết giống như trong đào tạo hoặc kiểm tra dữ liệu.
Hiệu trưởng, F. et al. : Trường hợp chống lại ước tính chính xác để so sánh các thuật toán cảm ứng trong thủ tục của Hội nghị quốc tế lần thứ mười lăm về học máy, 1998
chỉnh sửa: so sánh nhiều phân loại
Tôi đã suy nghĩ về vấn đề này trong một thời gian, nhưng chưa đi đến một giải pháp (tôi cũng không gặp ai có giải pháp).
Đây là những gì tôi đã có cho đến nay:
Hiện tại, tôi quyết định rằng "tối ưu hóa là gốc rễ của mọi tội lỗi" và thay vào đó là một cách tiếp cận rất khác:
tôi quyết định càng nhiều càng tốt bởi kiến thức chuyên môn về vấn đề trong tay. Điều đó thực sự cho phép thu hẹp mọi thứ khá nhiều, do đó tôi thường có thể tránh so sánh mô hình. Khi tôi phải so sánh các mô hình, tôi cố gắng rất cởi mở và rõ ràng nhắc nhở mọi người về sự không chắc chắn của ước tính hiệu suất và việc so sánh nhiều mô hình đặc biệt là AFAIK vẫn là một vấn đề chưa được giải quyết.
Chỉnh sửa 2: kiểm tra ghép nối
Trong số mô hình, bạn có thể thực hiện so sánh giữa hai mô hình khác nhau (đó là một tình huống so sánh lớn), tôi không biết làm thế nào cho đúng. Tuy nhiên, cặp1n12( n2- n )của thử nghiệm chỉ đề cập đến thực tế là vì tất cả các mô hình đều được thử nghiệm với cùng một trường hợp thử nghiệm, bạn có thể chia các trường hợp thành các trường hợp "dễ" và "khó" một mặt, trong đó tất cả các mô hình đều đến đúng (hoặc sai) dự đoán. Họ không giúp phân biệt giữa các mô hình. Mặt khác, có những trường hợp "thú vị" được dự đoán chính xác bởi một số người, nhưng không phải bởi các mô hình khác. Chỉ những trường hợp "thú vị" này mới cần được xem xét để đánh giá sự vượt trội, cả những trường hợp "dễ" hay "khó" đều không giúp được điều đó. (Đây là cách tôi hiểu ý tưởng đằng sau bài kiểm tra của McNemar).
Đối với việc so sánh nhiều lần giữa các mô hình , tôi đoán một vấn đề là trừ khi bạn rất may mắn, càng nhiều mô hình bạn so sánh càng ít trường hợp bạn sẽ có thể loại trừ khỏi các cân nhắc thêm: ngay cả khi tất cả các mô hình đều thực sự bằng nhau hiệu suất tổng thể, ngày càng ít có khả năng một trường hợp kết thúc luôn được dự đoán chính xác (hoặc luôn luôn sai) bởi mô hình.nnn