Tại sao các nhà nghiên cứu sử dụng xác nhận chéo 10 lần thay vì kiểm tra trên bộ xác thực?


23

Tôi đã đọc rất nhiều tài liệu nghiên cứu về phân loại tình cảm và các chủ đề liên quan.

Hầu hết trong số họ sử dụng xác nhận chéo 10 lần để đào tạo và kiểm tra phân loại. Điều đó có nghĩa là không có kiểm tra / xác nhận riêng biệt được thực hiện. Tại sao vậy?

Những lợi thế / bất lợi của phương pháp này, đặc biệt đối với những người làm nghiên cứu là gì?


3
Bạn có chắc chắn không có thử nghiệm riêng biệt được thực hiện?
Douglas Zare

Câu trả lời:


17

Đây không phải là vấn đề nếu CV được lồng , tức là tất cả các tối ưu hóa, lựa chọn tính năng và lựa chọn mô hình, cho dù chính chúng có sử dụng CV hay không, được gói trong một CV lớn.

Làm thế nào điều này so với việc có một bộ xác nhận thêm? Mặc dù bộ xác thực thường chỉ là một phần được chọn ngẫu nhiên ít nhiều trong toàn bộ dữ liệu, nó chỉ đơn giản là một phần tương đương với một lần lặp CV. Cuối cùng, đây thực sự là một phương pháp tồi tệ hơn bởi vì nó có thể dễ dàng bị sai lệch bởi (hy vọng) may mắn / được chọn không hợp lệ hoặc bộ xác nhận chọn anh đào.

Ngoại lệ duy nhất này là chuỗi thời gian và dữ liệu khác trong đó thứ tự đối tượng quan trọng; nhưng họ yêu cầu điều trị đặc biệt


16

Lý do chính là công cụ ước tính xác thực chéo k-gấp có phương sai thấp hơn so với công cụ ước tính bộ giữ đơn, điều này có thể rất quan trọng nếu số lượng dữ liệu có sẵn bị hạn chế. Nếu bạn có một bộ giữ riêng lẻ, trong đó 90% dữ liệu được sử dụng cho đào tạo và 10% được sử dụng để thử nghiệm, bộ thử nghiệm rất nhỏ, do đó sẽ có rất nhiều biến thể trong ước tính hiệu suất cho các mẫu dữ liệu khác nhau, hoặc cho các phân vùng khác nhau của dữ liệu để hình thành các bộ kiểm tra và huấn luyện. xác thực k-Fold làm giảm phương sai này bằng cách lấy trung bình trên k các phân vùng khác nhau, vì vậy ước tính hiệu suất ít nhạy cảm hơn với phân vùng dữ liệu. Bạn có thể đi xa hơn nữa bằng cách xác thực chéo k lặp lại, trong đó xác thực chéo được thực hiện bằng cách sử dụng các phân vùng khác nhau của dữ liệu để tạo thành các tập hợp con k,

Tuy nhiên, lưu ý, tất cả các bước của quy trình khớp mô hình (lựa chọn mô hình, lựa chọn tính năng, v.v.) phải được thực hiện độc lập trong mỗi lần của quy trình xác thực chéo hoặc ước tính hiệu suất kết quả sẽ bị sai lệch một cách tối ưu.


9

[EDITED trong ánh sáng của bình luận]

Tôi nghĩ rằng có một vấn đề nếu bạn sử dụng kết quả CV để chọn trong số nhiều mô hình.

CV cho phép bạn sử dụng toàn bộ tập dữ liệu để đào tạo và kiểm tra một mô hình / phương pháp, trong khi có thể có một ý tưởng hợp lý về việc nó sẽ khái quát tốt như thế nào. Nhưng nếu bạn đang so sánh nhiều mô hình, thì bản năng của tôi là so sánh mô hình sử dụng mức độ cô lập kiểm tra tàu cao hơn mà CV mang lại cho bạn, vì vậy kết quả cuối cùng sẽ không phải là ước tính hợp lý về độ chính xác của mô hình đã chọn.

Vì vậy, tôi đoán rằng nếu bạn tạo một số mô hình và chọn một mô hình dựa trên CV của nó, bạn sẽ quá lạc quan về những gì bạn đã tìm thấy. Một bộ xác nhận khác sẽ là cần thiết để xem người chiến thắng khái quát như thế nào.


Cảm ơn bạn. Đúng rồi. Nhưng câu hỏi của tôi là đặc biệt về lý do tại sao các bài báo nghiên cứu thiếu xác nhận cuối cùng? Có một lý do thích hợp? Có phải là về ít dữ liệu hơn hay vì CV hoạt động tốt và không cần xác thực riêng biệt?
user18075

5
Y

7
  • Theo kinh nghiệm của tôi, lý do chính thường là bạn không có đủ mẫu.
    Trong lĩnh vực của tôi (phân loại mẫu sinh học / y tế), đôi khi một bộ xét nghiệm được giữ riêng biệt, nhưng thường nó chỉ bao gồm một vài trường hợp. Trong trường hợp đó, khoảng tin cậy thường quá rộng để sử dụng.

  • Một ưu điểm khác của xác thực chéo / lặp lại hoặc xác thực ngoài bootstrap là bạn xây dựng một loạt các mô hình "thay thế". Đây được coi là bằng nhau. Nếu không, các chế độ không ổn định. Bạn thực sự có thể đo lường sự không ổn định này (liên quan đến việc trao đổi một vài trường hợp đào tạo) bằng cách so sánh chính các mô hình thay thế hoặc các dự đoán các mô hình thay thế khác nhau cho cùng một trường hợp.

  • Bài viết này của Esbensen & Geladi đưa ra một cuộc thảo luận tốt đẹp về một số hạn chế của xác nhận chéo.
    Bạn có thể chăm sóc hầu hết trong số họ, nhưng một điểm quan trọng không thể giải quyết bằng cách lấy lại xác thực là trôi dạt, có liên quan đến điểm của mbq:

    Ngoại lệ duy nhất này là chuỗi thời gian và dữ liệu khác trong đó thứ tự đối tượng quan trọng

    Độ lệch có nghĩa là ví dụ phản hồi / hiệu chuẩn thực của thiết bị thay đổi chậm theo thời gian. Vì vậy, lỗi tổng quát hóa cho các trường hợp chưa biết có thể không giống như đối với các trường hợp chưa biết trong tương lai . Bạn đến các hướng dẫn như "làm lại hiệu chuẩn hàng ngày / hàng tuần / ..." nếu bạn thấy trôi dạt trong quá trình xác nhận, nhưng điều này cần các bộ kiểm tra có được một cách có hệ thống muộn hơn dữ liệu huấn luyện.
    (Bạn có thể thực hiện các phân chia "đặc biệt" có tính đến thời gian thu thập tài khoản, nếu thử nghiệm của bạn được lên kế hoạch theo từng giai đoạn, nhưng thường thì điều này sẽ không bao gồm nhiều thời gian như bạn muốn kiểm tra để phát hiện trôi dạt)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.