Điều gì nếu độ chính xác cao nhưng độ chính xác kiểm tra thấp trong nghiên cứu?


15

Tôi có một câu hỏi cụ thể về xác nhận trong nghiên cứu máy học.

Như chúng ta đã biết, chế độ học máy yêu cầu các nhà nghiên cứu đào tạo các mô hình của họ về dữ liệu đào tạo, chọn từ các mô hình ứng viên theo bộ xác nhận và báo cáo độ chính xác trên bộ thử nghiệm. Trong một nghiên cứu rất nghiêm ngặt, bộ thử nghiệm chỉ có thể được sử dụng một lần. Tuy nhiên, nó không bao giờ có thể là kịch bản nghiên cứu, bởi vì chúng tôi phải cải thiện hiệu suất của mình cho đến khi độ chính xác kiểm tra tốt hơn kết quả hiện đại trước khi chúng tôi có thể xuất bản (hoặc thậm chí gửi) một bài báo.

Bây giờ đến vấn đề. Giả sử 50% là kết quả tiên tiến nhất và mô hình của tôi nói chung có thể đạt được độ chính xác 50--51, trung bình tốt hơn.

Tuy nhiên, độ chính xác xác thực tốt nhất của tôi (52%) mang lại độ chính xác kiểm tra rất thấp, ví dụ: 49%. Sau đó, tôi phải báo cáo 49% là hiệu suất tổng thể của mình nếu tôi không thể cải thiện thêm xác nhận hợp lệ, điều mà tôi nghĩ là không có hy vọng. Điều này thực sự ngăn cản tôi nghiên cứu vấn đề, nhưng nó không thành vấn đề với các đồng nghiệp của tôi, vì họ không thấy acc 52%, mà tôi nghĩ là ngoại lệ.

Vì vậy, làm thế nào để mọi người thường làm trong nghiên cứu của họ?

xác thực ps k-Fold là không có ích, bởi vì tình huống tương tự vẫn có thể xảy ra.

Câu trả lời:


9

Theo định nghĩa, khi độ chính xác đào tạo (hoặc bất kỳ số liệu nào bạn đang sử dụng) cao hơn so với thử nghiệm của bạn, bạn có một mô hình overfit . Về bản chất, mô hình của bạn đã học được các chi tiết giúp nó hoạt động tốt hơn trong dữ liệu đào tạo của bạn không áp dụng được cho dân số dữ liệu lớn hơn và do đó dẫn đến hiệu suất kém hơn.

Tôi không chắc tại sao bạn nói xác nhận k-Fold sẽ không hữu ích. Mục đích của nó là để giúp tránh phù hợp với mô hình của bạn. Có lẽ bạn không có đủ dữ liệu? Một tuyên bố như thế này rất quan trọng, đặc biệt nếu bạn sẽ bảo vệ bất kỳ nghiên cứu nào khi các phương pháp xác thực chéo như vậy rất được khuyến khích.

Bạn nói rằng bạn không thể sử dụng bộ kiểm tra chỉ một lần (một lần nữa tôi giả sử cỡ mẫu nhỏ hơn?). Theo kinh nghiệm của tôi, con đường phổ biến nhất theo sau là xác thực chéo k-model của mô hình bạn. Hãy lấy một ví dụ với CV gấp 10 lần cho cỡ mẫu 100 và giả sử vấn đề phân loại của bạn là nhị phân để làm cho phép tính đơn giản. Do đó, tôi đã chia dữ liệu của mình thành 10 lần khác nhau . Sau đó, tôi phù hợp với mô hình của mình đến 9/10 lần và sau đó dự đoán 1/10 tôi bỏ đi. Đối với lần chạy đầu tiên này, ma trận nhầm lẫn kết quả là:

    0  1
0   4  1
1   2  3

Sau đó, tôi lặp lại phân tích này một lần nữa với tỷ lệ 1/10 tiếp theo còn lại và đào tạo vào ngày 9/10 khác. Và nhận được ma trận nhầm lẫn tiếp theo của tôi. Sau khi hoàn thành, tôi có 10 ma trận nhầm lẫn. Sau đó, tôi sẽ tổng hợp các ma trận này (vì vậy tôi đã dự đoán tất cả 100 mẫu) và sau đó báo cáo số liệu thống kê của mình (Độ chính xác, PPV, điểm F1, Kappa, v.v.). Nếu độ chính xác của bạn không phải là nơi bạn muốn nó sẽ có nhiều khả năng khác.

  1. Mô hình của bạn cần được cải thiện (thay đổi thông số)
  2. Bạn có thể cần thử một thuật toán học máy khác (không phải tất cả các thuật toán được tạo bằng nhau)
  3. Bạn cần thêm dữ liệu (mối quan hệ tinh tế khó tìm)
  4. Bạn có thể cần phải thử chuyển đổi dữ liệu của mình (phụ thuộc vào thuật toán được sử dụng)
  5. Có thể không có mối quan hệ giữa các biến phụ thuộc và độc lập của bạn

Thực tế của vấn đề là, một số liệu thử nghiệm thấp hơn (ví dụ như độ chính xác) so với đào tạo của bạn là biểu hiện của việc quá mức mô hình của bạn không phải là điều bạn muốn khi cố gắng tạo một mô hình dự đoán mới.


Cảm ơn vì nhắn lại. Điều tôi quan tâm là nghiên cứu về máy học cho các ấn phẩm, thay vì áp dụng các kỹ thuật học máy. Thông thường, điểm chuẩn cung cấp sự phân chia tiêu chuẩn của tập huấn luyện, xác nhận và kiểm tra. Hơn nữa, k-Fold chỉ cắt giảm phương sai. Tôi vẫn có thể gặp tình huống, nơi xác nhận (trung bình) của tôi. là cao nhưng acc thử nghiệm. chậm.
Mou

Đôi khi thật buồn cười là nếu tôi thiết kế lại mô hình của mình một chút, tôi có thể bỏ qua ngoại lệ vì mô hình của tôi (và do đó là lớp giả thuyết) thay đổi, nhưng điều này không hoạt động để điều chỉnh siêu âm bởi vì chúng tôi đang chọn một mô hình từ giả thuyết lớp học. Tuy nhiên, thực sự, chúng tôi, các nhà nghiên cứu, có lớp giả thuyết không xác định --- chúng tôi đang thử bất cứ thứ gì chúng tôi thích. Điều đó thực sự làm phiền tôi trong quá trình nghiên cứu, vì thông thường, sự khác biệt về độ chính xác thường rất nhỏ, nói là 0,1%.
Mou

@Mou, tôi đoán tôi vẫn không chắc chắn câu hỏi chính của bạn là gì. Dường như có nhiều câu hỏi. Đối phó với các ngoại lệ là một chủ đề khác nhau. Bạn đang cố gắng tối ưu hóa các tham số hoặc đánh giá một mô hình cuối cùng? Điều này có thể cụ thể cho một lĩnh vực khác nhau nhưng thay đổi 0,1% là không đáng kể. Bạn có thể theo đuổi các tùy chọn được liệt kê trong câu trả lời của tôi hoặc chấp nhận rằng bạn chỉ có thể nhận được rất nhiều từ mô hình và dữ liệu hiện tại. Mô hình vẫn có vẻ quá phù hợp (mặc dù hơi).
cdeterman

Tôi đồng ý với bạn. Tôi phải chấp nhận rằng mô hình của tôi không tốt lắm. Nhưng mấy ngày trước, khi cv acc cao. + acc thử nghiệm thấp. Không nhảy vào màn hình của tôi, mô hình của tôi là mô hình tốt nhất trên thế giới. Bây giờ, không phải mặc dù tôi không thay đổi gì cả. Hơn nữa, tôi không có hy vọng vượt trội hơn 52% trong cv acc., Điều này cản trở nghiên cứu của tôi, nhưng đồng nghiệp của tôi không cần phải lo lắng về điều đó.
Mou

Bạn phải thay đổi thứ gì đó để số thay đổi hoặc có một số ngẫu nhiên mà bạn chưa đặt seedđể tính đến độ tái lập. Tôi nghi ngờ thủ tục cv của bạn có một số ngẫu nhiên mà khi lặp lại có thể trả về kết quả hơi khác nhau (nhưng đây chỉ là dự đoán). Tôi thực sự khuyên bạn nên khám phá một số mô hình hoặc chuyển đổi dữ liệu khác để thử và cải thiện hiệu suất của bạn.
cdeterman
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.