Là mô hình được trang bị quá mức với AUC cao hơn trên mẫu thử tốt hơn so với không được cung cấp quá mức


7

tôi đang tham gia vào một cuộc trò chuyện trong đó tôi đã tạo ra một mô hình thực hiện 70% AUC trên tập tàu và 70% AUC trên tập kiểm tra tạm dừng.
Người tham gia khác đã tạo ra một mô hình thực hiện 96% AUC trên tập tàu và 76% AUC trên tập kiểm tra tạm dừng.

Theo ý kiến ​​của tôi, mô hình của tôi tốt hơn bởi vì nó thực hiện ở cùng cấp độ trên một bộ giữ ngoài.
Q: Có hợp lệ không khi cho rằng 76% của anh ấy trong một bộ thử nghiệm chỉ là sự trùng hợp ngẫu nhiên và trong một thử nghiệm khác, bộ mô hình của anh ấy có thể hoạt động kém hơn?


Làm thế nào bạn sẽ tranh luận chỉ có thể đạt được kết quả của anh ấy, không phải của bạn?
Firebug

Tôi đã có hiệu suất tương tự trong tập luyện, tập kiểm tra và tập giữ. Anh ta có 96% trong tập luyện, tôi không biết hiệu suất của anh ta trong testset là bao nhiêu và anh ta có 76% trong tập trung. Vì vậy, đối với tôi, có vẻ như mô hình của tôi đang tạo ra kết quả ổn định trong khi mô hình của anh ta được trang bị quá nhiều cho tập luyện và tôi không chắc chắn nếu được đưa ra mẫu mới, mô hình của anh ta sẽ tạo ra 76% tương tự.
MiksL

Câu trả lời:


6

Điều này sẽ phụ thuộc vào cách tập luyện và kiểm tra của bạn được sáng tác.

Nếu bộ kiểm tra khá lớn và phản ánh chính xác sự đa dạng dữ liệu của "trường hợp ứng dụng", tôi sẽ không tranh luận như thế này. Nhưng nếu dữ liệu kiểm tra khá nhỏ, tất nhiên bạn có thể đạt được một số kết quả tốt hoặc xấu một cách tình cờ. Sử dụng nhiều dữ liệu thử nghiệm sẽ hữu ích là những trường hợp như vậy (hoặc sử dụng một phần lớn hơn trong tổng số dữ liệu có sẵn - nếu có thể).

Hơn nữa, nên thu được kết quả đào tạo bằng cách sử dụng một số phân vùng bên trong (ví dụ: xác nhận chéo lặp lại), để kiểm tra dữ liệu mà mô hình chưa từng thấy trước đây. Hiệu suất và hiệu suất trải đều trên các kết quả đó cho bạn thấy mô hình của bạn thường hoạt động như thế nào và khả năng đạt được kết quả tốt hơn hay xấu hơn. Sử dụng một quy trình như vậy, tôi sẽ không coi bất kỳ kết quả kiểm tra nào tốt hơn kết quả CV của bạn là thực tế. Có lẽ bạn cũng nên xem và so sánh hiệu suất CV và hiệu suất lan truyền của cả hai mô hình.

Và: hãy nhớ rằng nếu dữ liệu đào tạo của bạn khá nhỏ so với dữ liệu thử nghiệm của bạn, kết quả đào tạo của bạn có thể vẫn tốt hơn đáng kể so với kết quả thử nghiệm và kết quả trường hợp ứng dụng thực tế của bạn.


3

Nếu sự tập trung hoàn toàn vào độ chính xác dự đoán, thì mô hình quá mức có lẽ tốt hơn. Ví dụ như một khu rừng ngẫu nhiên: Trên tập dữ liệu huấn luyện, bằng cách xây dựng, nó cực kỳ phù hợp. Tuy nhiên, kết quả trên bộ dữ liệu thử nghiệm thường khá hợp lý (và hiệu suất thử nghiệm gần với hiệu suất vượt túi đã nêu).

Điều này chỉ hoạt động nếu tập dữ liệu thử nghiệm phản ánh "trường hợp thực" và các giả định của các mô hình cơ bản được đáp ứng hợp lý.


Trọng tâm là để hiểu mô hình nào sẽ hoạt động tốt hơn trong tương lai nếu được đưa vào chế độ sản xuất.
MiksL

0

Hoàn toàn có thể (và trong một số tình huống nhất định) cũng bị quá mức trong bộ thử nghiệm. Các mô hình phù hợp phù hợp sẽ đạt được hiệu suất xác thực chéo tương tự trên cả tập dữ liệu huấn luyện và kiểm tra. Thực tiễn tốt nhất là cũng sẽ đưa ra một phần khác của bộ dữ liệu chỉ được sử dụng một lần: để đánh giá hiệu suất của mô hình trên dữ liệu mà nó chưa từng thấy.

Nếu bạn đang sử dụng bộ kiểm tra để xây dựng mô hình lặp đi lặp lại, hãy nói thêm một tính năng rồi xem cách nó xác thực trên bộ kiểm tra, bạn đang cung cấp thông tin mô hình về bộ kiểm tra. Cụ thể, bạn thiên vị kết quả của mình trên bộ kiểm tra sẽ cao hơn (nghĩa là bạn đang quá mức) nếu bạn điều chỉnh mô hình dựa trên hiệu suất của bộ kiểm tra.


3
(-1) Xin lỗi, tôi không đồng ý với điều này "Các mô hình phù hợp chính xác sẽ đạt được hiệu suất xác thực chéo tương tự trên cả tập dữ liệu huấn luyện và kiểm tra". Rừng ngẫu nhiên thường xuyên đạt được điểm số hoàn hảo trên dữ liệu xe lửa, chẳng hạn, bạn có nói rằng chúng không phù hợp?
Firebug
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.