Quá mức / Không phù hợp với kích thước tập dữ liệu


11

Trong biểu đồ dưới đây,

  • trục x => Kích thước tập dữ liệu
  • trục y => Điểm xác thực chéo

nhập mô tả hình ảnh ở đây

  • Đường màu đỏ là dành cho Dữ liệu đào tạo

  • Dòng màu xanh lá cây là để thử nghiệm dữ liệu

Trong một hướng dẫn mà tôi đang đề cập, tác giả nói rằng điểm mà đường màu đỏ và đường màu xanh chồng chéo có nghĩa là,

Thu thập thêm dữ liệu không có khả năng tăng hiệu suất tổng quát hóa và chúng tôi đang ở trong một khu vực mà chúng tôi có khả năng đánh giá thấp dữ liệu. Do đó, thật hợp lý khi thử với một mô hình có nhiều công suất hơn

Tôi hoàn toàn không thể hiểu ý nghĩa của cụm từ in đậm và cách nó xảy ra.

Đánh giá cao bất kỳ sự giúp đỡ.


Đường màu đỏ và màu xanh lá cây là gì?
Kasra Manshaei

1
@KasraManshaei: Tôi đã cập nhật câu hỏi.
tharindu_DG

1
Nếu có thể, hãy thêm liên kết vào hướng dẫn. Sẽ giúp chúng tôi hiểu câu trả lời và bối cảnh tốt hơn :)
Dawny33

@ Dawny33: Đây là một video hướng dẫn và tải lên nó sẽ vi phạm các vấn đề bản quyền mà tôi đoán. :)
tharindu_DG

Câu trả lời:


6

Vì vậy, việc thiếu tiền có nghĩa là bạn vẫn có khả năng cải thiện việc học của mình trong khi quá mức có nghĩa là bạn đã sử dụng một năng lực nhiều hơn mức cần thiết cho việc học.

Khu vực màu xanh lá cây là nơi lỗi kiểm tra tăng lên, tức là bạn nên tiếp tục cung cấp dung lượng (điểm dữ liệu hoặc độ phức tạp của mô hình) để đạt được kết quả tốt hơn. Nhiều đường màu xanh hơn, phẳng hơn, nghĩa là bạn đang đạt đến điểm mà dung lượng được cung cấp (là dữ liệu) là đủ và tốt hơn để thử cung cấp loại công suất khác là độ phức tạp của mô hình.

Nếu nó không cải thiện điểm kiểm tra của bạn hoặc thậm chí giảm nó, điều đó có nghĩa là sự kết hợp của Độ phức tạp dữ liệu bằng cách nào đó là tối ưu và bạn có thể ngừng đào tạo.


Cảm ơn bạn đã trả lời. Tôi có một vài sự mơ hồ. - Ở cuối biểu đồ, đường màu xanh lá cây và đường màu đỏ hội tụ. Điều đó không có nghĩa là chúng ta có đủ dữ liệu cho mô hình của mình sao? - Có thể có được độ chính xác tốt hơn từ tập kiểm tra so với tập huấn luyện không? - Hãy nói rằng chúng ta có một mô hình tốt hơn và biểu đồ đó sẽ như thế nào?
tharindu_DG

1
"Không có nghĩa là chúng tôi có đủ dữ liệu cho mô hình của mình sao?" Đó chính xác là những gì tôi đã viết. Có, bạn có đủ dữ liệu vì vậy nếu bạn muốn cải thiện, bạn nên thử độ phức tạp hơn. Dữ liệu là đủ. "Có thể có được độ chính xác tốt hơn từ tập kiểm tra so với tập huấn luyện không?" Tôi chưa bao giờ thấy một điều như vậy. Điều đó có thể xảy ra trong một thử nghiệm duy nhất nhưng không nói chung. Câu hỏi này có thể được dịch thành "Tôi có thể biết nhiều hơn những gì tôi biết không?" và câu trả lời là "Tất nhiên là không!"
Kasra Manshaei

1
"Hãy nói rằng chúng ta có một mô hình tốt hơn và biểu đồ đó trông như thế nào?" Tôi giả sử (bạn thử và cho tôi biết nếu tôi đúng :)) rằng cả đào tạo và kiểm tra đều cải thiện hoặc không phải trong số họ. Có thể việc đào tạo được cải thiện và kiểm tra giảm nhưng không phải ngược lại và cũng có thể cả hai đều cải thiện trong một thời gian sau đó kiểm tra rơi xuống được gọi là Quá mức. Bạn nên dừng tập luyện ở điểm kiểm tra điểm đang bắt đầu rơi
Kasra Manshaei

5

Trong khi Kasra Manshaei đưa ra một câu trả lời chung chung (+1), tôi muốn đưa ra một ví dụ dễ hiểu.

f:[0,1]R suất này rất hạn chế vì nó chỉ có thể phù hợp với hằng số. Về cơ bản, nó sẽ đoán giá trị trung bình (tất nhiên phụ thuộc vào hàm lỗi, nhưng giữ cho nó đơn giản). Vì vậy, tương đối nhanh chóng, bạn sẽ có một ước tính khá tốt về các tham số tốt nhất cho loại mô hình này là gì. Lỗi kiểm tra và huấn luyện của bạn sẽ gần như giống hệt nhau, bất kể bạn thêm bao nhiêu ví dụ. Vấn đề không phải là bạn không có đủ dữ liệu, vấn đề là mô hình của bạn không đủ mạnh: Bạnkhông phù hợp .

Vì vậy, hãy đi theo cách khác: Giả sử bạn có 1000 điểm dữ liệu. Biết một chút về toán học, bạn chọn một đa thức bậc 999. Bây giờ bạn có thể phù hợp với dữ liệu đào tạo một cách hoàn hảo. Tuy nhiên, dữ liệu của bạn có thể vừa với dữ liệu quá hoàn hảo. Ví dụ, xem (từ blog của tôi )

nhập mô tả hình ảnh ở đây

Trong trường hợp này, bạn có các mô hình khác cũng phù hợp với dữ liệu một cách hoàn hảo. Rõ ràng, mô hình màu xanh có vẻ không tự nhiên giữa các biểu dữ liệu. Bản thân mô hình có thể không thể nắm bắt tốt loại phân phối, do đó, việc hạn chế mô hình thành một thứ đơn giản hơn thực sự có thể giúp nó. Đây có thể là một ví dụ về quá mức .


1
Rất đẹp @moose! (+1) để hiểu được lời giải thích
Kasra Manshaei

0

Trong trường hợp của bạn, bạn có - một khoảng cách rất nhỏ (hoặc không) giữa các đường cong đào tạo và kiểm tra chỉ ra rằng mô hình có độ lệch / độ lệch cao, giải pháp: cần chọn một mô hình phức tạp hơn; - để hoàn thành, cần thêm một trường hợp ngược lại khi khoảng cách giữa các đường cong kiểm tra và thử nghiệm là rất lớn cho thấy phương sai / quá mức cao, các giải pháp: a) tiếp tục tăng Kích thước tập dữ liệu; b) chọn mô hình ít phức tạp hơn, c) làm chính quy.


0

Bạn có thể làm bất kỳ / tất cả những điều sau đây:

1) thay đổi các tính năng mà bạn đang cung cấp cho mô hình

2) chọn một mô hình khác nhau để làm việc với

3) tải thêm dữ liệu vào mô hình (có thể không phải là một tùy chọn cho bạn, nhưng thông thường đây là một tùy chọn)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.