Quá mức và thiếu


20

Tôi đã thực hiện một số nghiên cứu về quá mức và thiếu chất lượng, và tôi đã hiểu chính xác chúng là gì, nhưng tôi không thể tìm thấy lý do.

Các lý do chính cho việc thừa và thiếu là gì?

Tại sao chúng ta phải đối mặt với hai vấn đề này trong việc đào tạo một người mẫu?


Câu trả lời:


30

Tôi sẽ cố gắng trả lời theo cách đơn giản nhất. Mỗi vấn đề có nguồn gốc chính của nó:

Quá mức: Dữ liệu ồn ào, có nghĩa là có một số sai lệch so với thực tế (do lỗi đo lường, các yếu tố ngẫu nhiên có ảnh hưởng, các biến không quan sát được và tương quan rác) khiến chúng ta khó thấy mối quan hệ thực sự của chúng với các yếu tố giải thích. Ngoài ra, nó thường không hoàn thành (chúng tôi không có ví dụ về mọi thứ).

Ví dụ, giả sử tôi đang cố gắng phân loại con trai và con gái dựa trên chiều cao của họ, chỉ vì đó là thông tin duy nhất tôi có về họ. Chúng ta đều biết rằng mặc dù con trai cao hơn trung bình so với con gái, nhưng có một vùng chồng chéo rất lớn, khiến chúng không thể tách chúng ra một cách hoàn hảo chỉ với một chút thông tin. Tùy thuộc vào mật độ của dữ liệu, một mô hình đủ phức tạp có thể có thể đạt được tỷ lệ thành công tốt hơn cho nhiệm vụ này hơn là về mặt lý thuyết có thể được đào tạobộ dữ liệu bởi vì nó có thể vẽ các ranh giới cho phép một số điểm tự đứng một mình. Vì vậy, nếu chúng ta chỉ có một người cao 2,04 mét và là phụ nữ, thì người mẫu có thể vẽ một vòng tròn nhỏ xung quanh khu vực đó có nghĩa là một người ngẫu nhiên cao 2,04 mét rất có thể là phụ nữ.

Lý do cơ bản cho tất cả là tin tưởng quá nhiều vào dữ liệu đào tạo (và trong ví dụ, mô hình nói rằng vì không có người đàn ông nào có chiều cao 2.04, nên chỉ có thể đối với phụ nữ).

Underfising là vấn đề ngược lại, trong đó mô hình không nhận ra sự phức tạp thực sự trong dữ liệu của chúng tôi (tức là những thay đổi không ngẫu nhiên trong dữ liệu của chúng tôi). Mô hình giả định rằng tiếng ồn lớn hơn thực tế và do đó sử dụng hình dạng quá đơn giản. Vì vậy, nếu bộ dữ liệu có nhiều bé gái hơn con trai vì bất kỳ lý do gì, thì người mẫu có thể phân loại tất cả chúng giống như con gái.

Trong trường hợp này, mô hình không đủ tin tưởng vào dữ liệu và nó chỉ cho rằng độ lệch là tất cả nhiễu (và trong ví dụ, mô hình giả định rằng các chàng trai đơn giản là không tồn tại).

Điểm mấu chốt là chúng ta phải đối mặt với những vấn đề này bởi vì:

  • Chúng tôi không có thông tin đầy đủ.
  • Chúng tôi không biết dữ liệu ồn ào như thế nào (chúng tôi không biết chúng tôi nên tin tưởng bao nhiêu).
  • Chúng tôi không biết trước chức năng cơ bản đã tạo ra dữ liệu của mình và do đó độ phức tạp của mô hình tối ưu.

2
Chào mừng đến với CV. câu trả lời hay, khiến tôi muốn xóa câu trả lời của mình ...
Haitao Du

1
Tôi nghĩ rằng phần liên quan đến "vẽ ranh giới" và "vòng tròn" hơi khó hiểu ...
Easymode44 ngày

Tôi sẽ chỉ tranh luận rằng ví dụ về dự đoán chiều cao giữa nam và nữ rơi vào tình trạng thiếu cân hơn là quá mức.
Digio

6

Quá mức là khi một mô hình ước tính biến bạn đang lập mô hình thực sự tốt trên dữ liệu gốc, nhưng nó không ước tính tốt trên tập dữ liệu mới (giữ, xác thực chéo, dự báo, v.v.). Bạn có quá nhiều biến hoặc công cụ ước tính trong mô hình của mình (biến giả, v.v.) và những điều này khiến mô hình của bạn trở nên quá nhạy cảm với nhiễu trong dữ liệu gốc của bạn. Do quá nhiều nhiễu trong dữ liệu gốc của bạn, mô hình dự đoán kém.

Underfising là khi một mô hình không ước tính tốt biến trong dữ liệu gốc hoặc dữ liệu mới. Mô hình của bạn thiếu một số biến cần thiết để ước tính và dự đoán tốt hơn hành vi của biến phụ thuộc.

Hành động cân bằng giữa hơn và thiếu là thách thức và đôi khi không có vạch kết thúc rõ ràng. Trong mô hình chuỗi thời gian kinh tế lượng, vấn đề này được giải quyết khá tốt với các mô hình chính quy (LASSO, Hồi quy độ dốc, Mạng đàn hồi) được phục vụ đặc biệt để giảm quá mức bằng cách giảm tương ứng số lượng biến trong mô hình của bạn, giảm độ nhạy của các hệ số dữ liệu của bạn hoặc kết hợp cả hai.


5

Có lẽ trong quá trình nghiên cứu của bạn, bạn đã gặp phương trình sau:

Error = IrreducibleError + Bias² + Variance.

Tại sao chúng ta phải đối mặt với hai vấn đề này trong việc đào tạo một người mẫu?

Vấn đề học tập về cơ bản là một sự đánh đổi giữa sai lệchphương sai .

Các lý do chính cho việc thừa và thiếu là gì?

Ngắn: Tiếng ồn.

Long: Lỗi không thể sửa chữa : Lỗi / biến động đo lường trong dữ liệu cũng như một phần của chức năng đích không thể được mô tả bằng mô hình. Việc khôi phục biến mục tiêu hoặc thay đổi không gian giả thuyết (nghĩa là chọn một mô hình khác) sẽ thay đổi thành phần này.

Chỉnh sửa (để liên kết với các câu trả lời khác): Hiệu suất mô hình vì độ phức tạp rất đa dạng:

.

trong đó errorD là lỗi trên toàn bộ phân phối D (trong thực tế được ước tính với các bộ kiểm tra).


3
Tôi nghĩ bạn nên xác định thuật ngữ của bạn. OP không sử dụng cụm từ "thiên vị" hoặc "phương sai" trong câu hỏi, bạn không sử dụng cụm từ "thừa" hoặc "thiếu" trong câu trả lời của mình (ngoại trừ trong trích dẫn câu hỏi). Tôi nghĩ rằng đây sẽ là một câu trả lời rõ ràng hơn nhiều nếu bạn giải thích mối quan hệ giữa các điều khoản này.
Gregor

4

Hầu như tất cả các vấn đề thống kê có thể được nêu trong các hình thức sau đây:

  1. (y,x)f^y^=f^(x)

  2. f^ff

y=f(x)+ε

f^y^yf^εff

f^f~f

Nếu bạn nhìn vào vấn đề thống kê theo cách này, việc phù hợp với mô hình luôn là sự cân bằng giữa thiếu và thừa và bất kỳ giải pháp nào luôn là một sự thỏa hiệp. Chúng tôi phải đối mặt với vấn đề này vì dữ liệu của chúng tôi là ngẫu nhiên và ồn ào.


2

Các lý do chính cho việc thừa và thiếu là gì?

Đối với quá mức, mô hình quá phức tạp để phù hợp với dữ liệu đào tạo. Đối với underfising, mô hình là quá đơn giản.

Tại sao chúng ta phải đối mặt với hai vấn đề này trong việc đào tạo một người mẫu?

Thật khó để chọn mô hình và tham số "vừa phải" cho dữ liệu.


0

Quá mức và quá mức về cơ bản là những giải thích không đầy đủ về dữ liệu bởi một mô hình được đưa ra giả thuyết và có thể được xem là mô hình quá mức hoặc không thể xác định được dữ liệu. Điều này được tạo ra bởi mối quan hệ giữa mô hình được sử dụng để giải thích dữ liệu và mô hình tạo dữ liệu. Trong nỗ lực giải thích, chúng tôi không thể truy cập vào mô hình cơ bản để phán đoán của chúng tôi được hướng dẫn bởi một yếu tố khác: sự không chắc chắn hoặc thanh lỗi.

Khi, trong một nỗ lực để phù hợp với tất cả các phương sai, chúng tôi sử dụng một mô hình quá phức tạp, chúng tôi đang quá mức. Điều này được tạo ra bởi chúng tôi có sự thống trị miễn phí trong lựa chọn mô hình và theo mức độ quá quan trọng đối với các thanh lỗi (hoặc cố gắng giải thích tất cả các biến thiên, giống nhau). Khi giới hạn bản thân vào một mô hình quá đơn giản để mô tả dữ liệu và không gán đủ tầm quan trọng cho các thanh lỗi (hoặc không giải thích về tính biến đổi), chúng tôi đang thiếu.

Làm thế nào người ta có thể tránh được hai điều này? Các mô hình được hỗ trợ thông tin (không xuất phát từ dữ liệu mà từ kiến ​​thức trước về vấn đề) và các yếu tố không chắc chắn có ý nghĩa.


0

Tóm lại, quá mức xuất hiện là kết quả của các mẫu xuất hiện trong tập dữ liệu đào tạo của bạn nhưng không có trên toàn bộ dân số (chúng có vẻ không may mắn) Nếu bạn sử dụng một mô hình đơn giản (ví dụ như hồi quy tuyến tính), có nguy cơ bị quá mức là thấp, vì số lượng mẫu có thể phát hiện được là nhỏ và do đó, khả năng một trong những mẫu hiển thị ngẫu nhiên trong mẫu cũng không lớn. Một ví dụ về điều này có thể xảy ra nếu bạn cố gắng nghiên cứu tương quan 1.000.000 biến trên một dân số lấy mẫu 100 cá nhân. Một số tính năng có thể ngẫu nhiên trình bày một mối tương quan mẫu rất lớn mặc dù hoàn toàn độc lập với nhau

Một lý do khác cho việc quá mức là lấy mẫu sai lệch ("mẫu giả mẫu" ở đó vì mẫu không thực sự ngẫu nhiên) Ví dụ, nếu bạn muốn nghiên cứu kích thước trung bình của một loại nấm nhất định bằng cách đi ra ngoài và tìm thấy chúng trong tự nhiên , bạn có thể đánh giá quá cao nó (nấm lớn hơn dễ tìm hơn)

Mặt khác, mặt khác là một hiện tượng khá đơn giản. Nó có thể có nghĩa là hai điều rất cơ bản: A) Chúng tôi không có đủ dữ liệu cho mô hình để tìm hiểu mô hình dân số hoặc B) Mô hình của chúng tôi không đủ mạnh để phản ánh nó.

y=ax+ϵϵ

y=x2+ϵ


0

Câu trả lời ngắn:

Lý do chính cho việc quá mức là sử dụng một mô hình phức tạp khi bạn có một bộ huấn luyện nhỏ.

Lý do chính cho việc đánh giá thấp là sử dụng một mô hình quá đơn giản và không thể thực hiện tốt trên tập huấn luyện.


Lý do chính cho quá mức?

  • Các mô hình có công suất cao có thể phù hợp hơn bằng cách ghi nhớ các thuộc tính của tập huấn luyện không phục vụ chúng tốt trên tập kiểm tra.

-Deep cuốn sách học tập, Goodfellow et al.

Mục tiêu của học máy là đào tạo một mô hình về tập huấn với hy vọng nó sẽ thực hiện tốt trên dữ liệu thử nghiệm. Nhưng có được hiệu suất tốt trên tập huấn luyện luôn chuyển thành hiệu suất tốt trên tập kiểm tra không? Nó sẽ không, bởi vì dữ liệu đào tạo của bạn bị hạn chế . Nếu bạn có dữ liệu hạn chế, mô hình của bạn có thể tìm thấy một số mẫu hoạt động cho tập huấn luyện giới hạn đó, nhưng các mẫu đó không khái quát cho các trường hợp khác (ví dụ: bộ kiểm tra). Điều này có thể được giải quyết bằng một trong hai cách sau:

A- Cung cấp một tập huấn luyện lớn hơn cho mô hình để giảm khả năng có các mẫu tùy ý trong tập huấn luyện.

B- Sử dụng một mô hình đơn giản hơn để mô hình sẽ không thể tìm thấy các mẫu tùy ý đó trong tập huấn luyện. Một mô hình phức tạp hơn sẽ có thể tìm thấy các mẫu phức tạp hơn, vì vậy bạn cần nhiều dữ liệu hơn để đảm bảo tập huấn luyện của bạn đủ lớn để không chứa các mẫu tùy ý.

(ví dụ: Hãy tưởng tượng bạn muốn dạy một mô hình phát hiện tàu từ xe tải và bạn có 10 hình ảnh của mỗi chiếc. Nếu hầu hết các tàu trong hình ảnh của bạn ở dưới nước, mô hình của bạn có thể học cách phân loại bất kỳ hình ảnh nào có nền màu xanh là tàu. Bây giờ, nếu bạn có 10.000 hình ảnh của tàu và xe tải, bộ huấn luyện của bạn có nhiều khả năng chứa tàu và xe tải ở nhiều nền khác nhau và mô hình của bạn không còn chỉ dựa vào nền màu xanh nữa.)

Lý do chính cho việc đánh giá thấp?

  • Việc thiếu hụt xảy ra khi mô hình không thể có được giá trị lỗi đủ thấp trên tập huấn luyện.

  • Các mô hình với công suất thấp có thể đấu tranh để phù hợp với tập huấn luyện.

-Deep cuốn sách học tập, Goodfellow et al.

Thiếu cân bằng xảy ra khi mô hình của bạn không đủ tốt để học tập huấn luyện, có nghĩa là mô hình của bạn quá đơn giản. Bất cứ khi nào chúng tôi bắt đầu giải quyết vấn đề, chúng tôi muốn một mô hình ít nhất có thể có được hiệu suất tốt trên tập huấn luyện, và sau đó chúng tôi bắt đầu nghĩ đến việc giảm quá mức. Nói chung, giải pháp cho việc đánh giá thấp là khá đơn giản: Sử dụng một mô hình phức tạp hơn.


0

Hãy xem xét một ví dụ trong đó chúng ta có một phương trình giả thuyết / mô hình,

y=q*X+c,

Trong đó X = danh sách tính năng, y = nhãn và q và c là các hệ số mà chúng tôi phải đào tạo.

Nếu chúng ta đưa ra các giá trị hệ số sao cho nó đủ lớn và bắt đầu triệt tiêu giá trị tính năng (tức là X) trong trường hợp đó, chúng ta luôn nhận được giá trị không đổi của y, bất kể giá trị X nào. Điều này được gọi là mô hình rất thiên vị hoặc underfit.

Hãy xem xét một ví dụ giả thuyết phức tạp khác,

y=q*X+r*sqr(X)+s*cube(X)+c, where q,r,s and c are the coefficients.

Sau khi xác định giá trị hệ số tốt nhất, có thể là đối với dữ liệu đào tạo, chúng tôi có thể nhận được tổn thất tối thiểu. Chỉ bởi vì chúng tôi đã làm cho mô hình của chúng tôi trở nên phức tạp và kết hợp chặt chẽ đến mức nó hoạt động rất tốt với dữ liệu đào tạo. Trong khi đó với dữ liệu không nhìn thấy, chúng ta có thể nhận được kết quả khá trái ngược. Điều này được gọi là mô hình rất đa dạng hoặc quá phù hợp.

Mô hình thiên vị cần phức tạp hơn trong lựa chọn Mô hình trong khi mô hình biến thiên cao cần giảm độ phức tạp trong lựa chọn mô hình. Kỹ thuật chính quy có thể giúp chúng ta xác định mức độ phức tạp của mô hình phù hợp và thông qua kỹ thuật này, chúng ta có thể khắc phục với cả hai vấn đề.


Bạn có thể sử dụng định dạng toán học trong câu trả lời của bạn. Thêm thông tin: math.meta.stackexchange.com/questions/5020/NH
Sycorax nói Phục hồi lại
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.