Khi nào một Mô hình bị thiếu?


56

Logic thường nói rằng bằng cách tạo ra một mô hình, khả năng khái quát hóa của nó được tăng lên. Điều đó nói rằng, rõ ràng tại một số điểm, việc thiếu một mô hình khiến các mô hình trở nên tồi tệ hơn bất kể sự phức tạp của dữ liệu.

Làm thế nào để bạn biết khi mô hình của bạn đạt được sự cân bằng phù hợp và không làm thiếu dữ liệu mà nó tìm kiếm để mô hình hóa?


Lưu ý: Đây là phần tiếp theo cho câu hỏi của tôi, " Tại sao lại quá tệ? "


Tôi đoán bạn có nghĩa là, " Logic thường nói rằng bằng cách (hơn) làm mờ một mô hình, khả năng khái quát hóa của nó đã tăng lên. "
Rubens

Câu trả lời:


43

Một mẫu trang phục khi nó quá đơn giản liên quan đến dữ liệu mà nó đang cố gắng tạo mẫu.

Một cách để phát hiện tình huống như vậy là sử dụng phương pháp phương sai sai lệch , có thể biểu diễn như sau:

nhập mô tả hình ảnh ở đây

Mô hình của bạn bị thiếu hụt khi bạn có độ lệch cao.


Để biết liệu bạn có sai lệch quá cao hay phương sai quá cao, bạn xem hiện tượng về mặt đào tạo và kiểm tra lỗi:

Độ lệch cao: Đường cong học tập này cho thấy lỗi cao trên cả tập huấn luyện và kiểm tra, do đó thuật toán bị sai lệch cao:

nhập mô tả hình ảnh ở đây

Phương sai cao: Đường cong học tập này cho thấy một khoảng cách lớn giữa các lỗi tập huấn luyện và kiểm tra, do đó thuật toán đang bị sai lệch cao.

nhập mô tả hình ảnh ở đây

Nếu một thuật toán bị phương sai cao:

  • nhiều dữ liệu hơn có thể sẽ giúp
  • mặt khác làm giảm độ phức tạp của mô hình

Nếu một thuật toán bị sai lệch cao:

  • tăng độ phức tạp của mô hình

Tôi sẽ khuyên bạn nên xem khóa học Machine Learning của Coursera , phần "10: Lời khuyên cho việc áp dụng Machine Learning", từ đó tôi lấy các biểu đồ trên.


Ý của bạn là nói "tăng giảm độ phức tạp của mô hình" ở điểm đạn cuối cùng phải không? Tôi nghĩ chỉ cần "tăng độ phức tạp của mô hình". . . Thời gian tốt của BTW Tôi đã đăng ký khóa học đó và chỉ mới xem video mà bạn đang đề cập đến.
Neil Slater

@NeilSlater Cảm ơn, bắt tốt, thực sự có một lỗi đánh máy :)
Franck Dernoncourt

1
Bạn dường như cho rằng lỗi đào tạo là một ước tính đúng đắn của sai lệch. Sai lệch (đối với trường hợp đơn giản của hàm mất MSE) được định nghĩa là lỗi dự kiến ​​bạn mắc phải trên dữ liệu mới , khi bạn tính trung bình dự đoán của mình trên tất cả các tập huấn luyện khác nhau . Điều gì làm cho J_train (không được tính trung bình trên các tập huấn luyện và không sử dụng dữ liệu mới) là một ước tính đúng đắn về sai lệch?
tối đa

@FranckDernoncourt chúng ta có thể liên kết quá mức và thiếu cân đối với quy mô đào tạo so với dữ liệu thử nghiệm không? Chúng ta có thể nói rằng người mẫu được đào tạo trên bộ đồ tập nhỏ hơn không?
Sudip Bhandari

10

Để trả lời câu hỏi của bạn, điều quan trọng là phải hiểu khung tham chiếu mà bạn đang tìm kiếm, nếu bạn đang tìm kiếm những gì về mặt triết học mà bạn đang cố gắng đạt được trong mô hình phù hợp, hãy xem Rubens trả lời anh ấy làm tốt việc giải thích bối cảnh đó.

Tuy nhiên, trong thực tế, câu hỏi của bạn gần như được xác định hoàn toàn bởi các mục tiêu kinh doanh.

Để đưa ra một ví dụ cụ thể, giả sử rằng bạn là nhân viên cho vay, bạn đã phát hành khoản vay trị giá 3.000 đô la và khi mọi người trả lại cho bạn, bạn kiếm được 50 đô la . Đương nhiên, bạn đang cố gắng xây dựng một mô hình dự đoán nếu một người mặc định tiền vay. Hãy giữ điều này đơn giản và nói rằng các kết quả là thanh toán đầy đủ hoặc mặc định.

Từ góc độ kinh doanh, bạn có thể tổng hợp hiệu suất mô hình với ma trận dự phòng:

nhập mô tả hình ảnh ở đây

Khi mô hình dự đoán ai đó sẽ mặc định, phải không? Để xác định nhược điểm của hơn và dưới sự phù hợp, tôi thấy thật hữu ích khi nghĩ về nó như là một vấn đề tối ưu hóa, bởi vì trong mỗi mặt cắt ngang của hiệu suất mô hình thực tế của câu thơ dự đoán, có một chi phí hoặc lợi nhuận được tạo ra:

nhập mô tả hình ảnh ở đây

Trong ví dụ này dự đoán một mặc định là mặc định có nghĩa là tránh mọi rủi ro và dự đoán một mặc định không mặc định sẽ không tạo ra $ 50 cho mỗi khoản vay. Trường hợp mọi thứ trở nên tồi tệ là khi bạn sai, nếu bạn mặc định khi bạn dự đoán không mặc định, bạn sẽ mất toàn bộ tiền gốc và nếu bạn dự đoán mặc định khi khách hàng thực sự sẽ không phải chịu 50 đô la cơ hội. Những con số ở đây không quan trọng, chỉ là cách tiếp cận.

Với khuôn khổ này, bây giờ chúng ta có thể bắt đầu hiểu những khó khăn liên quan đến hơn và phù hợp.

Quá phù hợp trong trường hợp này có nghĩa là mô hình của bạn hoạt động tốt hơn nhiều so với dữ liệu thử nghiệm / phát triển của bạn sau đó nó sẽ được sản xuất. Hay nói cách khác, mô hình của bạn trong sản xuất sẽ kém hơn nhiều so với những gì bạn thấy trong quá trình phát triển, sự tự tin sai lầm này có thể sẽ khiến bạn phải nhận những khoản vay rủi ro hơn rất nhiều sau đó bạn sẽ rất dễ bị mất tiền.

Mặt khác, dưới sự phù hợp trong bối cảnh này sẽ để lại cho bạn một mô hình chỉ làm một công việc kém phù hợp với thực tế. Mặc dù kết quả của điều này có thể rất khó đoán, (từ ngược lại bạn muốn mô tả các mô hình dự đoán của bạn), thông thường những gì xảy ra là các tiêu chuẩn được thắt chặt để bù đắp cho điều này, dẫn đến khách hàng ít nói chung dẫn đến mất khách hàng tốt.

Phù hợp chịu đựng một loại khó khăn ngược lại mà phù hợp hơn, đó là phù hợp cho phép bạn tự tin thấp hơn. Ngẫu nhiên, việc thiếu dự đoán vẫn khiến bạn gặp rủi ro bất ngờ, tất cả đều là tin xấu.

Theo kinh nghiệm của tôi, cách tốt nhất để tránh cả hai tình huống này là xác thực mô hình của bạn trên dữ liệu hoàn toàn nằm ngoài phạm vi dữ liệu đào tạo của bạn, vì vậy bạn có thể tin tưởng rằng bạn có một mẫu đại diện về những gì bạn sẽ thấy 'trong tự nhiên '.

Ngoài ra, luôn luôn là một cách tốt để xác nhận lại các mô hình của bạn theo định kỳ, để xác định mô hình của bạn đang xuống cấp nhanh như thế nào và liệu nó có còn hoàn thành mục tiêu của bạn không.

Chỉ cần một số thứ, mô hình của bạn được trang bị khi nó làm việc kém trong việc dự đoán cả dữ liệu phát triển và sản xuất.


6

Mô hình là nhưng trừu tượng của những gì nhìn thấy trong cuộc sống thực. Chúng được thiết kế để loại bỏ nitty-gritties của hệ thống thực trong quan sát, trong khi vẫn giữ đủ thông tin để hỗ trợ phân tích mong muốn.

Nếu một mô hình quá phù hợp, nó sẽ tính đến quá nhiều chi tiết về những gì đang được quan sát và những thay đổi nhỏ trên đối tượng đó có thể khiến mô hình mất độ chính xác. Mặt khác, nếu một mô hình không phù hợp, nó sẽ đánh giá rất ít thuộc tính mà những thay đổi đáng chú ý trên đối tượng có thể bị bỏ qua.

Cũng lưu ý rằng underfit có thể được xem là một overfit , tùy thuộc vào tập dữ liệu. Nếu đầu vào của bạn có thể được phân loại chính xác 99% với một thuộc tính duy nhất, bạn điều chỉnh quá mức mô hình với dữ liệu bằng cách đơn giản hóa sự trừu tượng hóa thành một đặc điểm duy nhất. Và, trong trường hợp này, bạn sẽ khái quát quá nhiều 1% cơ sở vào lớp 99% - hoặc cũng chỉ định mô hình nhiều đến mức nó chỉ có thể nhìn thấy một lớp.

Một cách hợp lý để nói rằng một mô hình không hơn hoặc không phù hợp là bằng cách thực hiện xác nhận chéo. Bạn chia dữ liệu của bạn thành k phần và nói, chọn một trong số chúng để thực hiện phân tích của bạn, trong khi sử dụng các phần k - 1 khác để huấn luyện mô hình của bạn. Xem xét rằng bản thân đầu vào không bị sai lệch, bạn sẽ có thể có nhiều phương sai dữ liệu để đào tạo và đánh giá như bạn có trong khi sử dụng mô hình trong xử lý thực tế.


5

Đơn giản, một cách tiếp cận phổ biến là tăng độ phức tạp của mô hình, làm cho nó đơn giản và có thể là thiếu nhất lúc đầu, và tăng độ phức tạp của mô hình cho đến khi các dấu hiệu thừa của sớm được chứng kiến ​​bằng cách sử dụng kỹ thuật lấy mẫu lại như xác nhận chéo, bootstrap, Vân vân.

Bạn tăng độ phức tạp bằng cách thêm các tham số (số lượng nơ-ron ẩn cho mạng nơ-ron nhân tạo, số cây trong một khu rừng ngẫu nhiên) hoặc bằng cách thư giãn chính quy (thường được đặt tên là lambda hoặc C cho máy vectơ hỗ trợ) trong mô hình của bạn.


3

CAPM (Mô hình định giá tài sản vốn) trong Tài chính là một ví dụ kinh điển về mô hình hoạt động kinh doanh. Nó được xây dựng trên lý thuyết tuyệt đẹp rằng "Các nhà đầu tư chỉ trả tiền cho rủi ro mà họ không thể đa dạng hóa" nên lợi nhuận vượt quá dự kiến ​​sẽ tương đương với lợi nhuận thị trường.

Theo công thức [0] Ra = Rf + B (Rm - Rf) trong đó Ra là lợi nhuận kỳ vọng của tài sản, Rf là lãi suất phi rủi ro, Rm là tỷ suất lợi nhuận thị trường và Beta là mối tương quan với phí bảo hiểm Vốn chủ sở hữu (Rm - Rf)

Điều này là đẹp, thanh lịch, và sai. Các nhà đầu tư dường như đòi hỏi tỷ lệ cao hơn của các cổ phiếu nhỏ và giá trị (được xác định bằng sổ sách theo thị trường, hoặc tỷ suất cổ tức).

Fama và tiếng Pháp [1] đã trình bày bản cập nhật cho mô hình, bổ sung thêm Betas cho Kích thước và Giá trị.

Vậy làm thế nào để bạn biết theo nghĩa chung? Khi dự đoán bạn đưa ra là sai và một biến khác với lời giải thích hợp lý sẽ làm tăng chất lượng dự đoán. Thật dễ hiểu tại sao ai đó có thể nghĩ rằng cổ phiếu nhỏ là rủi ro, độc lập với rủi ro không đa dạng. Đó là một câu chuyện hay, được hỗ trợ bởi dữ liệu.

[0] http://www.investopedia.com/terms/c/capm.asp [1] http://en.wikipedia.org/wiki/Fama%E2%80%93Fbler_three-factor_model

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.