Quá mức vào mục đích


8

Nó sẽ có ý nghĩa để phù hợp với một mô hình trên mục đích?

Nói rằng tôi có một trường hợp sử dụng mà tôi biết dữ liệu sẽ không thay đổi nhiều so với dữ liệu đào tạo.

Tôi đang suy nghĩ ở đây về dự đoán lưu lượng, trong đó trạng thái giao thông tuân theo một tập các mẫu cố định

  • đi làm buổi sáng
  • hoạt động ban đêm
  • và như thế.

Những mô hình này sẽ không thay đổi nhiều trừ khi có sự gia tăng đột ngột của người dùng xe hơi hoặc những thay đổi lớn trong cơ sở hạ tầng đường bộ. Trong trường hợp này, tôi muốn mô hình càng thiên vị nhất có thể đối với các mẫu mà nó đã học trong dữ liệu hiện tại, giả sử rằng trong tương lai mẫu và dữ liệu sẽ rất giống nhau.


Điều này có vẻ rất tẻ nhạt, nếu bạn đảm bảo rằng dữ liệu sẽ không thay đổi, bạn có thể phù hợp với mô hình và đạt được hiệu suất tốt hơn, nhưng điều này nghe có vẻ là một ý tưởng tồi.
dùng2974951

1
Nó là. Nhưng mặt khác, tôi cảm thấy rằng đó sẽ không phải là một ý tưởng tồi nếu tôi biết dữ liệu sẽ không thay đổi nhiều. Tôi đang viết những suy nghĩ của mình ở đây để ai đó có thể chứng minh rằng tôi đã nhầm.
Brandon

5
Nếu hiệu suất dự đoán ngoài mẫu của mô hình của bạn (tức là trên dữ liệu trong tương lai) không tệ hơn hiệu suất trên dữ liệu hiện tại của bạn, thì tôi sẽ nói rằng về mặt kỹ thuật bạn không thực sự thừa. Bạn đang quá mức khi bạn điều chỉnh nhiễu trong dữ liệu hiện tại của mình và điều đó sẽ luôn dẫn đến những dự đoán tồi tệ hơn về dữ liệu mới. Bạn sẽ có thể đặt mô hình của mình ở mức độ phức tạp chính xác bằng cách sử dụng xác thực chéo.
matteo

2
Trong một nghiên cứu, một đối tượng được yêu cầu điều chỉnh quá mức một số dữ liệu và sau đó họ đã trúng xổ số. Nghiên cứu kết luận rằng dữ liệu quá mức luôn là một điều tốt.
Nat

Câu trả lời:


4

Nói chung, nó không có ý nghĩa để phù hợp với dữ liệu của bạn trên mục đích. Vấn đề là rất khó để đảm bảo rằng các mẫu cũng xuất hiện trong phần không được bao gồm trong dữ liệu của bạn. Bạn phải xác nhận rằng có mẫu trong dữ liệu. Một khả năng để làm như vậy là khái niệm về văn phòng phẩm.


Những gì bạn mô tả nhắc nhở tôi về sự đứng đắn và tính công bằng. Từ một khía cạnh bối cảnh / kinh doanh, bạn cho rằng chuỗi thời gian của bạn tuân theo các mẫu nhất định. Những mô hình này được gọi là văn phòng phẩm hoặc ergodility.

Định nghĩa văn phòng phẩm:

Một quá trình đứng yên là một quá trình ngẫu nhiên mà phân phối xác suất chung vô điều kiện không thay đổi khi thay đổi theo thời gian. Do đó, các tham số như giá trị trung bình và phương sai cũng không thay đổi theo thời gian.

Định nghĩa tính linh hoạt:

Một quy trình ergodic là một quá trình liên quan đến hoặc biểu thị các hệ thống hoặc quy trình với thuộc tính, khi có đủ thời gian, chúng bao gồm hoặc nhúng vào tất cả các điểm trong một không gian nhất định và có thể được biểu thị bằng thống kê bởi một số điểm lớn.


Bây giờ bạn muốn chắc chắn rằng nó thực sự tuân theo các mẫu nhất định này. Bạn có thể làm điều này, ví dụ với kiểm tra gốc Đơn vị (như Dickey-Fuller) hoặc kiểm tra Stationarity (như KPSS).

Định nghĩa Kiểm tra gốc đơn vị:

H0: Có một đơn vị gốc.

H1: Không có gốc đơn vị. Điều này ngụ ý trong hầu hết các trường hợp văn phòng phẩm.

Định nghĩa Kiểm tra Stationarity:

H0: Có văn phòng phẩm.

H1: Không có văn phòng phẩm.

Đọc thêm:

Sự khác biệt giữa kiểm tra cố định và kiểm tra gốc đơn vị là gì?


Chuỗi thời gian thực sự tuân theo các dự báo và dự báo mẫu này sẽ "dễ dàng hơn từ quan điểm thống kê", ví dụ bạn có thể áp dụng các mô hình kinh tế lượng để dự báo như ARIMA hoặc TBATS. Câu trả lời của tôi liên quan đến chuỗi thời gian đơn biến và cũng đa biến nếu bạn có văn phòng dữ liệu cắt ngang và gốc đơn vị không phải là khái niệm phổ biến.


8

Không, nó không có ý nghĩa để phù hợp với dữ liệu của bạn.

Thuật ngữ quá mức thực sự đề cập đến so sánh giữa các mô hình: Nếu model_a hoạt động tốt hơn trên dữ liệu đào tạo đã cho nhưng kém mẫu hơn so với model_b , model_a là quá mức. Hay nói cách khác: " tồn tại một sự thay thế tốt hơn ".

Nếu trạng thái lưu lượng "hoàn toàn không thay đổi đối với dữ liệu đào tạo", thì bạn sẽ đạt được kết quả tốt nhất có thể bằng cách ghi nhớ dữ liệu đào tạo (một lần nữa, đó không phải là "quá mức").

Nhưng "dữ liệu sẽ không thay đổi nhiều so với dữ liệu huấn luyện" chỉ đơn giản tương đương với việc có một biểu diễn hợp lý của mẫu cơ bản. Đây là nơi học máy hoạt động tốt nhất ( môi trường đứng yên như Ferdi đã giải thích ).


Okey. Vì vậy, có lẽ tốt hơn để nói rằng chúng tôi tăng sự thiên vị về mục đích. Tôi đã nói điều này bởi vì tôi đang đọc về sự thiên vị so với sự đánh đổi phương sai và nó có ý nghĩa với tôi để có sự thiên vị cao hơn cho trường hợp sử dụng lưu lượng truy cập.
Brandon

thuật toán + điều chỉnh sẽ cho bạn kết quả tốt nhất có thể (tối ưu hóa sự đánh đổi).
Laksan Nathan

+1 nhưng tôi không nghĩ rằng "có tồn tại một sự thay thế tốt hơn" xuất phát từ việc quá mức.
kbrose

4

Tôi có thể nói rằng, có ý nghĩa để phù hợp với dữ liệu của bạn, nhưng chỉ cho mục đích nghiên cứu. (Không sử dụng mô hình quá mức trong sản xuất!)

Trong trường hợp khi dữ liệu có thể phức tạp và nhiệm vụ không tầm thường, cố gắng vượt qua một mô hình có thể là một bước quan trọng!

Nếu bạn có thể phù hợp với một mô hình - điều đó có nghĩa là dữ liệu có thể được mô tả bởi mô hình.

Nếu bạn thậm chí không thể quá sức - nó có thể cung cấp cho bạn manh mối để điều tra:

  • dữ liệu của bạn chưa sẵn sàng để được mô hình hóa, vì vậy bạn sẽ cần phải chuẩn bị thêm dữ liệu / kỹ thuật tính năng
  • mô hình của bạn quá đơn giản và không thể nắm bắt tất cả các phụ thuộc dữ liệu
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.