Một ví dụ trong thế giới thực của việc vượt quá giới hạn là gì?


107

Tôi hiểu được "quá mức" nghĩa là gì, nhưng tôi cần sự giúp đỡ về cách đưa ra một ví dụ trong thế giới thực áp dụng cho việc quá mức.


12
Có lẽ bạn có thể giải thích những gì bạn 'hiểu' về 'việc quá mức nghĩa là gì', để mọi người có thể giải quyết những phần bạn không hiểu mà không cần phải đoán những điều này có thể là gì?
goangit

3
@ssdecontrol Mối tương quan giả không phải là quá mức. Trong thực tế, tương quan giả không cần phải có một mô hình rõ ràng và mô hình ẩn thường là một đường thẳng có hai tham số.
Nick Cox

1
@whuber: Điều này có lẽ sẽ phù hợp hơn để thảo luận về meta, nhưng tôi đã ngạc nhiên khi thấy bạn đã chuyển đổi bài đăng này sang wiki cộng đồng. Điều đó không có nghĩa là OP sẽ không tăng danh tiếng cho các lần nâng cấp trong tương lai? Đối với tôi nó trông giống như một "hình phạt" đối với anh ta; lý do cho điều đó là gì?
amip

4
@amoeba Đó không phải là hình phạt: câu hỏi này như đã nêu rõ ràng không có ai trả lời đúng hay chính tắc. Ở dạng ban đầu là một câu hỏi không phải CW, kết quả là không có chủ đề - và nên nhanh chóng bị đóng cửa, BTW - nhưng vì có thể có giá trị khi có một số ví dụ hay được cộng đồng tạo ra, tạo ra trạng thái CW thay vì đóng cửa nó dường như là một giải pháp hợp lý.
whuber

17
Cho đến nay rất ít trong số những câu trả lời này (chỉ có hai trong số 11!) Thậm chí còn cố gắng giải quyết câu hỏi, yêu cầu một ví dụ thực tế . Điều đó có nghĩa là không phải là một mô phỏng, không phải là một ví dụ lý thuyết, không phải là phim hoạt hình, mà là một mô hình được áp dụng nghiêm túc vào dữ liệu thực tế. Cũng lưu ý rằng, câu hỏi rõ ràng cố gắng lèo lái câu trả lời khỏi những lời giải thích về việc quá mức là gì.
whuber

Câu trả lời:


96

Dưới đây là một ví dụ hay về các mô hình chuỗi thời gian bầu cử tổng thống từ xkcd: nhập mô tả hình ảnh ở đây

Chỉ có 56 cuộc bầu cử tổng thống và 43 tổng thống. Đó không phải là nhiều dữ liệu để học hỏi. Khi không gian dự đoán mở rộng để bao gồm những thứ như có răng giả và giá trị điểm Scrabble của tên, mô hình khá dễ dàng để phù hợp với các tính năng tổng quát của dữ liệu (tín hiệu) và bắt đầu khớp với nhiễu. Khi điều này xảy ra, sự phù hợp với dữ liệu lịch sử có thể được cải thiện, nhưng mô hình sẽ thất bại thảm hại khi được sử dụng để suy luận về các cuộc bầu cử tổng thống trong tương lai.


15
Tôi nghĩ bạn nên thêm một cái gì đó về thiên vị mẫu để giải thích điều này liên quan đến việc quá mức. Chỉ cần cắt và dán phim hoạt hình là thiếu lời giải thích.
Neil Slater

5
Một tính năng hay của ví dụ này là nó thể hiện sự khác biệt giữa quá mức và độ phức tạp. Quy tắc "Như đi California, quốc gia cũng vậy" rất đơn giản, nhưng vẫn quá phù hợp.
Tom Minka

2
@TomMinka trong thực tế, quá mức có thể được gây ra bởi sự phức tạp (một mô hình quá phức tạp để phù hợp với dữ liệu quá đơn giản, do đó, các tham số bổ sung sẽ phù hợp với bất cứ điều gì có trong tay) hoặc, như bạn đã chỉ ra, bởi các tính năng ồn ào có trọng số hơn trong quyết định hơn là thích hợp đặc trưng. Và có rất nhiều nguồn có thể khác của quá mức (phương sai nội tại của dữ liệu hoặc mô hình, dữ liệu không phù hợp để thể hiện mục tiêu mục tiêu, v.v.). Tôi nghĩ rằng chúng ta phải nói rằng có overfitting s , không chỉ overfitting (mà ngụ ý rằng chỉ có một nguyên nhân, mà thường là không đúng).
gabious 12/12/14

80

Yêu thích của tôi là ví dụ Matlab về dân số điều tra dân số Hoa Kỳ theo thời gian:

  • Một mô hình tuyến tính là khá tốt
  • Một mô hình bậc hai gần hơn
  • Một mô hình quartic dự đoán tổng hủy diệt bắt đầu từ năm tới

(Ít nhất tôi chân thành hy vọng đây là một ví dụ về việc quá mức)

http://www.mathworks.com/help/curvefit/examples/polynomial-curve-fits.html#zmw57dd0e115nhập mô tả hình ảnh ở đây


1
Chỉ cần rõ ràng chính xác bên dưới cốt truyện họ nói: "Hành vi của sự phù hợp đa thức bậc sáu vượt quá phạm vi dữ liệu làm cho nó trở thành một lựa chọn kém cho phép ngoại suy và bạn có thể từ chối sự phù hợp này. "
usr11852

49

Nghiên cứu của Chen et al. (2013) phù hợp với hai hình khối với sự gián đoạn được cho là về tuổi thọ như là một hàm của vĩ độ.

Chen Y., Ebenstein, A., Greenstone, M. và Li, H. 2013. Bằng chứng về tác động của việc tiếp xúc lâu dài với ô nhiễm không khí đối với tuổi thọ từ chính sách sông Hoài của Trung Quốc. Kỷ yếu của Viện Hàn lâm Khoa học Quốc gia 110: 12936 Từ 12941. trừu tượng

Mặc dù được công bố trên một tạp chí xuất sắc, v.v., sự chứng thực ngầm của nó bởi những người nổi tiếng, v.v., tôi vẫn sẽ trình bày đây là một ví dụ prima facie của sự phù hợp quá mức.

Một dấu hiệu nhận biết là tính không hợp lý của hình khối. Lắp một khối ngầm giả định có một số lý do tại sao tuổi thọ sẽ thay đổi như một đa thức bậc ba của vĩ độ nơi bạn sống. Điều đó có vẻ khá không hợp lý: không dễ để tưởng tượng một cơ chế vật lý hợp lý sẽ gây ra hiệu ứng như vậy.

Xem thêm bài đăng trên blog sau đây để phân tích chi tiết hơn về bài viết này: Bằng chứng về tác động của việc sử dụng hồi quy đa thức kéo dài đối với suy luận nguyên nhân (một tuyên bố rằng sưởi ấm bằng than sẽ giảm tuổi thọ 5 năm cho nửa tỷ người) .


5
+1 Andrew Gelman thậm chí đã viết một hoặc hai bài đăng trên blog về lý do tại sao nó không hợp lý. Đây là một: andrewgelman.com/2013/08/05/ Mạnh
Sycorax

@ user777 Blog Gelman có lẽ là lần đầu tiên tôi nghe về điều này. Nhưng tôi nghĩ rằng nó là thích hợp nhất để đưa ra tài liệu tham khảo, thêm các bình luận cá nhân của tôi và để mọi người tự đánh giá.
Nick Cox

1
Tôi đã cắt một bản chỉnh sửa của @DW giới thiệu các nhận xét về tuổi thọ ở các quốc gia khác nhau, đó không phải là nội dung của bài báo.
Nick Cox

2
Một ví dụ khác tôi nghĩ là mang tính minh họa (mặc dù có khả năng nhiều hơn so với "thế giới thực") là các cuộc thi dự đoán mang lại kết quả trung gian - như kaggle. Thông thường, có những cá nhân tối ưu hóa kết quả vào bảng xếp hạng, nhưng họ không phải là người chiến thắng cho mẫu chờ đợi. Rob Hyndman có một số thảo luận về điều này. Điều đó có một chút quan điểm sâu sắc hơn mặc dù tôi nghĩ OP muốn ở đây.
Andy W

2
Tôi vừa định đăng bài viết về Gelman & Imbens xuất phát từ đây: nber.org/ con / w20405 (không may, không may)
Shadowtalker

38

Trong một bài viết ngày 14 tháng 3 năm 2014 trên Science , David Lazer, Ryan Kennedy, Gary King và Alessandro Vespignani đã xác định các vấn đề trong Google Xu hướng dịch cúm mà họ gán cho việc quá mức.

Nhân vật

Đây là cách họ kể câu chuyện, bao gồm cả lời giải thích về bản chất của việc quá mức và lý do tại sao nó khiến thuật toán thất bại:

Vào tháng 2 năm 2013, ... Thiên nhiên đã báo cáo rằng GFT đã dự đoán nhiều hơn gấp đôi tỷ lệ các bác sĩ đến khám vì bệnh giống cúm (ILI) so với Trung tâm Kiểm soát và Phòng ngừa Dịch bệnh (CDC) .... Điều này xảy ra mặc dù thực tế là GFT được xây dựng để dự đoán các báo cáo CDC. ...

Về cơ bản, phương pháp này là tìm ra các kết quả phù hợp nhất trong số 50 triệu cụm từ tìm kiếm để phù hợp với 1152 điểm dữ liệu. Tỷ lệ tìm kiếm các thuật ngữ tìm kiếm phù hợp với xu hướng của bệnh cúm nhưng không liên quan đến cấu trúc và do đó không dự đoán được tương lai, là khá cao. Trên thực tế, các nhà phát triển GFT báo cáo loại bỏ các thuật ngữ tìm kiếm theo mùa không liên quan đến cúm nhưng có liên quan chặt chẽ đến dữ liệu CDC, chẳng hạn như các thuật ngữ liên quan đến bóng rổ ở trường trung học. Điều này đáng lẽ phải là một cảnh báo rằng dữ liệu lớn đã vượt quá số lượng nhỏ các trường hợp tiêu chuẩn quan tâm trong phân tích dữ liệu. Phương pháp đặc biệt này đã loại bỏ các thuật ngữ tìm kiếm đặc biệt đã thất bại khi GFT hoàn toàn bỏ lỡ đại dịch cúm A phi H1N1 2009 vô căn cứ.

[Nhấn mạnh thêm.]


3
Thật không may, ví dụ này có một số vấn đề. Bài viết gợi ý hai lý do khá khác nhau tại sao GFT đưa ra dự đoán xấu: quá mức và thay đổi công cụ tìm kiếm. Các tác giả thừa nhận rằng họ không ở vị trí để xác định lý do nào (nếu có) là chính xác, vì vậy về cơ bản đó là suy đoán. Hơn nữa, đoạn nói về quá mức đề cập đến phiên bản gốc của hệ thống, trong khi các dự đoán trong biểu đồ được thực hiện với một hệ thống được sửa đổi.
Tom Minka

1
@Tom Bài báo không được viết như thể cáo buộc của quá mức là suy đoán: các tác giả thẳng thừng khẳng định rằng. Tôi nghĩ đó là một tuyên bố hợp lý. Họ cũng giải quyết lý do tại sao họ phải suy đoán phần nào: Google không công khai hoặc minh bạch về thuật toán. Tôi dường như không quan trọng cho mục đích hiện tại cho dù việc quá mức chỉ xảy ra trong một phiên bản hay nhiều phiên bản, nhưng khi tôi nhớ lại các tác giả cũng đề cập đến điều này và chỉ ra bằng chứng về việc tiếp tục quá mức trong thuật toán hiện tại.
whuber

2
Bài báo chỉ nói rằng quá mức là một mối quan tâm tiêu chuẩn trong phân tích dữ liệu. Nó không tuyên bố rằng quá mức là lý do. Tham chiếu (2) đi sâu vào chi tiết hơn, nhưng một lần nữa nói rằng quá mức chỉ là "vấn đề có thể xảy ra", với tuyên bố "Bởi vì thuật toán tìm kiếm và các thuật ngữ truy vấn đã được sử dụng để xác định các mô hình GFT gốc và cập nhật vẫn chưa được tiết lộ, đó là khó xác định lý do cho hiệu suất tối ưu của hệ thống và đưa ra các khuyến nghị để cải thiện. "
Tom Minka

@Tom Tôi sẽ đứng trước trích dẫn được đưa ra ở đây, đây là một trích dẫn chính xác, vì sự hỗ trợ đầy đủ cho lý do tại sao mô hình Google Flu đáng để xem xét trong bối cảnh hiện tại.
whuber

Thảo luận thú vị. Tôi sẽ chỉ thêm rằng biểu đồ có thể hỗ trợ đối số tốt hơn nếu các dòng được dán nhãn.
rolando2

32

Tôi đã nhìn thấy hình ảnh này một vài tuần trước và nghĩ rằng nó khá phù hợp với câu hỏi trong tầm tay.

hình ảnh meme

Thay vì điều chỉnh tuyến tính theo trình tự, nó được trang bị một đa thức bậc bốn, có sự phù hợp hoàn hảo, nhưng dẫn đến một câu trả lời rõ ràng vô lý.


12
Điều này không trả lời câu hỏi như đã hỏi, và có thể tốt hơn khi bình luận hoặc không được đăng lên. Điều này không cung cấp một ví dụ thực tế về quá mức (đó là những gì câu hỏi yêu cầu). Nó cũng không giải thích làm thế nào hình ảnh ví dụ có liên quan đến quá mức. Cuối cùng, nó rất ngắn. Chúng tôi thích câu trả lời thấu đáo, chi tiết trả lời câu hỏi đã được hỏi - không chỉ là cuộc thảo luận liên quan đến câu hỏi.
DW

9
Trong thực tế, đây chính xác là một trường hợp quá mức do mô hình quá phức tạp, vì bạn có thể xây dựng vô số các hàm bậc cao (phi tuyến tính) để tạo ra vô số các điều khoản cuối cùng khác nhau của chuỗi trong khi vẫn phù hợp với các thuật ngữ (đã biết) khác, bằng cách sử dụng phép nội suy Lagrange như được giải thích ở đây .
gabious

@ user1121352 Trong phim hoạt hình, đa thức bậc cao mô hình thực sự, vì vậy nó hoàn toàn không phù hợp. Một câu trả lời như "9" (số lẻ tiếp theo) hoặc "11" (số nguyên tố lẻ tiếp theo) thực sự sẽ bị thiếu vì nó sử dụng một mô hình quá đơn giản để dự đoán giá trị tiếp theo. Phim hoạt hình thực sự minh họa trường hợp ngược lại, rằng một mô hình phức tạp hơn có thể là sự thật.
Sycorax

8
Đa thức tứ phân (theo cách giải thích của tôi) được dự định là một giải pháp lố bịch, vì câu trả lời rõ ràng mà bất cứ ai sẽ đưa ra trước khi thấy giải pháp lố bịch sẽ là 9 (hoặc bất kỳ giá trị OEIS nào khác). Tôi giả định định dạng "doge" đã truyền đạt sự châm biếm, nhưng chúng ta thấy rõ Luật Poe tại nơi làm việc.
Tháng 3 ngày

2
Tuy nhiên, đây chính xác là điểm mà tôi đang cố gắng thực hiện, đó là chúng ta không biết chức năng thực sự là gì. Nếu bạn đang tiến hành phân tích ban đầu, bạn không có tài nguyên như OEIS để thu hút sự thật: đó là những gì mô hình của bạn đang cố gắng thiết lập. Tôi đánh giá cao rằng phim hoạt hình đang cố gắng mỉa mai, nhưng vị trí của phim hoạt hình trong cuộc thảo luận cụ thể này cho thấy một sự tinh tế quan trọng đối với câu hỏi về quá mức và mô hình thống kê nói chung. Mục đích của người tạo ban đầu của nó là không liên quan vì bạn đã tái hiện lại nó ở đây!
Sycorax

22

Đối với tôi ví dụ tốt nhất là hệ Ptolemaic trong thiên văn học. Ptolemy cho rằng Trái đất là trung tâm của vũ trụ và tạo ra một hệ thống quỹ đạo hình tròn tinh vi, điều này sẽ giải thích các chuyển động của vật thể trên bầu trời khá tốt. Các nhà thiên văn học đã phải tiếp tục thêm các vòng tròn để giải thích sự sai lệch, cho đến một ngày nó trở nên hỗn độn đến nỗi mọi người bắt đầu nghi ngờ nó. Đó là khi Copernicus nghĩ ra một mô hình thực tế hơn.

Đây là ví dụ tốt nhất về việc cung cấp quá nhiều cho tôi. Bạn không thể quá phù hợp với quá trình tạo dữ liệu (DGP) cho dữ liệu. Bạn chỉ có thể vượt quá mô hình sai chính tả. Hầu như tất cả các mô hình của chúng tôi trong khoa học xã hội đều sai chính tả, vì vậy, điều quan trọng là phải ghi nhớ điều này và giữ cho chúng kỹ lưỡng. Không cố gắng nắm bắt mọi khía cạnh của tập dữ liệu, nhưng cố gắng nắm bắt các tính năng cần thiết thông qua đơn giản hóa.


15
Đây dường như không phải là một ví dụ về việc quá mức. Không có gì sai với hệ Ptolemaic như một mô hình dự đoán: nó chỉ phức tạp vì hệ tọa độ là địa tâm chứ không phải bắt nguồn từ trung tâm khối thiên hà. Do đó, vấn đề là sự phù hợp chính xác, hợp pháp đã được thực hiện với một mô hình quá phức tạp. (Ellipses đơn giản hơn nhiều so với epiciking.) Đó là một thách thức thực sự để tìm ra các mô hình phi tuyến tuyệt vời!
whuber

1
Bạn sẽ kết thúc với rất nhiều vòng tròn để mô hình quỹ đạo của các mặt trăng của sao Mộc trong hệ Ptolemaic.
Aksakal

17
Điều đó đúng - nhưng trên phương diện của nó, điều đó không nhất thiết là quá mức. Thử nghiệm axit nằm trong dự đoán của các giá trị trong tương lai, trong hệ thống đó hoạt động đủ tốt để tồn tại trong 1400 năm. Dữ liệu phù hợp không phải khi mô hình rất phức tạp, nhưng khi nó linh hoạt đến mức bằng cách nắm bắt chi tiết bên ngoài, nó tạo ra các dự đoán không chính xác hơn nhiều so với dự đoán từ phân tích dư lượng của mô hình trên dữ liệu đào tạo của nó.
whuber

2
Aksakal: Bạn chắc chắn có thể. Hãy xem xét ví dụ của @ arnaud và giả sử quy trình tạo dữ liệu được biết đến là . Việc học có khiến bạn phù hợp với mô hình đó với mười điểm dữ liệu đó với hy vọng dự đoán tốt hơn về dữ liệu mới so với mô hình tuyến tính đơn giản không? EY=k=09βkxi
Scortchi

2
@Aksakal: 10 tham số: (được nhập chính xác ngay bây giờ!). Tất nhiên lỗi không thể ước tính, hoặc giả sử nó đã biết. Nếu điều đó làm phiền bạn, hãy xem xét một đa thức bậc tám trong ; quan điểm là như nhau. xEY=k=09βkxkx
Scortchi

22

Giả sử bạn có 100 chấm trên biểu đồ.

Bạn có thể nói: hmm, tôi muốn dự đoán tiếp theo.

  • với một dòng
  • với đa thức bậc 2
  • với đa thức bậc 3
  • ...
  • với đa thức bậc 100

Ở đây bạn có thể thấy một minh họa đơn giản cho ví dụ này: nhập mô tả hình ảnh ở đây

Thứ tự đa thức càng cao, nó sẽ càng phù hợp với các dấu chấm hiện có.

Tuy nhiên, các đa thức bậc cao, mặc dù trông giống như các mô hình tốt hơn cho các dấu chấm, nhưng thực sự quá mức chúng. Nó mô hình tiếng ồn hơn là phân phối dữ liệu thực sự.

Kết quả là, nếu bạn thêm một dấu chấm mới vào biểu đồ với đường cong hoàn toàn phù hợp của mình, nó có thể sẽ nằm cách xa đường cong hơn so với khi bạn sử dụng đa thức bậc thấp đơn giản hơn.


"Kết quả là, nếu bạn thêm một dấu chấm mới vào biểu đồ với đường cong hoàn toàn phù hợp của mình, nó có thể sẽ nằm cách xa đường cong hơn là nếu bạn sử dụng đa thức bậc thấp đơn giản hơn" - hơn nữa, điều này vẫn đúng ngay cả khi quá trình tạo dữ liệu cho dấu chấm mới (nghĩa là mối quan hệ trong dân số) thực sự là một đa thức công suất cao giống như kết quả mà bạn (hơn) đã trang bị.
Cá bạc

19
Các hình ảnh ở đây thực sự không chính xác - ví dụ, đa thức 9 độ chỉ được vẽ như là một hàm tuyến tính từng phần, nhưng tôi nghi ngờ trong thực tế, nó nên lắc lư lên xuống trong phạm vi giữa các điểm. Bạn cũng sẽ thấy hiệu ứng này trong đa thức 5 độ.
Ken Williams

17

Phân tích có thể góp phần gây ra thảm họa Fukushima là một ví dụ về việc sử dụng quá mức. Có một mối quan hệ nổi tiếng trong Khoa học Trái đất mô tả xác suất xảy ra động đất ở một kích thước nhất định, với tần suất quan sát được của các trận động đất "nhỏ hơn". Điều này được gọi là mối quan hệ Gutenberg-Richter, và nó cung cấp một bản ghi nhật ký phù hợp trong nhiều thập kỷ. Phân tích rủi ro động đất ở khu vực lân cận lò phản ứng (sơ đồ này từ cuốn sách xuất sắc "Tín hiệu và tiếng ồn" của Nate Silver) cho thấy "nút thắt" trong dữ liệu. Bỏ qua các kink dẫn đến một ước tính về rủi ro hàng năm của một trận động đất mạnh 9 độ richter là khoảng 1 trên 300 - chắc chắn là một cái gì đó để chuẩn bị. Tuy nhiên, vượt quá một đường dốc kép (như đã được thực hiện trong quá trình đánh giá rủi ro ban đầu cho các lò phản ứng) làm giảm dự đoán rủi ro xuống còn khoảng 1 trong 13.000 năm. Người ta không thể lỗi các kỹ sư vì đã không thiết kế các lò phản ứng để chịu đựng một sự kiện không thể xảy ra như vậy - nhưng chắc chắn người ta phải lỗi các nhà thống kê đã quá mức (và sau đó ngoại suy) dữ liệu ...

nhập mô tả hình ảnh ở đây


Có phải kết luận mô hình độ dốc kép là quá phù hợp? Các kink là nổi bật; Tôi đoán nếu mỗi phân đoạn được ước tính từ 3 điểm mỗi dòng, bạn sẽ có được những dự đoán tốt hơn về việc giữ chỗ hơn là ước tính một dòng. (Tất nhiên, quan sát sau đó về sự kiện "1 trong 13.000 năm" lập luận chống lại nó! Nhưng điều đó khó diễn giải vì chúng tôi sẽ không kiểm tra lại mô hình này nếu điều đó không xảy ra.) Nếu có lý do vật lý để bỏ qua kink nhận thức sau đó trường hợp này là quá mức mạnh mẽ hơn - tôi không biết dữ liệu đó thường phù hợp với mối quan hệ Gutenberg-Richter lý tưởng như thế nào.
Cá bạc

Điều này thực sự minh họa bằng đồ họa của sự nguy hiểm của phép ngoại suy và sự cần thiết của một hàm mất có tính đến mức độ nghiêm trọng của hậu quả của một lỗi ...
Silverfish

3
Vấn đề thực sự là rất ít dữ liệu được sử dụng cho một số điểm cuối cùng - vì vậy chúng có rất nhiều sự không chắc chắn trong đó. Nhìn kỹ vào dữ liệu, bạn có thể thấy có một sự kiện duy nhất 7.9, sau đó vài giây. Người ta biết rất ít về các trận động đất lớn hơn 8.0 vì chúng không thường xuyên - nhưng khi bạn quan sát một trận động đất 9.0 (trận động đất Tohoku gây ra sóng thần), bạn có thể tự rút ra kết luận. Đường thẳng có thể bảo thủ - nhưng khi nói đến an toàn hạt nhân, bảo thủ là tốt.
Floris

1
@Floris Điểm tốt. Sẽ tốt hơn nếu họ sử dụng biểu đồ hình hộp không chỉ hiển thị tần số quan sát mà còn cả khoảng tin cậy cho các tần số đó. Sau đó, người ta có thể sẽ nhận được các hộp rất hẹp ở bên trái trong sơ đồ và các hộp rất rộng ở bên phải. (Khoảng tin cậy như vậy có thể được tính toán giả sử rằng mỗi tần số tuân theo phân phối Poisson.)
user763305 17/12/14

3
@ user763305 - vâng, tôi khá chắc chắn rằng việc thêm khoảng tin cậy sẽ cho thấy rằng một đường thẳng không phù hợp với dữ liệu (hay nói cách khác là bạn không thể từ chối giả thuyết khống rằng dữ liệu đi theo một đường thẳng).
Floris

15

"Agh! Pat sẽ rời công ty. Làm thế nào chúng ta sẽ tìm người thay thế?"

Đăng tuyển dụng:

Muốn: Kỹ sư điện. Người đồng tính 42 tuổi có bằng Kỹ sư Điện, toán học và chăn nuôi. Phải cao 68 inch với mái tóc nâu, một nốt ruồi trên mắt trái và có xu hướng diatribes dài chống lại ngỗng và sử dụng sai từ 'lời khuyên'.

Theo nghĩa toán học, quá mức thường đề cập đến việc tạo ra một mô hình có nhiều tham số hơn mức cần thiết, dẫn đến phù hợp hơn cho một tập dữ liệu cụ thể, nhưng không nắm bắt được các chi tiết liên quan cần thiết để phù hợp với các tập dữ liệu khác từ lớp quan tâm.

Trong ví dụ trên, người đăng không thể phân biệt sự liên quan với các đặc điểm không liên quan. Các bằng cấp kết quả có khả năng chỉ được đáp ứng bởi một người mà họ đã biết là phù hợp với công việc (nhưng không còn muốn nó nữa).


8
Trong khi giải trí, câu trả lời này không cung cấp cái nhìn sâu sắc về ý nghĩa của việc quá mức trong ý nghĩa thống kê. Có lẽ bạn có thể mở rộng câu trả lời của mình để làm rõ mối quan hệ giữa các thuộc tính rất đặc biệt này và mô hình thống kê.
Sycorax

Đánh dấu +1. Tôi đồng ý với @ user777 ở một mức độ nhỏ. Có thể một câu sẽ mang lại ví dụ súc tích về nhà. Nhưng thêm quá nhiều sẽ làm mất đi sự đơn giản.
ndoogan

Tôi nghĩ rằng đây là một câu trả lời tuyệt vời - nó thể hiện loại quá mức rất phổ biến mà về cơ bản ghi nhớ dữ liệu đào tạo, đặc biệt là trường hợp phổ biến khi lượng dữ liệu đào tạo không đủ để bão hòa sức mạnh biểu cảm của mô hình.
Ken Williams

14

Cái này được tạo thành, nhưng tôi hy vọng nó sẽ minh họa cho trường hợp này.

ví dụ 1

k=100n=100

set.seed(123)
k <- 100
data <- replicate(k, rnorm(100))
colnames(data) <- make.names(1:k)
data <- as.data.frame(data)

Bây giờ, hãy phù hợp với hồi quy tuyến tính cho nó:

fit <- lm(X1 ~ ., data=data)

Và đây là một bản tóm tắt cho mười người dự đoán đầu tiên:

> summary(fit)

Call:
lm(formula = X1 ~ ., data = data)

Residuals:
ALL 100 residuals are 0: no residual degrees of freedom!

Coefficients:
              Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.502e-01         NA      NA       NA
X2           3.153e-02         NA      NA       NA
X3          -6.200e-01         NA      NA       NA
X4           7.087e-01         NA      NA       NA
X5           4.392e-01         NA      NA       NA
X6           2.979e-01         NA      NA       NA
X7          -9.092e-02         NA      NA       NA
X8          -5.783e-01         NA      NA       NA
X9           5.965e-01         NA      NA       NA
X10         -8.289e-01         NA      NA       NA
...
Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared:      1, Adjusted R-squared:    NaN 
F-statistic:   NaN on 99 and 0 DF,  p-value: NA

kết quả trông khá kỳ lạ, nhưng hãy vẽ nó.

nhập mô tả hình ảnh ở đây

X1X1

> sum(abs(data$X1-fitted(fit)))
[1] 0

Nó là con số không, vì vậy các lô không nói dối với chúng tôi: mô hình phù hợp hoàn hảo. Và làm thế nào chính xác là nó trong phân loại?

> sum(data$X1==fitted(fit))
[1] 100

X1

Ví dụ 2

Thêm một ví dụ nữa. Cho phép tạo thêm một số dữ liệu:

data2 <- cbind(1:10, diag(10))
colnames(data2) <- make.names(1:11)
data2 <- as.data.frame(data2)

vì vậy nó trông như thế này:

   X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11
1   1  1  0  0  0  0  0  0  0   0   0
2   2  0  1  0  0  0  0  0  0   0   0
3   3  0  0  1  0  0  0  0  0   0   0
4   4  0  0  0  1  0  0  0  0   0   0
5   5  0  0  0  0  1  0  0  0   0   0
6   6  0  0  0  0  0  1  0  0   0   0
7   7  0  0  0  0  0  0  1  0   0   0
8   8  0  0  0  0  0  0  0  1   0   0
9   9  0  0  0  0  0  0  0  0   1   0
10 10  0  0  0  0  0  0  0  0   0   1

và bây giờ cho phép phù hợp với hồi quy tuyến tính cho điều này:

fit2 <- lm(X1~., data2)

vì vậy chúng tôi nhận được các ước tính sau:

> summary(fit2)

Call:
lm(formula = X1 ~ ., data = data2)

Residuals:
ALL 10 residuals are 0: no residual degrees of freedom!

Coefficients: (1 not defined because of singularities)
            Estimate Std. Error t value Pr(>|t|)
(Intercept)       10         NA      NA       NA
X2                -9         NA      NA       NA
X3                -8         NA      NA       NA
X4                -7         NA      NA       NA
X5                -6         NA      NA       NA
X6                -5         NA      NA       NA
X7                -4         NA      NA       NA
X8                -3         NA      NA       NA
X9                -2         NA      NA       NA
X10               -1         NA      NA       NA
X11               NA         NA      NA       NA

Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared:      1, Adjusted R-squared:    NaN 
F-statistic:   NaN on 9 and 0 DF,  p-value: NA

R2=1X1

X1=10+X2×9+X3×8+X4×7+X5×6+X6×5+X7×4+X8×3+X9×2

X1=1

10+1×9+0×8+0×7+0×6+0×5+0×4+0×3+0×2

Nó là khá tự giải thích. Bạn có thể nghĩ về Ví dụ 1 tương tự như Ví dụ 2 nhưng có thêm một số "nhiễu". Nếu bạn có dữ liệu đủ lớn và sử dụng nó để "dự đoán" một cái gì đó thì đôi khi một "tính năng" duy nhất có thể thuyết phục bạn rằng bạn có một "mẫu" mô tả tốt biến phụ thuộc của bạn, trong khi đó có thể chỉ là sự trùng hợp. Trong ví dụ 2 không có gì thực sự được dự đoán, nhưng chính xác thì điều tương tự đã xảy ra trong ví dụ 1 chỉ là các giá trị của các biến là khác nhau.

Ví dụ thực tế cuộc sống

Ví dụ thực tế cho điều này là dự đoán các cuộc tấn công khủng bố vào ngày 11 tháng 9 năm 2001 bằng cách xem "các mẫu" theo số được rút ngẫu nhiên bởi các trình tạo số giả máy tính của Dự án Ý thức Toàn cầu hoặc "tin nhắn bí mật" trong "Moby Dick" tiết lộ sự thật về vụ ám sát những người nổi tiếng (lấy cảm hứng từ những phát hiện tương tự trong Kinh Thánh ).

Phần kết luận

Nếu bạn trông đủ cứng, bạn sẽ tìm thấy "mẫu" cho bất cứ điều gì. Tuy nhiên, những mô hình đó sẽ không cho phép bạn tìm hiểu bất cứ điều gì về vũ trụ và sẽ không giúp bạn đi đến bất kỳ kết luận chung nào. Chúng sẽ phù hợp hoàn hảo với dữ liệu của bạn, nhưng sẽ vô dụng vì chúng sẽ không phù hợp với bất kỳ thứ gì khác ngoài dữ liệu đó. Họ sẽ không cho phép bạn đưa ra bất kỳ dự đoán ngoài mẫu hợp lý nào, bởi vì những gì họ sẽ làm, là họ thà bắt chước hơn là mô tả dữ liệu.


5
Tôi khuyên bạn nên đặt các ví dụ thực tế ở đầu câu trả lời này. Đó là phần thực sự có liên quan đến câu hỏi - phần còn lại là nước thịt.
Shadowtalker

8

Một vấn đề phổ biến dẫn đến việc quá mức trong cuộc sống thực là ngoài các thuật ngữ cho một mô hình được chỉ định chính xác, chúng tôi có thể đã thêm một cái gì đó không liên quan: quyền hạn không liên quan (hoặc các biến đổi khác) của các thuật ngữ chính xác, các biến không liên quan hoặc tương tác không liên quan.

Điều này xảy ra trong hồi quy bội nếu bạn thêm một biến không xuất hiện trong mô hình được chỉ định chính xác nhưng không muốn loại bỏ nó vì bạn sợ gây ra sai lệch biến bị bỏ qua . Tất nhiên, bạn không có cách nào để biết bạn đã bao gồm sai, vì bạn không thể nhìn thấy toàn bộ dân số, chỉ có mẫu của bạn, vì vậy không thể biết chắc chắn thông số kỹ thuật chính xác là gì. (Như @Scortchi chỉ ra trong các bình luận, có thể không có thứ gọi là đặc tả mô hình "chính xác" - theo nghĩa đó, mục đích của mô hình hóa là tìm một đặc tả "đủ tốt"; để tránh quá mức liên quan đến việc tránh sự phức tạp của mô hình lớn hơn mức có thể được duy trì từ dữ liệu có sẵn.) Nếu bạn muốn có một ví dụ thực tế về việc quá mức, điều này xảy ra mỗi lầnbạn ném tất cả các yếu tố dự đoán tiềm năng vào mô hình hồi quy, nếu bất kỳ ai trong số chúng trong thực tế không có mối quan hệ nào với phản ứng một khi các hiệu ứng của người khác bị loại bỏ.

Với kiểu quá mức này, tin tốt là việc bao gồm các thuật ngữ không liên quan này không đưa ra sai lệch của các công cụ ước tính của bạn và trong các mẫu rất lớn, các hệ số của các thuật ngữ không liên quan phải gần bằng không. Nhưng cũng có một tin xấu: bởi vì thông tin hạn chế từ mẫu của bạn hiện đang được sử dụng để ước tính nhiều tham số hơn, nên nó chỉ có thể làm điều đó với độ chính xác thấp hơn - do đó, các lỗi tiêu chuẩn trên các thuật ngữ thực sự có liên quan tăng lên. Điều đó cũng có nghĩa là chúng có thể nằm xa các giá trị thực hơn so với ước tính từ hồi quy được chỉ định chính xác, điều này có nghĩa là nếu đưa ra các giá trị mới của các biến giải thích của bạn, các dự đoán từ mô hình quá mức sẽ có xu hướng kém chính xác hơn so với mô hình được chỉ định chính xác.

Dưới đây là biểu đồ GDP log so với dân số log của 50 tiểu bang Hoa Kỳ trong năm 2010. Một mẫu ngẫu nhiên gồm 10 tiểu bang đã được chọn (đánh dấu màu đỏ) và đối với mẫu đó, chúng tôi phù hợp với mô hình tuyến tính đơn giản và đa thức bậc 5. Đối với mẫu điểm, đa thức có thêm bậc tự do cho phép nó "luồn lách" gần với dữ liệu quan sát hơn so với đường thẳng có thể. Nhưng toàn bộ 50 tiểu bang tuân theo một mối quan hệ gần như tuyến tính, do đó hiệu suất dự đoán của mô hình đa thức trên 40 điểm ngoài mẫu là rất kém so với mô hình ít phức tạp hơn, đặc biệt là khi ngoại suy. Đa thức đã phù hợp một cách hiệu quả một số cấu trúc ngẫu nhiên (nhiễu) của mẫu, không khái quát cho dân số rộng hơn. Nó đặc biệt kém khi ngoại suy ngoài phạm vi quan sát của mẫu.bản sửa đổi của câu trả lời này.)

Phép ngoại suy từ mô hình quá phức tạp

Ryi=2x1,i+5+ϵix2x3x1x2x3

require(MASS) #for multivariate normal simulation    
nsample <- 25   #sample to regress 
nholdout <- 1e6  #to check model predictions
Sigma <- matrix(c(1, 0.5, 0.4, 0.5, 1, 0.3, 0.4, 0.3, 1), nrow=3)
df <- as.data.frame(mvrnorm(n=(nsample+nholdout), mu=c(5,5,5), Sigma=Sigma))
colnames(df) <- c("x1", "x2", "x3")
df$y <- 5 + 2 * df$x1 + rnorm(n=nrow(df)) #y = 5 + *x1 + e

holdout.df <- df[1:nholdout,]
regress.df <- df[(nholdout+1):(nholdout+nsample),]

overfit.lm <- lm(y ~ x1*x2*x3, regress.df)
correctspec.lm <- lm(y ~ x1, regress.df)
summary(overfit.lm)
summary(correctspec.lm)

holdout.df$overfitPred <- predict.lm(overfit.lm, newdata=holdout.df)
holdout.df$correctSpecPred <- predict.lm(correctspec.lm, newdata=holdout.df)
with(holdout.df, sum((y - overfitPred)^2)) #SSE
with(holdout.df, sum((y - correctSpecPred)^2))

require(ggplot2)
errors.df <- data.frame(
    Model = rep(c("Overfitted", "Correctly specified"), each=nholdout),
    Error = with(holdout.df, c(y - overfitPred, y - correctSpecPred)))
ggplot(errors.df, aes(x=Error, color=Model)) + geom_density(size=1) +
    theme(legend.position="bottom")

Đây là kết quả của tôi sau một lần chạy, nhưng tốt nhất là chạy mô phỏng nhiều lần để xem hiệu quả của các mẫu được tạo khác nhau.

>     summary(overfit.lm)

Call:
lm(formula = y ~ x1 * x2 * x3, data = regress.df)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.22294 -0.63142 -0.09491  0.51983  2.24193 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept) 18.85992   65.00775   0.290    0.775
x1          -2.40912   11.90433  -0.202    0.842
x2          -2.13777   12.48892  -0.171    0.866
x3          -1.13941   12.94670  -0.088    0.931
x1:x2        0.78280    2.25867   0.347    0.733
x1:x3        0.53616    2.30834   0.232    0.819
x2:x3        0.08019    2.49028   0.032    0.975
x1:x2:x3    -0.08584    0.43891  -0.196    0.847

Residual standard error: 1.101 on 17 degrees of freedom
Multiple R-squared: 0.8297,     Adjusted R-squared: 0.7596 
F-statistic: 11.84 on 7 and 17 DF,  p-value: 1.942e-05

x1R2

>     summary(correctspec.lm)

Call:
lm(formula = y ~ x1, data = regress.df)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.4951 -0.4112 -0.2000  0.7876  2.1706 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   4.7844     1.1272   4.244 0.000306 ***
x1            1.9974     0.2108   9.476 2.09e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.036 on 23 degrees of freedom
Multiple R-squared: 0.7961,     Adjusted R-squared: 0.7872 
F-statistic:  89.8 on 1 and 23 DF,  p-value: 2.089e-09

R2R2

>     with(holdout.df, sum((y - overfitPred)^2)) #SSE
[1] 1271557
>     with(holdout.df, sum((y - correctSpecPred)^2))
[1] 1052217

R2y^y(và có nhiều mức độ tự do hơn để làm như vậy so với mô hình được chỉ định chính xác đã làm, do đó có thể tạo ra sự phù hợp "tốt hơn"). Nhìn vào Tổng các lỗi bình phương cho các dự đoán trên tập hợp nắm giữ mà chúng tôi không sử dụng để ước tính các hệ số hồi quy từ đó và chúng ta có thể thấy mô hình quá mức đã thực hiện tồi tệ đến mức nào. Trong thực tế, mô hình được chỉ định chính xác là mô hình đưa ra dự đoán tốt nhất. Chúng ta không nên đánh giá hiệu suất dự đoán dựa trên kết quả từ tập dữ liệu chúng ta đã sử dụng để ước tính các mô hình. Đây là một biểu đồ mật độ của các lỗi, với đặc tả mô hình chính xác tạo ra nhiều lỗi gần bằng 0:

Lỗi dự đoán trên tập hợp

Mô phỏng mô tả rõ ràng nhiều tình huống thực tế có liên quan (chỉ cần tưởng tượng bất kỳ phản ứng thực tế nào phụ thuộc vào một yếu tố dự báo duy nhất và tưởng tượng bao gồm cả "dự đoán" ngoại lai vào mô hình) nhưng có lợi ích là bạn có thể chơi với quy trình tạo dữ liệu , kích thước mẫu, bản chất của mô hình quá mức, v.v. Đây là cách tốt nhất để bạn có thể kiểm tra ảnh hưởng của việc cung cấp quá mức vì đối với dữ liệu được quan sát mà bạn thường không có quyền truy cập vào DGP và đó vẫn là dữ liệu "thực" theo nghĩa bạn có thể kiểm tra và sử dụng. Dưới đây là một số ý tưởng đáng giá mà bạn nên thử nghiệm:

  • Chạy mô phỏng nhiều lần và xem kết quả khác nhau như thế nào. Bạn sẽ tìm thấy nhiều thay đổi hơn bằng cách sử dụng kích thước mẫu nhỏ hơn kích thước mẫu lớn.
  • n <- 1e6x1
  • Hãy thử giảm mối tương quan giữa các biến dự đoán bằng cách chơi với các phần tử ngoài đường chéo của ma trận phương sai - hiệp phương sai Sigma. Chỉ cần nhớ giữ cho nó tích cực bán xác định (bao gồm cả đối xứng). Bạn sẽ tìm thấy nếu bạn giảm tính đa hình, mô hình quá mức không hoạt động quá tệ. Nhưng hãy nhớ rằng các dự đoán tương quan có xảy ra trong cuộc sống thực.
  • Hãy thử trải nghiệm với đặc điểm kỹ thuật của mô hình quá mức. Điều gì nếu bạn bao gồm các điều khoản đa thức?
  • ydf$y <- 5 + 2*df$x1 + rnorm(n=nrow(df))yxi
  • yx2x3x1df$y <- 5 + 2 * df$x1 + 0.1*df$x2 + 0.1*df$x3 + rnorm(n=nrow(df))x2x3xx1x2x3nsample <- 25x1x2x3nsample <- 1e6, nó có thể ước tính các hiệu ứng yếu hơn khá tốt và các mô phỏng cho thấy mô hình phức tạp có sức mạnh dự đoán vượt trội hơn so với mô hình đơn giản. Điều này cho thấy "quá mức" là một vấn đề của cả độ phức tạp của mô hình và dữ liệu có sẵn.

1
(-1) Điều quan trọng là phải hiểu rằng sự phù hợp quá mức không chỉ xuất phát từ việc bao gồm các thuật ngữ "không liên quan" hoặc "không liên quan" sẽ không xuất hiện trong một mô hình được chỉ định chính xác. Thật vậy, có thể lập luận rằng trong nhiều ứng dụng, ý tưởng về một mô hình thực đơn giản không có ý nghĩa nhiều và thách thức của mô hình dự đoán là xây dựng một mô hình có độ phức tạp tương xứng với lượng dữ liệu có sẵn.
Scortchi

1
Tôi sẽ gửi hình ảnh của bạn cho Dân biểu của tôi để hỗ trợ cải cách nhập cư
nguyên mẫu

1
(+1) Tôi nghĩ rằng các chỉnh sửa cải thiện giải thích về sự phù hợp quá mức mà không làm mất đi sự dễ hiểu.
Scortchi

1
@Aksakal Tôi đã cố gắng giải quyết câu hỏi: "Tôi cần trợ giúp về cách đưa ra một ví dụ thực tế áp dụng cho việc quá mức". Không rõ liệu OP có được yêu cầu tìm một bài báo được xuất bản quá phù hợp hay - một ý nghĩa tự nhiên hơn của "đến với" - để xây dựng ví dụ của riêng họ. Nếu quá mức là xấu thì tại sao trong cuộc sống thực, bất cứ ai cũng sẽ phù hợp? Câu trả lời của tôi, rằng một nhà phân tích có thể thích sai cho một mô hình quá cụ thể so với mô hình không xác định (do sợ OVB hoặc nghi ngờ một mối quan hệ là cong) là một ví dụ như vậy. Biểu đồ / mô phỏng chỉ đơn giản cho thấy hậu quả: dự đoán ngoài mẫu xấu
Silverfish

1
@Aksakal Tôi không rõ ràng rằng một mô hình đa thức là "không thực" cho biểu đồ. Tính năng vượt trội là tuyến tính, nhưng chúng ta có biết nó hoàn toàn tuyến tính không? Nếu chúng tôi có quyền truy cập vào một triệu đơn vị chính trị giả định và tôi phải chấp nhận cuộc sống của mình bằng mọi cách, tôi muốn đánh cược rằng chúng tôi sẽ phát hiện ra một mối quan hệ đường cong nhẹ hơn tất cả các thuật ngữ đa thức sẽ không đáng kể. Mặc dù vậy, phù hợp với mức n thấp, chỉ có một mô hình tuyến tính tránh tình trạng thừa. (Chúng tôi không thể giải quyết vấn đề này do khó lấy mẫu từ dân số vô hạn về mặt lý thuyết của "các quốc gia Hoa Kỳ có thể"; đây là một lợi thế của dữ liệu mô phỏng!)
Silverfish

4

Khi tôi đang cố gắng tự hiểu điều này, tôi bắt đầu suy nghĩ theo cách tương tự với việc mô tả các vật thể thật, vì vậy tôi đoán đó là "thế giới thực" như bạn có thể hiểu, nếu bạn muốn hiểu ý tưởng chung:

Giả sử bạn muốn mô tả cho ai đó khái niệm về một chiếc ghế, để họ có được một mô hình khái niệm cho phép họ dự đoán nếu một đối tượng mới mà họ tìm thấy là một chiếc ghế. Bạn đến Ikea và lấy một mẫu ghế và bắt đầu mô tả chúng bằng cách sử dụng hai biến: đó là một vật có 4 chân nơi bạn có thể ngồi. Chà, điều đó cũng có thể mô tả một chiếc ghế đẩu hoặc một cái giường hoặc rất nhiều thứ khác. Mô hình của bạn đang bị thiếu, giống như khi bạn cố gắng và mô hình hóa một phân phối phức tạp với quá ít biến số - rất nhiều thứ không phải ghế sẽ được xác định là ghế. Vì vậy, hãy tăng số lượng biến, thêm vào đó, ví dụ đối tượng phải có mặt sau. Bây giờ bạn có một mô hình khá chấp nhận được mô tả bộ ghế của bạn, nhưng đủ chung để cho phép một đối tượng mới được xác định là một. Mô hình của bạn mô tả dữ liệu và có thể đưa ra dự đoán. Tuy nhiên, giả sử bạn có một bộ trong đó tất cả các ghế đều có màu đen hoặc trắng và làm bằng gỗ. Bạn quyết định đưa các biến đó vào mô hình của mình và đột nhiên nó sẽ không xác định được chiếc ghế nhựa màu vàng là ghế. Vì vậy, bạn đã đánh giá quá cao mô hình của mình, bạn đã bao gồm các tính năng của bộ dữ liệu của mình như thể chúng là các tính năng của ghế nói chung, (nếu bạn thích, bạn đã xác định "nhiễu" là "tín hiệu", bằng cách diễn giải biến thể ngẫu nhiên từ mẫu của bạn là một tính năng của toàn bộ "ghế thế giới thực"). Vì vậy, bạn có thể tăng mẫu của mình và hy vọng bao gồm một số vật liệu và màu sắc mới hoặc giảm số lượng biến trong mô hình của bạn. t xác định một chiếc ghế nhựa màu vàng là một cái ghế. Vì vậy, bạn đã đánh giá quá cao mô hình của mình, bạn đã bao gồm các tính năng của bộ dữ liệu của mình như thể chúng là các tính năng của ghế nói chung, (nếu bạn thích, bạn đã xác định "nhiễu" là "tín hiệu", bằng cách diễn giải biến thể ngẫu nhiên từ mẫu của bạn là một tính năng của toàn bộ "ghế thế giới thực"). Vì vậy, bạn có thể tăng mẫu của mình và hy vọng bao gồm một số vật liệu và màu sắc mới hoặc giảm số lượng biến trong mô hình của bạn. t xác định một chiếc ghế nhựa màu vàng là một cái ghế. Vì vậy, bạn đã đánh giá quá cao mô hình của mình, bạn đã bao gồm các tính năng của bộ dữ liệu của mình như thể chúng là các tính năng của ghế nói chung, (nếu bạn thích, bạn đã xác định "nhiễu" là "tín hiệu", bằng cách diễn giải biến thể ngẫu nhiên từ mẫu của bạn là một tính năng của toàn bộ "ghế thế giới thực"). Vì vậy, bạn có thể tăng mẫu của mình và hy vọng bao gồm một số vật liệu và màu sắc mới hoặc giảm số lượng biến trong mô hình của bạn.

Đây có thể là một sự tương tự đơn giản và sự cố dưới sự xem xét kỹ lưỡng hơn, nhưng tôi nghĩ nó hoạt động như một khái niệm chung ... Hãy cho tôi biết nếu một số phần cần làm rõ.


Bạn có thể vui lòng giải thích chi tiết hơn về ý tưởng "nhiễu" và "tín hiệu" và thực tế là mô hình quá mức mô tả tiếng ồn khiến tôi gặp vấn đề trong việc hiểu điều này.
quirik

4

Trong mô hình dự đoán, ý tưởng là sử dụng dữ liệu trong tay để khám phá các xu hướng tồn tại và có thể được khái quát hóa cho dữ liệu trong tương lai. Bằng cách bao gồm các biến trong mô hình của bạn có một số ảnh hưởng nhỏ, không đáng kể, bạn đang từ bỏ ý tưởng này. Những gì bạn đang làm là xem xét các xu hướng cụ thể trong mẫu cụ thể của bạn chỉ có ở đó vì tiếng ồn ngẫu nhiên thay vì xu hướng cơ bản, thực sự. Nói cách khác, một mô hình có quá nhiều biến số phù hợp với nhiễu hơn là phát hiện ra tín hiệu.

Đây là một minh họa phóng đại về những gì tôi đang nói. Ở đây các dấu chấm là dữ liệu quan sát và dòng là mô hình của chúng tôi. Nhìn vào đó là một sự phù hợp hoàn hảo - thật là một mô hình tuyệt vời! Nhưng chúng ta đã thực sự khám phá ra xu hướng hay chúng ta chỉ phù hợp với tiếng ồn? Có khả năng là cái sau.

nhập mô tả hình ảnh ở đây


4

Một hình thức quá mức khá phổ biến trong thể thao, cụ thể là xác định các mô hình để giải thích các kết quả trong quá khứ bằng các yếu tố không có hoặc có sức mạnh mơ hồ tốt nhất để dự đoán kết quả trong tương lai. Một đặc điểm chung của các "mẫu" này là chúng thường dựa trên rất ít trường hợp để cơ hội thuần túy có lẽ là lời giải thích hợp lý nhất cho mẫu.

Các ví dụ bao gồm những thứ như ("trích dẫn" được tạo bởi tôi, nhưng thường trông giống nhau)

Đội A đã thắng tất cả các trò chơi X kể từ khi huấn luyện viên bắt đầu mặc áo khoác màu đỏ ma thuật của mình.

Giống:

Chúng tôi sẽ không tự cạo râu trong vòng playoffs, bởi vì điều đó đã giúp chúng tôi chiến thắng các trận X trước đây.

Ít mê tín hơn, nhưng cũng là một hình thức quá mức:

Borussia Dortmund chưa bao giờ thua trận sân nhà Champions League trước đối thủ Tây Ban Nha khi họ thua trận sân khách Bundesliga trước đó hơn hai bàn, đã tự mình ghi ít nhất một lần.

Giống:

Roger Federer đã giành được tất cả các lần xuất hiện tại Davis Cup trước các đối thủ châu Âu khi anh ấy ít nhất đã lọt vào bán kết ở giải Úc mở rộng năm đó.

Hai cái đầu tiên khá vô nghĩa (ít nhất là với tôi). Hai ví dụ cuối cùng hoàn toàn có thể đúng trong mẫu (tức là trong quá khứ), nhưng tôi sẽ rất vui khi đặt cược vào một đối thủ sẽ để "thông tin" này ảnh hưởng đáng kể đến tỷ lệ cược của anh ấy khi Dortmund đánh bại Madrid nếu họ thua 4: 1 tại Schalke vào thứ Bảy trước hoặc Federer đánh bại Djokovic, ngay cả khi anh vô địch Úc mở rộng năm đó.


3

Dưới đây là một ví dụ "thế giới thực" không phải theo nghĩa là ai đó tình cờ bắt gặp nó trong nghiên cứu, mà theo nghĩa là nó sử dụng các khái niệm hàng ngày mà không có nhiều thuật ngữ cụ thể thống kê. Có lẽ cách nói này sẽ hữu ích hơn cho một số người có đào tạo trong các lĩnh vực khác.

Hãy tưởng tượng rằng bạn có một cơ sở dữ liệu với dữ liệu về bệnh nhân mắc một căn bệnh hiếm gặp. Bạn là một sinh viên tốt nghiệp y khoa và muốn xem liệu bạn có thể nhận ra các yếu tố nguy cơ cho bệnh này. Đã có 8 trường hợp mắc bệnh tại bệnh viện này và bạn đã ghi lại 100 thông tin ngẫu nhiên về họ: tuổi, chủng tộc, thứ tự sinh, họ có bị sởi khi còn nhỏ không. Bạn cũng đã ghi lại dữ liệu cho 8 bệnh nhân không mắc bệnh này.

Bạn quyết định sử dụng phương pháp phỏng đoán sau đây cho các yếu tố rủi ro: nếu một yếu tố có giá trị nhất định ở nhiều bệnh nhân mắc bệnh của bạn, nhưng trong 0 kiểm soát của bạn, bạn sẽ coi đó là yếu tố rủi ro. (Trong cuộc sống thực, bạn sẽ sử dụng một phương pháp tốt hơn, nhưng tôi muốn giữ cho nó đơn giản). Bạn phát hiện ra rằng 6 bệnh nhân của bạn là người ăn chay (nhưng không ai trong số những người kiểm soát là người ăn chay), 3 người có tổ tiên Thụy Điển và hai trong số họ bị suy giảm khả năng nói. Trong số 97 yếu tố khác, không có gì xảy ra ở nhiều bệnh nhân, nhưng không có trong số các biện pháp kiểm soát.

Nhiều năm sau, một người khác quan tâm đến căn bệnh mồ côi này và nhân rộng nghiên cứu của bạn. Bởi vì anh ta làm việc tại một bệnh viện lớn hơn, có sự hợp tác chia sẻ dữ liệu với các bệnh viện khác, anh ta có thể sử dụng dữ liệu về 106 trường hợp, trái ngược với 8 trường hợp của bạn. Và ông phát hiện ra rằng tỷ lệ mắc bệnh nói lắp là giống nhau ở nhóm bệnh nhân và nhóm đối chứng; nói lắp không phải là một yếu tố rủi ro.

Điều xảy ra ở đây là nhóm nhỏ của bạn có 25% người nói lắp ngẫu nhiên. Heuristic của bạn không có cách nào để biết nếu điều này có liên quan về mặt y tế hay không. Bạn đã đưa ra tiêu chí để quyết định khi bạn xem xét một mẫu trong dữ liệu "đủ thú vị" để đưa vào mô hình và theo các tiêu chí này, việc nói lắp là đủ thú vị.

Mô hình của bạn đã bị quá mức, bởi vì nó bao gồm nhầm một tham số không thực sự phù hợp trong thế giới thực. Nó phù hợp với mẫu của bạn - 8 bệnh nhân + 8 điều khiển - rất tốt, nhưng nó không phù hợp với dữ liệu trong thế giới thực. Khi một mô hình mô tả mẫu của bạn tốt hơn mô hình thực tế, nó được gọi là quá mức.

Nếu bạn chọn ngưỡng 3 trong số 8 bệnh nhân có một tính năng, điều đó sẽ không xảy ra - nhưng bạn có cơ hội cao hơn để bỏ lỡ điều gì đó thực sự thú vị. Đặc biệt là trong y học, nơi nhiều bệnh chỉ xảy ra ở một bộ phận nhỏ người có yếu tố rủi ro, đó là một sự đánh đổi khó khăn. Và có các phương pháp để tránh nó (về cơ bản, so sánh với mẫu thứ hai và xem liệu sức mạnh giải thích giữ nguyên hay giảm), nhưng đây là một chủ đề cho một câu hỏi khác.


Rất gợi nhớ về xkcd.com/882
Floris

3

Đây là một ví dụ thực tế về việc cung cấp quá mức mà tôi đã giúp duy trì và sau đó đã cố gắng (không thành công) để ngăn chặn:

Tôi đã có vài nghìn chuỗi thời gian độc lập, hai biến, mỗi chuỗi không quá 50 điểm dữ liệu và dự án mô hình hóa liên quan đến việc tự động vectơ (VAR) cho mỗi điểm. Không có nỗ lực nào được thực hiện để thường xuyên hóa các quan sát, ước tính các thành phần phương sai hoặc bất cứ thứ gì tương tự. Các điểm thời gian được đo trong suốt một năm, do đó dữ liệu phải chịu tất cả các loại hiệu ứng theo mùa và theo chu kỳ chỉ xuất hiện một lần trong mỗi chuỗi thời gian.

Một tập hợp con của dữ liệu thể hiện tỷ lệ nhân quả Granger cao đáng kinh ngạc so với phần còn lại của dữ liệu. Kiểm tra tại chỗ cho thấy các đột biến dương đã xảy ra cách nhau một hoặc hai độ trễ trong tập hợp con này, nhưng rõ ràng từ bối cảnh cả hai gai đều được gây ra trực tiếp bởi một nguồn bên ngoài và một đột biến này không gây ra sự khác. Các dự báo ngoài mẫu sử dụng các mô hình này có thể khá sai lầm, bởi vì các mô hình đã bị quá mức: thay vì "làm nhẵn" các gai bằng cách lấy trung bình chúng vào phần còn lại của dữ liệu, có rất ít quan sát rằng các gai này thực sự đang lái các ước tính.

Nhìn chung, tôi không nghĩ rằng dự án đã đi kém nhưng tôi không nghĩ rằng nó tạo ra kết quả gần như hữu ích như họ có thể có được. Một phần lý do cho điều này là vì thủ tục VAR nhiều độc lập, thậm chí chỉ với một hoặc hai độ trễ, đã gặp khó khăn trong việc phân biệt giữa dữ liệu và tiếng ồn, và do đó phù hợp với cái sau với chi phí cung cấp cái nhìn sâu sắc về trước đây.


1

Nhiều người thông minh trong chủ đề này --- nhiều người thông thạo về thống kê hơn tôi. Nhưng tôi vẫn không thấy một ví dụ dễ hiểu đối với giáo dân. Ví dụ của Tổng thống không hoàn toàn đạt được dự luật về mặt quá mức điển hình, bởi vì trong khi đó, nó quá mức về mặt kỹ thuật trong mỗi tuyên bố hoang dã của nó, thường là một mô hình che phủ quá mức - gây ra tiếng ồn nhất định, không chỉ là một yếu tố của nó.

Tôi thực sự thích biểu đồ trong phần giải thích về sự đánh đổi sai lệch trong wikipedia: http://en.wikipedia.org/wiki/Bias%E2%80%93variance_tradeoff

(Biểu đồ thấp nhất là ví dụ về quá mức).

Tôi rất khó để nghĩ về một ví dụ trong thế giới thực mà không giống như mumbo-jumbo hoàn chỉnh. Ý tưởng là dữ liệu là một phần gây ra bởi các biến có thể đo lường, có thể hiểu được --- nhiễu ngẫu nhiên một phần. Cố gắng mô hình hóa tiếng ồn này như một mô hình mang lại cho bạn sự không chính xác.

Một ví dụ kinh điển là lập mô hình dựa trên GIẢI PHÁP trên R ^ 2 trong MS Excel (bạn đang cố gắng khớp một phương trình / mô hình theo nghĩa đen gần nhất có thể với dữ liệu bằng cách sử dụng đa thức, bất kể vô nghĩa như thế nào).

Giả sử bạn đang cố gắng mô hình hóa doanh số bán kem như một hàm của nhiệt độ. Bạn có dữ liệu "thế giới thực". Bạn vẽ dữ liệu và cố gắng tối đa hóa R ^ 2. Bạn sẽ tìm thấy bằng cách sử dụng dữ liệu trong thế giới thực, phương trình phù hợp gần nhất không phải là tuyến tính hoặc bậc hai (sẽ có ý nghĩa logic). Giống như hầu hết tất cả các phương trình, các thuật ngữ đa thức càng vô nghĩa mà bạn thêm vào (x ^ 6 -2x ^ 5 + 3x ^ 4 + 30x ^ 3-43.2x ^ 2-29x) - nó càng phù hợp với dữ liệu. Vì vậy, làm thế nào mà hợp lý liên quan đến nhiệt độ để bán kem? Làm thế nào bạn sẽ giải thích rằng đa thức lố bịch? Sự thật là, nó không phải là mô hình thực sự. Bạn đã quá phù hợp với dữ liệu.

Bạn đang không biết tiếng ồn - có thể là do các chương trình khuyến mãi bán hàng hoặc một số biến số hoặc "tiếng ồn" khác như một con bướm vỗ cánh trong vũ trụ (điều không bao giờ có thể dự đoán được) --- và đã cố gắng mô hình hóa dựa trên nhiệt độ. Bây giờ thông thường nếu tiếng ồn / lỗi của bạn không trung bình bằng 0 hoặc tương quan tự động, v.v., điều đó có nghĩa là có nhiều biến hơn ngoài đó --- và cuối cùng bạn sẽ có được tiếng ồn phân phối ngẫu nhiên, nhưng vẫn là điều tốt nhất tôi có thể giải thích điều đó.


2
Các 'mô hình' sau này trong truyện tranh của Tổng thống làm phù hợp với tất cả các tiếng ồn nhất định.
Ben Voigt

Theo tôi, truyện tranh không gây khó chịu cho hầu hết các kịch bản quá mức, mặc dù các quy tắc lố bịch sẽ dự đoán chính xác tất cả các Chủ tịch trước đây. Hầu hết các dự báo không dự đoán một biến nhị phân. Ngoài ra, nó hài hước đề cập đến chính quy tắc sẽ bị phá vỡ trong cuộc bầu cử tiếp theo - nói cách khác, mô hình overfit được bảo đảm sai trong toàn bộ thời gian, làm cho nó trở thành một dự đoán hoàn hảo cho tương lai. Hầu hết các mô hình overfit không dựa trên 1 biến sai có thể được kiểm tra là không liên quan - nó thường dựa trên quá nhiều biến trong mô hình, tất cả đều được đưa vào để giảm R ^ 2.
John Babson

0

Hầu hết các phương pháp tối ưu hóa có một số yếu tố fudge aka hyperparameter. Một ví dụ thực tế:

Nmin=5,  finc=1.1,  fdec=0.5,  αstart=0.1,  fα=0.99.

Đây có phải là phù hợp hơn , hoặc chỉ phù hợp với một vấn đề cụ thể?


0

Nghiên cứu cho một kỳ thi bằng cách ghi nhớ các câu trả lời cho kỳ thi năm ngoái.


0

Yêu thích của tôi là công thức của 39 3964 được khám phá trước khi thi đấu bóng đá World Cup năm 1998:

Brazil đã giành chức vô địch vào năm 1970 và 1994. Tổng hợp 2 con số này và bạn sẽ nhận được 3964; Đức đã giành chiến thắng vào năm 1974 và 1990, cộng lại là 3964; điều tương tự với chiến thắng của Argentina vào năm 1978 và 1986 (1978 + 1986 = 3964).

Đây là một thực tế rất đáng ngạc nhiên, nhưng mọi người đều có thể thấy rằng không nên dựa trên bất kỳ dự đoán nào trong tương lai dựa trên quy tắc đó. Và thực tế, quy tắc cho rằng người chiến thắng World Cup năm 1998 phải là Anh kể từ năm 1966 + 1998 = 3964 và Anh thắng năm 1966. Điều này đã không xảy ra và người chiến thắng là Pháp.


-2

Một chút trực quan, nhưng có lẽ nó sẽ giúp. Giả sử bạn muốn học một số ngôn ngữ mới. Bạn học như thế nào? thay vì học các quy tắc trong một khóa học, bạn sử dụng các ví dụ. Cụ thể, chương trình truyền hình. Vì vậy, bạn thích chương trình tội phạm, và bạn xem một vài chương trình cảnh sát. Sau đó, bạn tham gia một chương trình tội phạm khác và xem một số hình thức loạt đó. Đến chương trình thứ ba bạn thấy - bạn biết hầu hết mọi thứ, không vấn đề gì. Bạn không cần phụ đề tiếng Anh.

Nhưng sau đó, bạn thử ngôn ngữ mới học của mình trên đường phố trong lần truy cập tiếp theo và bạn nhận ra rằng bạn không thể nói về bất cứ điều gì ngoài việc nói "sĩ quan! Người đàn ông đó đã lấy túi của tôi và bắn người phụ nữ đó!". Mặc dù 'lỗi đào tạo' của bạn bằng 0, nhưng 'lỗi kiểm tra' của bạn rất cao, do 'quá mức' ngôn ngữ, chỉ nghiên cứu một tập hợp con giới hạn của các từ và giả sử là đủ.


8
Đó không phải là quá mức, nó chỉ học một tập hợp ngôn ngữ. Quá mức sẽ là nếu sau khi xem tội phạm cho thấy bạn học toàn bộ, nhưng kỳ lạ, ngôn ngữ trùng với tiếng Anh trong tất cả các chủ đề liên quan đến tội phạm nhưng lại hoàn toàn vô nghĩa (hoặc có thể là tiếng Trung Quốc) khi bạn nói về bất kỳ chủ đề nào khác.
amip
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.