Tối ưu hóa: Căn nguyên của mọi tội lỗi trong thống kê?


14

Tôi đã nghe các biểu hiện sau đây:

"Tối ưu hóa là gốc rễ của mọi tội lỗi trong thống kê".

Ví dụ, câu trả lời hàng đầu trong chủ đề này làm cho tuyên bố đó liên quan đến nguy cơ tối ưu hóa quá mạnh mẽ trong quá trình lựa chọn mô hình.

Câu hỏi đầu tiên của tôi là như sau: Câu nói này có được quy cho bất kỳ ai nói riêng không? (ví dụ trong tài liệu thống kê)

Từ những gì tôi hiểu, tuyên bố đề cập đến những rủi ro của việc quá mức. Sự khôn ngoan truyền thống sẽ nói rằng xác nhận chéo thích hợp đã chiến đấu chống lại vấn đề này, nhưng có vẻ như có nhiều vấn đề hơn thế.

Các nhà thống kê & các học viên ML có nên cảnh giác với việc tối ưu hóa quá mức các mô hình của họ ngay cả khi tuân thủ các giao thức xác thực chéo nghiêm ngặt (ví dụ 100 CV 10 lần lồng nhau)? Nếu vậy, làm thế nào để chúng ta biết khi nào ngừng tìm kiếm mô hình "tốt nhất"?


Câu hỏi thứ hai chắc chắn đứng một mình, phải không?
russellpierce

@Glen_b Tôi để lại một tài liệu tham khảo trong chủ đề đó. Nhưng chỉ để làm rõ, Dikran đã đề nghị mở các câu hỏi tiếp theo cho câu trả lời của anh ấy trong các chủ đề riêng biệt, và tôi nghi ngờ câu hỏi này nên được giải quyết trong một bình luận.
Amelio Vazquez-Reina

3
@ RussellS.Pierce Bản chỉnh sửa chứa câu hỏi như hiện tại - mặc dù nó được thực hiện trước nhận xét của tôi - không ở đó khi tôi tải nó và bắt đầu nghiên cứu câu hỏi ban đầu và câu trả lời có thể, nó chỉ có những gì tôi mô tả như một câu hỏi tu từ đó. Câu hỏi như nó đứng bây giờ là tốt.
Glen_b -Reinstate Monica

2
Vấn đề xác thực chéo được đề cập trong một câu hỏi khác ở đây: stats.stackexchange.com/questions/29354/ Lần xác thực chéo có thể giúp tránh sự phù hợp quá mức, nhưng nó không giải quyết được hoàn toàn vấn đề. Biết khi nào nên dừng lại có thể là một vấn đề khó khăn quyết định và tôi không nghĩ có thể có một giải pháp chung.
Dikran Marsupial

1
"xác nhận chéo thích hợp đã chiến đấu chống lại vấn đề này, nhưng có vẻ như có nhiều vấn đề hơn thế." Có: vấn đề vẫn là phương sai của các ước tính xác thực chéo (kết hợp với nhiều thử nghiệm có vấn đề). Nếu tôi tìm thấy thời gian, tôi sẽ viết câu trả lời cho câu hỏi liên quan của bạn.
cbeleites hỗ trợ Monica

Câu trả lời:


14

Câu trích dẫn này là một cách diễn đạt của một câu trích dẫn của Donald Knuth , một câu mà anh ta tự gán cho Hoare. Ba trích đoạn từ trang trên:

Tối ưu hóa sớm là gốc rễ của mọi tội lỗi (hoặc ít nhất là phần lớn) trong lập trình.

Tối ưu hóa sớm là gốc rễ của mọi tội lỗi.

Knuth gọi điều này là "Hoare's Dictum" 15 năm sau ...

Tôi không biết rằng tôi đồng ý với cách diễn đạt thống kê *. Có rất nhiều 'ác' trong thống kê không liên quan đến tối ưu hóa.

Các nhà thống kê & các học viên ML có nên luôn cảnh giác với việc tối ưu hóa quá mức các mô hình của họ ngay cả khi tuân thủ các giao thức xác thực chéo nghiêm ngặt (ví dụ 100 CV 10 lần lồng nhau)? Nếu vậy, làm thế nào để chúng ta biết khi nào ngừng tìm kiếm mô hình "tốt nhất"?

Tôi nghĩ rằng điều quan trọng là phải hiểu đầy đủ (hoặc đầy đủ là khả thi) các thuộc tính của những thủ tục bạn thực hiện.

* Tôi sẽ không cho rằng nhận xét về việc sử dụng nó của Knuth, vì tôi có thể nói rằng anh ấy không thể yêu cầu chính xác để hiểu mười lần cũng như tôi.


2
Cảm ơn, điều này rất hữu ích. Tôi nghĩ rằng có một số kết nối thú vị giữa tối ưu hóa trước khi trưởng thành trong lập trình và quá mức. Tôi tự hỏi nếu có bất kỳ trích dẫn tương tự trong cộng đồng của chúng tôi, và nếu có một cách nghiêm ngặt để chống lại điều này trong thống kê.
Amelio Vazquez-Reina

5
Việc sử dụng cụm từ của tôi được lấy cảm hứng từ Knuth, mặc dù lý do là khác nhau và theo quan điểm của Bayes, tất cả tối ưu hóa là một điều xấu và ngoài lề là tốt hơn.
Dikran Marsupial

3

Một vài cách bạn có thể phân tích trích dẫn (trong thống kê), giả sử tối ưu hóa đề cập đến lựa chọn mô hình (dựa trên dữ liệu):

  • Nếu bạn quan tâm đến dự đoán, bạn có thể tốt hơn với tính trung bình của mô hình thay vì chọn một mô hình duy nhất.
  • Nếu bạn chọn một mô hình trên cùng một tập dữ liệu được sử dụng để phù hợp với mô hình đó, nó sẽ tàn phá các công cụ / quy trình suy luận thông thường giả định rằng bạn đã chọn mô hình đó là một tiên nghiệm . (Giả sử bạn thực hiện hồi quy từng bước, chọn kích thước mô hình bằng xác thực chéo. Đối với phân tích Thường xuyên, các giá trị p hoặc CIs thông thường cho mô hình đã chọn sẽ không chính xác. Tôi chắc chắn có các vấn đề tương ứng đối với các phân tích Bayes liên quan đến mô hình lựa chọn.)
  • Nếu tập dữ liệu của bạn đủ lớn so với họ mô hình bạn xem xét, việc quá mức thậm chí có thể không phải là vấn đề và lựa chọn mô hình có thể không cần thiết. (Giả sử bạn sẽ phù hợp với hồi quy tuyến tính bằng cách sử dụng bộ dữ liệu với một vài biến và rất nhiều quan sát. Bất kỳ biến giả nào cũng sẽ nhận được hệ số ước tính gần bằng 0, vì vậy có lẽ bạn không cần phải chọn mô hình nhỏ hơn.)
  • Nếu tập dữ liệu của bạn đủ nhỏ, bạn có thể không có đủ dữ liệu để phù hợp với mô hình "đúng" hoặc "tốt nhất" cho vấn đề. Điều đó có nghĩa gì khi thực hiện lựa chọn mô hình tốt, trong trường hợp đó? (Trở về hồi quy tuyến tính: có nên bạn nhằm mục đích để chọn mô hình "true" với các biến đúng, ngay cả khi bạn không có đủ dữ liệu để đo lường chúng tất cả đầy đủ nên bạn chỉ cần chọn các mô hình lớn nhất mà bạn làm có đủ dữ liệu ?)
  • Cuối cùng, ngay cả khi rõ ràng bạn có thể và nên thực hiện lựa chọn mô hình, xác thực chéo không phải là thuốc chữa bách bệnh. Nó có nhiều biến thể và thậm chí cả tham số điều chỉnh riêng (số lần gấp hoặc tỷ lệ kiểm tra: tỷ lệ kiểm tra) tác động đến các thuộc tính của nó. Vì vậy, đừng tin tưởng nó một cách mù quáng.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.