Ý nghĩa của định lý Bữa trưa không có bữa trưa miễn phí cho học máy là gì?


10

Định lý Không ăn trưa miễn phí (NFL) nêu rõ (xem bài báo Bữa trưa miễn phí hợp tác của David H. Wolpert và William G. Mac đã)

bất kỳ hai thuật toán đều tương đương khi hiệu suất của chúng được tính trung bình trên tất cả các vấn đề có thể xảy ra

Định lý "Không ăn trưa miễn phí" có thực sự đúng không? nó thực sự có nghĩa là gì? Một ví dụ hay (trong ngữ cảnh ML) minh họa cho khẳng định này sẽ rất hay.

Tôi đã thấy một số thuật toán hoạt động rất kém và tôi có một thời gian khó tin rằng chúng thực sự tuân theo định lý đã nêu ở trên, vì vậy tôi đang cố gắng hiểu cách giải thích của tôi về định lý này là đúng hay không. Hay đó chỉ là một định lý trang trí khác như định lý xấp xỉ phổ quát của Cybenko?

Câu trả lời:


10

Đây là một phản ứng thực sự phổ biến sau lần đầu tiên bắt gặp các định lý Không ăn trưa miễn phí (NFL). Cái dành cho học máy đặc biệt không trực quan, bởi vì nó bay trước mọi thứ được thảo luận trong cộng đồng ML. Điều đó nói rằng, định lý là đúng, nhưng ý nghĩa của nó là mở cho một số cuộc tranh luận.

Để phục hồi định lý cho những người không biết nó, định lý NFL cho học máy thực sự là một trường hợp đặc biệt của định lý NFL cho tìm kiếm và tối ưu hóa cục bộ . Phiên bản tìm kiếm địa phương dễ hiểu hơn. Định lý đưa ra những tuyên bố sau, có phần triệt để:

Tính trung bình trên tất cả các vấn đề tối ưu hóa có thể có, chất lượng giải pháp trung bình được tìm thấy bởi bất kỳ thuật toán tìm kiếm cục bộ nào bạn chọn sử dụng hoàn toàn giống với chất lượng giải pháp trung bình của thuật toán "tìm kiếm" cục bộ chỉ tạo ra các giải pháp có thể bằng cách lấy mẫu ngẫu nhiên từ không gian của tất cả các giải pháp.

Một công thức khác, khi mọi người muốn có phản ứng mạnh mẽ hơn, đó là nói rằng nếu bạn muốn tìm giải pháp tốt nhất cho vấn đề, thì cũng tốt để thử những thứ dường như làm cho giải pháp của bạn lặp đi lặp lại tồi tệ hơn là thử những thứ đó dường như đang làm cho giải pháp của bạn lặp đi lặp lại tốt hơn. Trung bình, cả hai cách tiếp cận này đều tốt như nhau.

Được rồi, vậy tại sao điều này là đúng? Vâng, chìa khóa là trong các chi tiết. Wolpert đôi khi đã mô tả định lý này như một chuyên môn hóa của Hume về vấn đề cảm ứng . Tuyên bố cơ bản của vấn đề cảm ứng là: chúng ta không có cơ sở logic để cho rằng tương lai sẽ giống như quá khứ. Về mặt logic, không có lý do gì mà các định luật vật lý không thể thay đổi hoàn toàn vào ngày mai. Từ một hoàn toàn logic quan điểm, đó là hoàn toàn hợp lý rằng tương lai có thể khác nhau từ quá khứ trong bất kỳ số cách khác nhau. Vấn đề của Hume là, nói chung tương lai như quá khứ trong rất nhiều cách khác nhau. Ông đã cố gắng đưa ra một lập luận triết học (logic) rằng điều này cần phải như vậy, nhưng về cơ bản là thất bại.

k

Một bản tóm tắt rất ngắn gọn có thể là:

Một thuật toán học máy chỉ có thể được thực hiện để hoạt động tốt hơn đối với một số loại vấn đề bằng cách được thực hiện để làm việc tồi tệ hơn đối với một loại vấn đề khác.

Vì vậy, điều này có nghĩa là gì trong một ý nghĩa thực tế? Điều đó có nghĩa là bạn cần có một số lý do apriori để nghĩ rằng thuật toán của bạn sẽ có hiệu quả đối với một vấn đề cụ thể . Chính xác những gì một tốt lý do ngoại hình giống như là chủ đề của cuộc tranh luận mạnh mẽ trong cộng đồng ML. Điều này liên quan rất chặt chẽ đến sự đánh đổi sai lệch / sai lệch .

Một số câu trả lời phổ biến là:

  • Khi bạn đang xem xét một vấn đề tối ưu hóa mới, mặc dù nó có thể có bất kỳ loại cấu trúc ngẫu nhiên nào, các vấn đề chúng ta thực sự gặp phải trong thế giới thực thường xuyên hơn rất nhiều và một số chủ đề phổ biến hiện diện, như thực tế là đang di chuyển " khó khăn "(giảm thiểu lỗi) lặp đi lặp lại có xu hướng dẫn đến các giải pháp tốt. Về cơ bản, trường phái tư tưởng này nói rằng NFL là một định lý trang trí: hầu hết các thuật toán ML hoạt động tốt hơn về "loại vấn đề chúng ta gặp trong đời thực", bằng cách làm việc tồi tệ hơn về "loại vấn đề chúng ta không gặp trong đời thực".
  • Khi bạn đang xem xét một vấn đề tối ưu hóa mới trong [chèn miền ứng dụng yêu thích của bạn], mặc dù nó có thể có bất kỳ loại cấu trúc ngẫu nhiên nào, các vấn đề có xu hướng giống như [bất cứ điều gì bạn nghĩ], khiến [thuật toán yêu thích của bạn] nhiều hơn hiệu quả hơn so với đoán ngẫu nhiên.
  • Chính Wolpert & McC đã công bố một kết quả thú vị cho thấy thực sự các quy trình tối ưu hóa chuyên biệt, dựa trên quá trình đồng tiến hóa, luôn tốt hơn so với đoán ngẫu nhiên.

Bất kể, không thể chối cãi rằng một số thuật toán tốt hơn các thuật toán khác, trong một số tên miền phụ nhất định (chúng ta có thể thấy điều này theo kinh nghiệm). NFL nói với chúng ta rằng để tốt hơn ở đó, họ cần phải tồi tệ hơn ở một nơi khác. Câu hỏi đặt ra để tranh luận là liệu "nơi nào khác" là vấn đề thực sự, hay hoàn toàn là nhân tạo.


"Mặc dù bất kỳ vấn đề tối ưu hóa có thể có mặt", hiện tại? Tôi đề nghị bạn làm rõ các điểm trong phần "Một số câu trả lời phổ biến là:".
nbro

Câu trả lời chính xác. Nhưng theo thuật toán họ có bao gồm tất cả các biến thể của nó? Ví dụ, backprop có thể được thực hiện bởi các công cụ phái sinh, hoặc bằng cách lấy những khác biệt nhỏ hoặc bằng các công cụ phái sinh kép (theo như tôi biết), vậy chúng giống nhau hay khác nhau? Và bởi hiệu suất là kết quả cuối cùng hay tài nguyên quá?
DuttaA

1
@nbro: Thật ra tôi nghĩ đó chỉ là sự lựa chọn đáng tiếc <>để hiển thị giữ chỗ. Tôi đã chuyển chúng ra để bạn có thể thấy gần hơn với những gì John dự định.
Neil Slater

@NeilSlater Yep, cảm ơn vì đã làm điều đó!
John Doucette

1
k
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.