Nguyên lý dao cạo của Occam sẽ hoạt động như thế nào trong Học máy


11

Câu hỏi sau đây được hiển thị trong hình ảnh đã được hỏi trong một trong những kỳ thi gần đây. Tôi không chắc mình đã hiểu chính xác nguyên lý Dao cạo của Occam hay chưa. Theo các phân phối và ranh giới quyết định được đưa ra trong câu hỏi và theo Occam's Razor, ranh giới quyết định B trong cả hai trường hợp sẽ là câu trả lời. Bởi vì theo Occam's Razor, hãy chọn trình phân loại đơn giản hơn, thực hiện công việc tốt thay vì phức tạp.

Ai đó có thể làm chứng nếu sự hiểu biết của tôi là chính xác và câu trả lời được chọn là phù hợp hay không? Xin hãy giúp đỡ vì tôi chỉ là người mới bắt đầu học máy

câu hỏi


2
3.328 "Nếu một dấu hiệu là không cần thiết thì nó là vô nghĩa. Đó là ý nghĩa của Occam's Razor." Từ Tractatus Logico-Philosophicus của Wittgenstein
Jorge Barrios

Câu trả lời:


13

Nguyên tắc dao cạo của Occam:

Có hai giả thuyết (ở đây, ranh giới quyết định) có cùng rủi ro thực nghiệm (ở đây, lỗi đào tạo), một lời giải thích ngắn (ở đây, một ranh giới có ít tham số hơn) có xu hướng hợp lệ hơn một lời giải thích dài.

Trong ví dụ của bạn, cả A và B đều không có lỗi đào tạo, do đó B (giải thích ngắn hơn) được ưu tiên.

Nếu lỗi đào tạo không giống nhau thì sao?

Nếu ranh giới A có lỗi đào tạo nhỏ hơn B, việc chọn trở nên khó khăn. Chúng ta cần định lượng "kích thước giải thích" giống như "rủi ro thực nghiệm" và kết hợp cả hai trong một chức năng chấm điểm, sau đó tiến hành so sánh A và B. Một ví dụ sẽ là Tiêu chí thông tin Akaike (AIC) kết hợp rủi ro thực nghiệm (được đo bằng âm khả năng đăng nhập) và kích thước giải thích (được đo bằng số lượng tham số) trong một điểm.

Một lưu ý phụ, AIC không thể được sử dụng cho tất cả các mô hình, có nhiều lựa chọn thay thế cho AIC.

Liên quan đến bộ xác nhận

Trong nhiều trường hợp thực tế, khi mô hình tiến tới độ phức tạp hơn (giải thích lớn hơn) để đạt được lỗi đào tạo thấp hơn, AIC và tương tự có thể được thay thế bằng một bộ xác nhận (một bộ mà mô hình không được đào tạo). Chúng tôi dừng tiến trình khi lỗi xác thực (lỗi mô hình trên bộ xác thực) bắt đầu tăng. Bằng cách này, chúng tôi đạt được sự cân bằng giữa lỗi đào tạo thấp và giải thích ngắn.


3

Occam Razor chỉ là một từ đồng nghĩa với hiệu trưởng Parsimony. (KISS, Giữ cho nó đơn giản và ngu ngốc.) Hầu hết các thuật toán đều làm việc trong hiệu trưởng này.

Trong câu hỏi trên, người ta phải suy nghĩ trong việc thiết kế các ranh giới đơn giản có thể tách rời,

giống như trong hình đầu tiên câu trả lời D1 là B. Vì nó xác định dòng tốt nhất tách 2 mẫu, vì a là đa thức và có thể kết thúc quá khớp. (nếu tôi đã sử dụng SVM thì dòng đó sẽ đến)

tương tự trong hình 2 câu trả lời D2 là B.


2

Dao cạo của Occam trong các nhiệm vụ phù hợp với dữ liệu:

  1. Đầu tiên hãy thử phương trình tuyến tính
  2. Nếu (1) không giúp được gì nhiều - hãy chọn một phi tuyến tính với ít thuật ngữ và / hoặc mức độ biến nhỏ hơn.

Đ2

Bchiến thắng rõ ràng, bởi vì đó là ranh giới tuyến tính phân tách dữ liệu độc đáo. (Hiện tại "độc đáo" tôi không thể xác định. Bạn phải phát triển cảm giác này bằng kinh nghiệm). Aranh giới là rất phi tuyến tính mà giống như một sóng hình sin bị xáo trộn.

D1

Tuy nhiên tôi không chắc chắn về điều này. Aranh giới giống như một vòng tròn và Blà tuyến tính nghiêm ngặt. IMHO, đối với tôi - đường biên không phải là đoạn tròn cũng không phải là đoạn thẳng, - đó là đường cong giống như parabola:

nhập mô tả hình ảnh ở đây

Vì vậy, tôi chọn cho một C:-)


Tôi vẫn không chắc chắn lý do tại sao bạn muốn có một đường giữa cho D1. Occam's Razor cho biết sử dụng giải pháp đơn giản mà hiệu quả. Không có nhiều dữ liệu, B là một bộ phận hoàn toàn hợp lệ phù hợp với dữ liệu. Nếu chúng tôi nhận được nhiều dữ liệu gợi ý nhiều hơn về đường cong cho tập dữ liệu của B thì tôi có thể thấy đối số của bạn, nhưng yêu cầu C đi ngược lại quan điểm của bạn (1), vì đó là ranh giới tuyến tính hoạt động.
Delioth

Bởi vì có rất nhiều khoảng trống từ Bđường thẳng đến cụm điểm tròn bên trái. Điều này có nghĩa là bất kỳ điểm ngẫu nhiên mới nào đến đều có cơ hội rất cao được gán cho cụm tròn bên trái và cơ hội rất nhỏ để được gán cho cụm ở bên phải. Do đó, Bđường thẳng không phải là một ranh giới tối ưu trong trường hợp các điểm ngẫu nhiên mới trên mặt phẳng. Và bạn không thể bỏ qua tính ngẫu nhiên của dữ liệu, bởi vì thông thường luôn có sự dịch chuyển điểm ngẫu nhiên
Ag Pa Vasiliauskas

0

Tôi không chắc mình đã hiểu chính xác nguyên lý Dao cạo của Occam hay chưa.

Trước tiên hãy giải quyết dao cạo của Occam:

Dao cạo của Occam [..] nói rằng "các giải pháp đơn giản có nhiều khả năng đúng hơn các giải pháp phức tạp." - Wiki

Tiếp theo, hãy giải quyết câu trả lời của bạn:

Bởi vì theo Occam's Razor, hãy chọn trình phân loại đơn giản hơn, thực hiện công việc tốt thay vì phức tạp.

Điều này là chính xác bởi vì, trong học máy, quá mức là một vấn đề. Nếu bạn chọn một mô hình phức tạp hơn, bạn có nhiều khả năng phân loại dữ liệu thử nghiệm và không phải là hành vi thực tế của vấn đề của bạn. Điều này có nghĩa là, khi bạn sử dụng trình phân loại phức tạp của mình để đưa ra dự đoán về dữ liệu mới, nó có nhiều khả năng tệ hơn trình phân loại đơn giản.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.