Định nghĩa của Best best tốt nhất được sử dụng trong thuật ngữ phù hợp nhất và xác thực chéo là gì?


16

Nếu bạn khớp một hàm phi tuyến tính với một tập hợp các điểm (giả sử chỉ có một tọa độ cho mỗi abscissa) thì kết quả có thể là:

  1. một chức năng rất phức tạp với số dư nhỏ
  2. một chức năng rất đơn giản với số dư lớn

Xác nhận chéo thường được sử dụng để tìm ra sự thỏa hiệp "tốt nhất" giữa hai thái cực này. Nhưng "tốt nhất" nghĩa là gì? Có phải "rất có thể"? Làm thế nào bạn thậm chí sẽ bắt đầu chứng minh giải pháp có khả năng nhất là gì?

Giọng nói bên trong của tôi đang nói với tôi rằng CV đang tìm kiếm một giải pháp năng lượng tối thiểu nào đó. Điều này khiến tôi nghĩ về entropy, điều mà tôi mơ hồ biết xảy ra trong cả chỉ số và vật lý.

Dường như với tôi rằng sự phù hợp "tốt nhất" được tạo ra bằng cách giảm thiểu tổng số các hàm phức tạp và lỗi tức là

minimising m where m = c(Complexity) + e(Error)

Liệu điều này có ý nghĩa gì? Các chức năng c và e sẽ là gì?

Xin vui lòng bạn có thể giải thích bằng ngôn ngữ phi toán học, bởi vì tôi sẽ không hiểu nhiều toán học.


1
Tốt nhất là mô hình có lỗi trong tương lai thấp nhất và xác thực chéo cung cấp cho bạn ước tính đó. Lý do cho các công thức c (Độ phức tạp) + e (Lỗi) là do bạn có thể sử dụng lỗi trên dữ liệu huấn luyện để ước tính lỗi trong tương lai, nhưng điều đó quá lạc quan, vì vậy bạn thêm một thuật ngữ để ước tính này không thiên vị, thường là một số chức năng của độ phức tạp của mô hình
Yaroslav Bulatov

Mặt khác, lý luận dưới ánh sáng của hiện tượng Runge (một lần nữa truyền cảm hứng vật lý) dẫn đến một kết luận rằng lỗi trong tương lai là một cái gì đó về Độ phức tạp / Train_Error.

Matt Krause đã đưa ra một câu trả lời tuyệt vời cho một câu hỏi tương tự ở đây: stats.stackexchange.com/a/21925/14640 Diễn giải từ câu trả lời của anh ấy: Mục tiêu là cân bằng độ phức tạp của mô hình với khả năng giải thích của mô hình và vì vậy khái niệm phân tích cú pháp là tốt hơn đo lường sự phù hợp của một mô hình hơn là khái niệm phù hợp nhất với lỗi. Điều này là do một mô hình rất phức tạp có thể phù hợp với dữ liệu mà không thể dự đoán hoặc giải thích kết quả mới tốt hơn.
Assad Ebrahim

Câu trả lời:


6

Tôi nghĩ rằng đây là một câu hỏi tuyệt vời. Tôi sẽ paraphase nó chỉ để chắc chắn rằng tôi đã hiểu đúng:

Dường như có rất nhiều cách để chọn hàm hình phạt phức tạp và hàm hình phạt lỗi . Lựa chọn nào là 'tốt nhất'. Điều gì tốt nhất thậm chí có nghĩa là ?ece

Tôi nghĩ rằng câu trả lời (nếu có) sẽ đưa bạn vượt ra ngoài việc xác nhận chéo. Tôi thích cách câu hỏi này (và chủ đề nói chung) liên kết độc đáo với Occam's Razor và khái niệm chung về sự kỳ thị là nền tảng cho khoa học. Tôi không có nghĩa là một chuyên gia trong lĩnh vực này nhưng tôi thấy câu hỏi này cực kỳ thú vị. Văn bản tốt nhất mà tôi biết về các loại câu hỏi này là Trí thông minh nhân tạo toàn cầu của Marcus Hutter (đừng hỏi tôi bất kỳ câu hỏi nào về nó, mặc dù vậy, tôi chưa đọc hầu hết câu hỏi này). Tôi đã đi đến một cuộc nói chuyện của Hutter và vài năm trước và rất ấn tượng.

Bạn đã đúng khi nghĩ rằng có một đối số entropy tối thiểu ở đó ở đâu đó (được sử dụng cho hàm hình phạt phức tạp theo một cách nào đó). Hutter ủng hộ việc sử dụng độ phức tạp Kolmogorov thay vì entropy. Ngoài ra, định nghĩa 'tốt nhất' của Hutter (theo như tôi nhớ) là (một cách không chính thức) mô hình dự đoán tốt nhất về tương lai (tức là dự đoán tốt nhất dữ liệu sẽ được quan sát trong tương lai). Tôi không thể nhớ làm thế nào anh ta chính thức hóa khái niệm này.c


Bạn hiểu câu hỏi. Tôi sẽ theo các liên kết.
bart

Bạn nên biết rằng những liên kết này khó có thể đưa bạn đến bất cứ nơi nào 'thực tế'. Nếu bạn đang cố gắng xây dựng một cái gì đó bằng cách sử dụng xác nhận chéo (hoặc một số loại lựa chọn mô hình khác) thì trong thực tế, nó có khả năng luôn đi xuống một thứ heuristic và một chút đặc biệt (mặc dù tôi đồng ý rằng điều này không thỏa mãn).
Robby McKilliam

Bây giờ chúng tôi đang nhận được ở đâu đó. vi.wikipedia.org/wiki/Minimum_message_length dường như là những gì tôi đã nghĩ. Cảm ơn!
bart

Đừng lo lắng. Đây chỉ là sự phản ánh, không thực tế.
bart

9

Tôi sẽ đưa ra một câu trả lời trực quan ngắn gọn (ở mức độ khá trừu tượng) cho đến khi một câu trả lời tốt hơn được cung cấp bởi người khác:

Đầu tiên, lưu ý rằng các hàm / mô hình phức tạp đạt được sự phù hợp tốt hơn (nghĩa là có số dư thấp hơn) khi chúng khai thác một số tính năng cục bộ (nghĩ nhiễu) của bộ dữ liệu không có trên toàn cầu (nghĩ các mẫu có hệ thống).

Thứ hai, khi thực hiện xác nhận chéo, chúng tôi chia dữ liệu thành hai bộ: tập huấn luyện và tập xác thực.

Do đó, khi chúng tôi thực hiện xác nhận chéo, một mô hình phức tạp có thể không dự đoán tốt lắm vì theo định nghĩa, một mô hình phức tạp sẽ khai thác các tính năng cục bộ của tập huấn luyện. Tuy nhiên, các tính năng cục bộ của tập huấn luyện có thể rất khác so với các tính năng cục bộ của bộ xác thực dẫn đến hiệu suất dự đoán kém. Do đó, chúng tôi có xu hướng chọn mô hình nắm bắt các tính năng toàn cầu của đào tạo và bộ dữ liệu xác nhận.

Tóm lại, xác thực chéo bảo vệ chống lại quá mức bằng cách chọn mô hình nắm bắt các mẫu toàn cầu của bộ dữ liệu và bằng cách tránh các mô hình khai thác một số tính năng cục bộ của bộ dữ liệu.


@Srikant Tôi biết tất cả điều này. CV là một phương tiện để tìm kiếm "tốt nhất". Định nghĩa của "tốt nhất" là gì?
bart

@bart 'mô hình tốt nhất' = một mô hình 'tốt nhất' nắm bắt các mẫu toàn cầu trong khi tránh các tính năng cục bộ của dữ liệu. Đó là điều tốt nhất tôi có thể làm cho một mô tả phi toán học. Có lẽ, người khác có thể xây dựng thêm một chút hoặc cụ thể hơn.

@bart: "tốt nhất" có nghĩa là chức năng phù hợp nhất với dữ liệu đào tạo và "tổng quát hóa" tốt cho dữ liệu của bộ xác thực / không kiểm tra. Tôi nghĩ điều này khá rõ ràng từ câu trả lời của Srikant. Có nhiều cách để chính thức xác định một hành vi khái quát tốt. Trong một ý nghĩa không chính thức, bạn có thể nghĩ về nó như là tìm một chức năng "trơn tru" và không nhiều lung lay. Cố gắng chỉ phù hợp với dữ liệu đào tạo có thể dẫn đến chức năng nhìn lung linh trong khi độ mượt mà thường đảm bảo rằng chức năng đó sẽ hoạt động tốt trên cả dữ liệu kiểm tra và xác thực / kiểm tra.
mun1

@ebony: Bạn đang thiếu điểm. Tôi đã viết lại các câu hỏi để hy vọng làm cho nó rõ ràng hơn
bart

5

Theo quan điểm học máy nói chung, câu trả lời khá đơn giản: chúng tôi muốn xây dựng mô hình sẽ có độ chính xác cao nhất khi dự đoán dữ liệu mới (chưa thấy trong quá trình đào tạo). Bởi vì chúng tôi không thể trực tiếp kiểm tra điều này (chúng tôi không có dữ liệu từ tương lai), chúng tôi thực hiện mô phỏng Monte Carlo của một thử nghiệm như vậy - và về cơ bản đây là ý tưởng bên dưới xác nhận chéo.

Có thể có một số vấn đề về độ chính xác là gì (ví dụ, một khách hàng doanh nghiệp có thể nói rằng chi phí vượt mức 5 € mỗi đơn vị và hoàn thành 0,01 € mỗi đơn vị, vì vậy tốt hơn là xây dựng một mô hình ít chính xác hơn nhưng không thể khởi động hơn), nhưng nói chung là là khá trực quan phần trăm câu trả lời đúng trong phân loại và phương sai được giải thích rộng rãi trong hồi quy.


3

Rất nhiều người có câu trả lời tuyệt vời, đây là 0,02 đô la của tôi.

Có hai cách để xem "mô hình tốt nhất" hoặc "lựa chọn mô hình", nói theo thống kê:

1 Một lời giải thích đơn giản nhất có thể, nhưng không đơn giản hơn (Attrib. Einstein)

- This is also called Occam's Razor, as explanation applies here.
- Have a concept of True model or a model which approximates the truth
- Explanation is like doing scientific research


2 Dự đoán là mối quan tâm, tương tự như phát triển kỹ thuật.

- Prediction is the aim, and all that matters is that the model works
- Model choice should be based on quality of predictions
- Cf: Ein-Dor, P. & Feldmesser, J. (1987) Attributes of the performance of central processing units: a relative performance prediction model. Communications of the ACM 30, 308–317.

Quan niệm rộng rãi (mis):

Lựa chọn mô hình tương đương với việc chọn mô hình tốt nhất

Để giải thích, chúng ta nên cảnh giác để có khả năng có một số mô hình giải thích tốt (gần như) tốt như nhau. Sự đơn giản giúp cả hai truyền đạt các khái niệm được thể hiện trong mô hình và theo cách mà các nhà tâm lý học gọi là khái quát hóa, khả năng 'làm việc' trong các tình huống rất khác so với các mô hình mà nghiên cứu mô hình. Vì vậy, có một phí bảo hiểm trên một số mô hình.

Để dự đoán: sự tương tự tốt của (Tiến sĩ Ripley) là lựa chọn giữa các ý kiến ​​chuyên gia: nếu bạn có quyền truy cập vào một nhóm lớn các chuyên gia, bạn sẽ sử dụng ý kiến ​​của họ như thế nào?

Xác nhận chéo sẽ quan tâm đến khía cạnh dự đoán. Để biết chi tiết về CV, vui lòng tham khảo bài trình bày này của Tiến sĩ BD Ripley Bài thuyết trình của Tiến sĩ Brian D. Ripley về lựa chọn mô hình

Trích dẫn: Xin lưu ý rằng tất cả mọi thứ trong câu trả lời này là từ phần trình bày được trích dẫn ở trên. Tôi là một fan hâm mộ lớn của bài thuyết trình này và tôi thích nó. Các ý kiến ​​khác có thể khác nhau. Tiêu đề của bài thuyết trình là: "Lựa chọn giữa các lớp người mẫu lớn" và đã được trao tại Hội nghị chuyên đề mừng sinh nhật lần thứ 80 của John Nelder, Đại học Hoàng gia, ngày 29 tháng 3 năm 2004, bởi Tiến sĩ Brian D. Ripley.


3

Cuộc thảo luận tuyệt vời ở đây, nhưng tôi nghĩ về việc xác nhận chéo theo một cách khác với các câu trả lời cho đến nay (mbq và tôi đang ở trên cùng một trang tôi nghĩ). Vì vậy, tôi sẽ đặt hai xu của mình vào nguy cơ làm vấy bẩn vùng biển ...

Xác thực chéo là một kỹ thuật thống kê để đánh giá độ biến thiên và sai lệch, do lỗi lấy mẫu, trong khả năng phù hợp và dự đoán dữ liệu của một mô hình. Do đó, "tốt nhất" sẽ là mô hình cung cấp lỗi tổng quát hóa thấp nhất, sẽ là đơn vị biến thiên và sai lệch. Các kỹ thuật như Bayesian và Bootstrap Model Averaging có thể được sử dụng để cập nhật một mô hình theo cách thuật toán dựa trên kết quả từ nỗ lực xác thực chéo.

Câu hỏi thường gặp này cung cấp thông tin tốt cho nhiều bối cảnh hơn về những gì cho biết ý kiến ​​của tôi.


1

Hàm lỗi là lỗi của mô hình (hàm) của bạn trên dữ liệu huấn luyện. Độ phức tạp là một số chỉ tiêu (ví dụ: bình phương l2 định mức) của hàm bạn đang cố gắng học. Giảm thiểu thuật ngữ phức tạp về cơ bản ủng hộ các chức năng trơn tru, hoạt động tốt không chỉ trên dữ liệu đào tạo mà còn trên dữ liệu thử nghiệm. Nếu bạn biểu diễn hàm của mình bằng một tập hợp các hệ số (giả sử, nếu bạn đang thực hiện hồi quy tuyến tính), việc xử phạt độ phức tạp theo chỉ tiêu bình phương sẽ dẫn đến các giá trị hệ số nhỏ trong hàm của bạn (xử phạt các chỉ tiêu khác dẫn đến các khái niệm khác nhau về kiểm soát độ phức tạp).


1

(p,q)1,λ>0

(1)Argmin.β|λ,x,y||ym(x,β)||p+λ||β||q

tương đương với

(2)Argmin.β|λ,x,y||ym(x,β)||p

s.t. ||β||qλ

||β||qλq=1,2β^β^

λλ=(x,y)(1)(2)λβ^|λ

Đối với truy vấn con của bạn (tại sao ) điều này là do với ( ) thước đo khoảng cách giữa mô hình và các quan sát này có thể lấy được (dễ dàng) thuộc tính giả định (hội tụ mạnh mẽ với các kết hợp dân số có ý nghĩa của ). p = 1 p = 2 m ( )e()=||ym(x,β)||pp=1p=2m()


1
Là một tham số đó là miễn phí để được lựa chọn? λ
Robby McKilliam

@Rulk:> cảm ơn. Tôi hơi nối thêm văn bản để làm cho sự khác biệt giữa các tham số và siêu đường kính rõ ràng.
user603

@kwak: Tôi rất tiếc phải nói rằng tôi không biết điều này có nghĩa là gì. Các ký hiệu p, q, lambda, x, y, m và beta có ý nghĩa gì?
bart

@bart:> Câu trả lời của tôi về cơ bản giống như của Srikant. Trường hợp anh ấy cung cấp một khám phá trực quan, tôi muốn thêm một câu hỏi khắt khe hơn vì lợi ích của khách truy cập trong tương lai có thể có cùng câu hỏi với bạn, nhưng lại quen thuộc với toán học hơn ngôn ngữ không chính quy. Tất cả các biểu tượng bạn đề cập được xác định trong câu trả lời của tôi (một lần nữa, điều này được thực hiện chính thức).
user603

@kwak: Ví dụ, p được định nghĩa ở đâu?
bart
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.