Cách tiếp cận tốt nhất để lựa chọn mô hình Bayesian hoặc xác nhận chéo?


22

Khi cố gắng chọn trong số các mô hình khác nhau hoặc số lượng tính năng để đưa vào, hãy nói dự đoán tôi có thể nghĩ ra hai cách tiếp cận.

  1. Chia dữ liệu thành tập huấn luyện và kiểm tra. Vẫn tốt hơn, sử dụng xác thực chéo bootstrapping hoặc k-Fold. Huấn luyện về tập huấn luyện mỗi lần và tính toán sai số trong tập kiểm tra. Lỗi kiểm tra lô so với số lượng tham số. Thông thường, bạn nhận được một cái gì đó như thế này:nhập mô tả hình ảnh ở đây
  2. Tính toán khả năng của mô hình bằng cách tích hợp trên các giá trị của các tham số. tức là tính và vẽ biểu đồ này theo số lượng tham số. Sau đó chúng tôi nhận được một cái gì đó như thế này:θP(D|θ)P(θ)dθnhập mô tả hình ảnh ở đây

Vì vậy, câu hỏi của tôi là:

  1. Những cách tiếp cận này có phù hợp để giải quyết vấn đề này không (quyết định có bao nhiêu tham số trong mô hình của bạn hoặc chọn trong số một số mô hình)?
  2. Chúng có tương đương không? Chắc là không. Họ sẽ đưa ra mô hình tối ưu tương tự theo các giả định nhất định hoặc trong thực tế?
  3. Khác với sự khác biệt triết học thông thường của việc chỉ định kiến ​​thức trước trong các mô hình Bayes, v.v., những ưu và nhược điểm của mỗi phương pháp là gì? Bạn sẽ chọn cái nào?

Cập nhật: Tôi cũng tìm thấy câu hỏi liên quan về việc so sánh AIC và BIC. Có vẻ như phương pháp 1 của tôi không có triệu chứng tương đương với AIC và phương pháp 2 có liên quan không có triệu chứng với BIC. Nhưng tôi cũng đọc được rằng BIC tương đương với CV rời khỏi. Điều đó có nghĩa là tối thiểu lỗi đào tạo và tối đa khả năng Bayesian tương đương trong đó LOO CV tương đương với K-Fold CV. Một bài báo có lẽ rất thú vị " Một lý thuyết tiệm cận cho lựa chọn mô hình tuyến tính " của Jun Shao liên quan đến những vấn đề này.


Tôi thực sự không có câu trả lời đầy đủ, nhưng tôi sẽ đề cập rằng tôi thường không nghĩ đến việc sử dụng một trong hai phương pháp để "chọn số lượng tính năng". Nói chung, tôi giải thích Machine Learning và Bayesian Statistics chỉ bao gồm tất cả các tính năng vì tất cả chúng đều có thể có một số mức độ ảnh hưởng tối thiểu. Tuy nhiên, tôi nghĩ rằng câu hỏi về độ phức tạp của mô hình tương đối vẫn phù hợp. Tôi cũng sẽ nói rằng tôi chưa bao giờ thực sự thực hiện suy luận Bayes mà bạn ám chỉ; nó dường như trở nên quá lộn xộn trong thực tế so với sự đơn giản của k-Fold hoặc bootstrapping.
Shea Parkes

Lưu ý rằng giấy Shao chỉ hoạt động cho các mô hình tuyến tính; trong thực tế, chỉ có cấu trúc đơn giản của chúng làm cho số lượng các tính năng có thể sử dụng như một thước đo phức tạp và do đó cung cấp năng lượng cho tất cả các tiêu chí thông tin đó.

1
AIC ( không phải BIC! ) Tương đương không có triệu chứng với xác nhận chéo một lần theo các giả định yếu (do Stone "Một sự tương đương không có triệu chứng của sự lựa chọn mô hình theo xác nhận chéo và tiêu chí của Akaike" (1977) ). Nguồn trong câu hỏi mà bạn đề cập là sai và đã được Rob Hyndman sửa chữa trong một bình luận. Tôi nghĩ rằng nó cũng có thể là một ý tưởng tốt để sửa nó ở đây, để ngừng lan truyền ý tưởng sai.
Richard Hardy

Câu trả lời:


13
  1. Những cách tiếp cận này có phù hợp để giải quyết vấn đề này không (quyết định có bao nhiêu tham số trong mô hình của bạn hoặc chọn trong số một số mô hình)?

Hoặc là một trong những có thể, có. Nếu bạn quan tâm đến việc có được một mô hình dự đoán tốt nhất, trong danh sách các mô hình bạn xem xét, phương pháp phân tách / xác thực chéo có thể làm tốt điều đó. Nếu bạn quan tâm đến việc biết mô hình nào (trong danh sách mô hình giả định của bạn) thực sự là mô hình tạo dữ liệu của bạn, thì cách tiếp cận thứ hai (đánh giá xác suất sau của mô hình) là điều bạn muốn.

  1. Chúng có tương đương không? Chắc là không. Họ sẽ đưa ra mô hình tối ưu tương tự theo các giả định nhất định hoặc trong thực tế?

Không, chúng không nói chung tương đương. Ví dụ: sử dụng AIC (Tiêu chí thông tin của Akaike) để chọn mô hình 'tốt nhất' tương ứng với xác thực chéo, xấp xỉ. Sử dụng BIC (Tiêu chí thông tin Bayes) tương ứng với việc sử dụng xác suất sau, một lần nữa xấp xỉ. Đây không phải là cùng một tiêu chí, vì vậy, người ta nên mong đợi chúng sẽ dẫn đến các lựa chọn khác nhau, nói chung. Họ có thể đưa ra những câu trả lời giống nhau - bất cứ khi nào mô hình dự đoán tốt nhất cũng là sự thật - nhưng trong nhiều tình huống, mô hình phù hợp nhất thực sự là một trang phục, dẫn đến sự bất đồng giữa các phương pháp.

Họ có đồng ý trong thực tế không? Nó phụ thuộc vào những gì 'thực hành' của bạn liên quan. Hãy thử cả hai cách và tìm hiểu.

  1. Khác với sự khác biệt triết học thông thường của việc chỉ định kiến ​​thức trước trong các mô hình Bayes, v.v., những ưu và nhược điểm của mỗi phương pháp là gì? Bạn chọn cái nào?
  • Việc tính toán để xác thực chéo thường dễ dàng hơn nhiều so với tính toán xác suất sau
  • Thật khó để đưa ra một trường hợp thuyết phục rằng mô hình 'thật' nằm trong danh sách mà bạn đang chọn. Đây là một vấn đề để sử dụng xác suất sau, nhưng không xác thực chéo
  • Cả hai phương pháp đều có xu hướng liên quan đến việc sử dụng các hằng số khá độc đoán; một đơn vị dự đoán có giá trị bao nhiêu, tính theo số lượng biến? Bao nhiêu chúng ta tin rằng mỗi mô hình, một tiên nghiệm ?
    • Có lẽ tôi sẽ chọn xác nhận chéo. Nhưng trước khi cam kết, tôi muốn biết nhiều về lý do tại sao lựa chọn mô hình này được thực hiện, tức là mô hình được chọn sẽ được sử dụng cho mục đích gì. Cả hai hình thức lựa chọn mô hình đều có thể phù hợp, nếu ví dụ suy luận nguyên nhân là bắt buộc.

16

Tối ưu hóa là gốc rễ của mọi tội lỗi trong thống kê! ; o)

Bất cứ khi nào bạn cố gắng chọn một mô hình dựa trên một tiêu chí được đánh giá trên một mẫu dữ liệu hữu hạn, bạn sẽ có nguy cơ phù hợp với tiêu chí lựa chọn mô hình và kết thúc với một mô hình tồi tệ hơn bạn bắt đầu. Cả xác thực chéo và khả năng cận biên đều là tiêu chí lựa chọn mô hình hợp lý, nhưng cả hai đều phụ thuộc vào một mẫu dữ liệu hữu hạn (như AIC và BIC - hình phạt phức tạp có thể giúp ích, nhưng không giải quyết được vấn đề này). Tôi đã thấy đây là một vấn đề đáng kể trong học máy, xem

GC Cawley và NLC Talbot, Quá phù hợp trong lựa chọn mô hình và sai lệch lựa chọn tiếp theo trong đánh giá hiệu suất, Tạp chí Nghiên cứu Máy học, 2010. Nghiên cứu, tập. 11, trang 2079-2107, tháng 7 năm 2010 ( www )

Từ quan điểm của Bayes, tốt hơn là tích hợp trên tất cả các lựa chọn và tham số mô hình. Nếu bạn không tối ưu hóa hoặc chọn bất cứ điều gì thì sẽ trở nên khó phù hợp hơn. Nhược điểm là bạn kết thúc với các tích phân khó, thường cần được giải quyết với MCMC. Nếu bạn muốn hiệu suất dự đoán tốt nhất, thì tôi sẽ đề xuất một cách tiếp cận Bayes hoàn toàn; Nếu bạn muốn hiểu dữ liệu thì việc chọn một mô hình tốt nhất thường hữu ích. Tuy nhiên, nếu bạn lấy mẫu lại dữ liệu và kết thúc với một mô hình khác nhau mỗi lần, điều đó có nghĩa là quy trình khớp không ổn định và không có mô hình nào đáng tin cậy để hiểu dữ liệu.

Lưu ý rằng một sự khác biệt quan trọng giữa xác thực chéo và bằng chứng là giá trị của khả năng cận biên giả định rằng mô hình không bị sai sót (về cơ bản là hình thức cơ bản của mô hình là phù hợp) và có thể đưa ra kết quả sai lệch nếu có. Xác nhận chéo làm cho không có giả định như vậy, có nghĩa là nó có thể mạnh mẽ hơn một chút.


Hội nhập Bayes là một cách tiếp cận mạnh mẽ. Nhưng luôn luôn đặt câu hỏi liệu lựa chọn mô hình thậm chí là cách đúng đắn để đi về điều này. Động lực là gì? Tại sao không đặt ra một mô hình hoàn chỉnh linh hoạt và chỉ phù hợp với nó?
Frank Harrell

@FrankHarrell nhiều mô hình linh hoạt bao gồm các thuật ngữ chính quy và các tham số siêu khác, và điều chỉnh chúng cũng là lựa chọn mô hình và chịu cùng các vấn đề về việc phù hợp với tiêu chí lựa chọn. Phù hợp giới thiệu một rủi ro của phù hợp quá mức, và áp dụng ở tất cả các cấp. Tuy nhiên nếu bạn biết a-prori về cấu trúc của mô hình, thì nên sử dụng kiến ​​thức chuyên môn đó.
Dikran Marsupial

1
Tốt nhất để tìm kiếm một phương pháp không yêu cầu điều chỉnh, nhưng điều này không phải lúc nào cũng có thể. Quan điểm chính của tôi là đặc tả mô hình hoạt động tốt hơn so với lựa chọn mô hình và không cho rằng lựa chọn tính năng là mục tiêu cao cả.
Frank Harrell

Lựa chọn tính năng @FrankHarrell rất hiếm khi hữu ích. Tối ưu hóa nên tránh khi có thể, liên quan đến việc đưa ra bất kỳ lựa chọn / điều chỉnh mô hình nào dựa trên mẫu dữ liệu hữu hạn (tất nhiên mẫu càng lớn thì rủi ro càng thấp).
Dikran Marsupial
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.