Chọn mô hình tốt nhất trong số các mô hình tốt nhất khác nhau

28

Làm thế nào để bạn chọn một mô hình trong số các mô hình khác nhau được lựa chọn bởi các phương pháp khác nhau (ví dụ: lựa chọn lùi hoặc tiến)?

Ngoài ra một mô hình tuyệt vời là gì?

regression model-selection

— tom
nguồn

Tôi đã chỉnh sửa tiêu đề để (hy vọng) làm cho quan điểm của bạn rõ ràng hơn.

39

Một mô hình phân tích là một mô hình thực hiện một mức độ giải thích hoặc dự đoán mong muốn với càng ít biến dự đoán càng tốt.

Đối với đánh giá mô hình có các phương pháp khác nhau tùy thuộc vào những gì bạn muốn biết. Nhìn chung có hai cách đánh giá một mô hình: Dựa trên dự đoán và dựa trên mức độ phù hợp của dữ liệu hiện tại. Trong trường hợp đầu tiên bạn muốn biết liệu mô hình của bạn có dự đoán đầy đủ dữ liệu mới hay không, trong lần thứ hai bạn muốn biết liệu mô hình của bạn có mô tả đầy đủ các mối quan hệ trong dữ liệu hiện tại của bạn hay không. Đó là hai việc khác nhau.

Đánh giá dựa trên dự đoán

Cách tốt nhất để đánh giá các mô hình được sử dụng để dự đoán, là xác định giá trị chéo. Rất ngắn gọn, bạn cắt dữ liệu của bạn trong ví dụ. 10 phần khác nhau, sử dụng 9 trong số chúng để xây dựng mô hình và dự đoán kết quả cho bộ dữ liệu thứ mười. Một sự khác biệt bình phương trung bình đơn giản giữa các giá trị được quan sát và dự đoán cung cấp cho bạn một thước đo cho độ chính xác dự đoán. Khi bạn lặp lại mười lần này, bạn tính chênh lệch bình phương trung bình trên tất cả mười lần lặp để đi đến một giá trị chung với độ lệch chuẩn. Điều này cho phép bạn một lần nữa so sánh hai mô hình về độ chính xác dự đoán của chúng bằng các kỹ thuật thống kê tiêu chuẩn (kiểm tra t hoặc ANOVA).

Một biến thể của chủ đề là tiêu chí PRESS (Dự đoán Sum of Squares), được định nghĩa là

$\displaystyle\sum^{n}_{i=1} \left(Y_i - \hat{Y}_{i(-i)}\right)^2$

Trong đó là giá trị dự đoán cho quan sát thứ i bằng cách sử dụng một mô hình dựa trên tất cả các quan sát trừ đi giá trị thứ i. Tiêu chí này đặc biệt hữu ích nếu bạn không có nhiều dữ liệu. Trong trường hợp đó, việc phân tách dữ liệu của bạn như trong phương pháp xác định giá trị chéo có thể dẫn đến các tập hợp dữ liệu quá nhỏ để phù hợp ổn định. $\hat{Y}_{i(-i)}$

Đánh giá dựa trên mức độ phù hợp

Trước tiên, hãy để tôi nói rằng điều này thực sự khác nhau tùy thuộc vào khung mô hình bạn sử dụng. Ví dụ, một thử nghiệm tỷ lệ khả năng có thể hoạt động cho các Mô hình hỗn hợp phụ gia tổng quát khi sử dụng gaussian cổ điển cho các lỗi, nhưng là vô nghĩa trong trường hợp biến thể nhị thức.

Đầu tiên bạn có các phương pháp trực quan hơn để so sánh các mô hình. Bạn có thể sử dụng Tiêu chí thông tin Aikake (AIC) hoặc Tiêu chí thông tin Bayes (BIC) để so sánh mức độ phù hợp của hai mô hình. Nhưng không có gì cho bạn biết rằng cả hai mô hình thực sự khác nhau.

Một số khác là tiêu chí Cp của Mallow. Điều này về cơ bản kiểm tra sự thiên vị có thể có trong mô hình của bạn, bằng cách so sánh mô hình với tất cả các mô hình con có thể (hoặc lựa chọn cẩn thận của chúng). Xem thêm http://www.public.iastate.edu/~mervyn/stat401/Other/mallows.pdf

Nếu các mô hình bạn muốn so sánh là các mô hình lồng nhau (nghĩa là tất cả các yếu tố dự đoán và tương tác của mô hình khác biệt hơn cũng xảy ra trong mô hình hoàn chỉnh hơn), bạn có thể sử dụng so sánh chính thức dưới dạng thử nghiệm tỷ lệ khả năng (hoặc bình phương Chi hoặc thử nghiệm F trong các trường hợp thích hợp, ví dụ khi so sánh các mô hình tuyến tính đơn giản được trang bị bằng cách sử dụng bình phương tối thiểu). Thử nghiệm này về cơ bản kiểm soát xem các yếu tố dự đoán hoặc tương tác bổ sung có thực sự cải thiện mô hình hay không. Tiêu chí này thường được sử dụng trong các phương pháp từng bước tiến hoặc lùi.

Giới thiệu về lựa chọn mô hình tự động

Bạn có những người ủng hộ và bạn có kẻ thù của phương pháp này. Cá nhân tôi không ủng hộ việc lựa chọn mô hình tự động, đặc biệt là khi mô tả về các mô hình và điều này vì một số lý do:

Trong mọi mô hình, bạn nên kiểm tra xem bạn có giải quyết thỏa đáng với việc gây nhiễu không. Trong thực tế, nhiều bộ dữ liệu có các biến không bao giờ nên được đưa vào một mô hình cùng một lúc. Mọi người thường quên kiểm soát cho điều đó.
Lựa chọn mô hình tự động là một phương pháp để tạo ra các giả thuyết, không phải để kiểm tra chúng. Tất cả suy luận dựa trên các mô hình có nguồn gốc từ lựa chọn mô hình Tự động là không hợp lệ. Không có cách nào để thay đổi điều đó.
Tôi đã thấy nhiều trường hợp bắt đầu từ một điểm bắt đầu khác nhau, một lựa chọn từng bước trả về một mô hình hoàn toàn khác. Những phương pháp này là xa ổn định.
Cũng khó kết hợp một quy tắc hợp lý, vì các thử nghiệm thống kê để so sánh hai mô hình đòi hỏi các mô hình phải được lồng vào nhau. Nếu bạn sử dụng ví dụ AIC, BIC hoặc PRESS, việc cắt giảm khi có sự khác biệt thực sự quan trọng là tùy ý chọn.

Về cơ bản, tôi thấy nhiều hơn trong việc so sánh một bộ mô hình được chọn trước đó. Nếu bạn không quan tâm đến việc đánh giá thống kê mô hình và kiểm tra giả thuyết, bạn có thể sử dụng phương pháp xác định chéo để so sánh độ chính xác dự đoán của các mô hình.

Nhưng nếu bạn thực sự sau khi lựa chọn biến cho mục đích dự đoán, bạn có thể muốn xem các phương pháp khác để chọn biến, như Support Vector Machines, Mạng nơ-ron, Rừng ngẫu nhiên và các lượt thích. Chúng thường được sử dụng nhiều hơn trong ví dụ như y học để tìm ra loại nào trong số hàng ngàn protein được đo có thể dự đoán đầy đủ liệu bạn có bị ung thư hay không. Chỉ cần đưa ra một ví dụ (nổi tiếng):

http://www.nature.com/nm/journal/v7/n6/abs/nm0601_673.html

http://www.springerlink.com/content/w68424066825vr3l/

Tất cả các phương pháp này đều có các biến thể hồi quy cho dữ liệu liên tục.

— Joris Meys
nguồn

Mô hình nào bạn sẽ chọn giữa Mallows Cp và lựa chọn lùi? Ngoài ra các mô hình có SSE thấp và hệ số đáng kể có tốt không?

— tom

2

@tom: bạn đang so sánh táo với cam. lựa chọn lùi là một phương pháp, Mallows Cp là một tiêu chí. Cp của Mallow có thể được sử dụng làm tiêu chí lựa chọn ngược. Và như bạn có thể đọc, tôi không lựa chọn lạc hậu. Nếu tôi cần chọn các biến, tôi sử dụng các phương pháp thích hợp cho điều đó. Tôi đã không đề cập đến các phương pháp LASSO và LAR mà Peter Flom đã đề cập, nhưng chúng chắc chắn cũng đáng để thử.

— Joris Meys

@Jons Mays: Giả sử tôi chọn mô hình có Mallp Cp thấp nhất (có biến dự đoán). Sau đó, tôi sử dụng lựa chọn ngược để có được một mô hình khác (Với các biến dự đoán ). Tôi sẽ chỉ chọn một biến có ít biến nhất nếu mục đích là phân tách?

x

$x$

x - 1

$x-1$

— tom

2

@FrankHarrell một mô phỏng nhỏ có thể chứng minh rằng mối tương quan giữa các giá trị p (giả sử bạn đang nói về thử nghiệm F hoặc tương đương) và AIC không tồn tại (0,01 trong mô phỏng của tôi). Vì vậy, không, không có mối quan hệ giữa các giá trị P và AIC. Tương tự cho BIC và Cp. Một mô phỏng nhỏ khác cũng sẽ chứng minh rằng người ta nhận được kết quả khá khác nhau trong một quy trình từng bước tùy thuộc vào tiêu chí bạn sử dụng. Vì vậy, không: Cp, AIC, BIC hoàn toàn không phải là biến đổi của giá trị P. Trong thực tế, nếu nhìn vào các công thức, tôi không thể chỉ ra một liên kết toán học hoặc chuyển đổi.

— Joris Meys

1

@FrankHarrell điều đó không có nghĩa là tôi ủng hộ pro từng bước, ngược lại. Nhưng tuyên bố của bạn ít nhất là công thức một chút mạnh mẽ.

— Joris Meys

20

Parsimony là kẻ thù của bạn. Thiên nhiên không hành động một cách phân tích và các bộ dữ liệu không có đủ thông tin để cho phép một người chọn các biến "đúng". Không quan trọng lắm bạn sử dụng phương pháp nào hoặc chỉ mục nào bạn sử dụng làm quy tắc dừng. Lựa chọn biến mà không co ngót gần như là cam chịu. Tuy nhiên, bước lùi hạn chế (với ) đôi khi có thể hữu ích. Nó hoạt động đơn giản vì nó sẽ không xóa nhiều biến. $\alpha=0.50$

— Frank Mitchell
nguồn

Câu hỏi không phải là về từng bước, mà là về việc chọn mô hình tốt nhất trong số các kết quả của các phương pháp khác nhau ...

— Joris Meys

4

Tôi rất thích "Parsimony là kẻ thù của bạn".

— Peter Flom - Tái lập Monica

1

Cảm ơn Peter. Joris - lựa chọn trong số các cách tiếp cận khác nhau khác nhau một chút so với lựa chọn từng bước, nhưng không nhiều.

— Frank Harrell

16

Sử dụng lựa chọn lùi hoặc tiến là một chiến lược phổ biến, nhưng không phải là một chiến lược tôi có thể đề xuất. Kết quả từ việc xây dựng mô hình như vậy đều sai. Các giá trị p quá thấp, các hệ số bị sai lệch so với 0 và có các vấn đề liên quan khác.

Nếu bạn phải thực hiện lựa chọn biến tự động, tôi khuyên bạn nên sử dụng một phương pháp hiện đại hơn, chẳng hạn như LASSO hoặc LAR.

Tôi đã viết một bài thuyết trình về vấn đề này, với tựa đề "Dừng theo từng bước: Tại sao các phương pháp tương tự và theo chiều dọc là xấu và những gì bạn nên sử dụng"

Nhưng, nếu có thể, tôi sẽ tránh các phương pháp tự động này hoàn toàn và dựa vào chuyên môn của chủ đề. Một ý tưởng là tạo ra 10 mô hình hợp lý hoặc so sánh, và so sánh chúng dựa trên một tiêu chí thông tin. @Nick Sabbe đã liệt kê một vài trong số này trong phản hồi của mình.

— Peter Flom - Tái lập Monica
nguồn

2

+1 để tham khảo bài viết. Mặc dù tôi không viết mã trong SAS, tôi đã đọc nó vài tháng trước và thấy nó là một cách xử lý tốt, mức độ cao của vấn đề.

— Josh Hemann

11

Câu trả lời cho điều này sẽ phụ thuộc rất nhiều vào mục tiêu của bạn. Bạn có thể đang tìm kiếm các hệ số có ý nghĩa thống kê, hoặc bạn có thể ra ngoài để tránh càng nhiều sai sót càng tốt khi dự đoán kết quả cho các quan sát mới, hoặc đơn giản là bạn có thể quan tâm đến mô hình với các kết quả dương tính giả ít nhất; có lẽ bạn chỉ đơn giản muốn đường cong 'gần nhất' với dữ liệu.

Trong bất kỳ trường hợp nào ở trên, bạn cần một số biện pháp cho những gì bạn đang tìm kiếm. Một số biện pháp phổ biến với các ứng dụng khác nhau là AUC, BIC, AIC, lỗi dư, ...

Bạn tính toán số đo phù hợp nhất với mục tiêu của mình cho từng mô hình và sau đó so sánh 'điểm số' cho từng mô hình. Điều này dẫn đến mô hình tốt nhất cho mục tiêu của bạn.

Một số biện pháp này (ví dụ AIC) gây thêm căng thẳng cho số lượng hệ số khác không trong mô hình, bởi vì sử dụng quá nhiều có thể chỉ đơn giản là quá mức dữ liệu (do đó mô hình sẽ vô dụng nếu bạn sử dụng nó cho dữ liệu mới, hãy để yên dân số). Có thể có những lý do khác để yêu cầu một mô hình giữ các biến 'càng ít càng tốt', ví dụ nếu chỉ đơn giản là tốn kém để đo lường tất cả chúng để dự đoán. 'Tính đơn giản của' hoặc 'số lượng nhỏ các biến trong' một mô hình thường được gọi là mô tả của nó.

Vì vậy, trong ngắn hạn, một mô hình phân tích là một mô hình 'đơn giản', không chứa quá nhiều biến.

Như thường lệ với các loại câu hỏi này, tôi sẽ giới thiệu cho bạn cuốn sách xuất sắc Các yếu tố học tập thống kê để biết thông tin sâu hơn về chủ đề và các vấn đề liên quan.

— Nick Sabbe
nguồn

1

Cuốn sách đẹp bạn giới thiệu ở đó. Một mô hình khác tôi có thể đề xuất là Mô hình thống kê tuyến tính ứng dụng bao gồm một vài phần về tiêu chí lựa chọn, lựa chọn mô hình và so sánh mô hình.

— Joris Meys

-1

Tôi thấy cuộc thảo luận ở đây rất thú vị, đặc biệt là cuộc tranh luận giữa Parsimonious và Model với số lượng hệ số và biến số nhiều hơn.

Giáo sư của tôi Tiến sĩ Steve quá cố thường nhấn mạnh vào một mô hình tuyệt vời với R ^ 2 thấp so với mô hình khác có độ phù hợp tốt hơn / R ^ 2 lớn.

Cảm ơn tất cả các con cá ở đây!

Akash

— Akash Sondhi - Người điều hành Novice
nguồn