Thật không may, câu hỏi này không có câu trả lời tốt. Bạn có thể chọn mô hình tốt nhất dựa trên thực tế là nó giảm thiểu lỗi tuyệt đối, lỗi bình phương, tối đa hóa khả năng, sử dụng một số tiêu chí xử phạt khả năng (ví dụ AIC, BIC) để chỉ đề cập đến một vài lựa chọn phổ biến nhất. Vấn đề là cả hai tiêu chí đó sẽ không cho phép bạn chọn mô hình khách quan nhất, mà là mô hình tốt nhất mà bạn so sánh. Một vấn đề khác là trong khi tối ưu hóa, bạn luôn có thể kết thúc ở một số mức tối đa / tối thiểu cục bộ. Một vấn đề khác là sự lựa chọn của bạn về tiêu chí lựa chọn mô hình là chủ quan . Trong nhiều trường hợp bạn có ý thức, hoặc nửa tỉnh táo, hãy đưa ra quyết định về những gì bạn quan tâm và chọn tiêu chí dựa trên điều này. Ví dụ, sử dụng BIC thay vì AIC dẫn đến các mô hình khác biệt hơn, với ít tham số hơn. Thông thường, để mô hình hóa, bạn quan tâm đến các mô hình khác biệt hơn dẫn đến một số kết luận chung về vũ trụ, trong khi để dự đoán nó không phải như vậy và đôi khi mô hình phức tạp hơn có thể có sức mạnh dự đoán tốt hơn (nhưng không phải và thường xuyên nó không). Trong những trường hợp được nêu ra khác, các mô hình đôi khi phức tạp hơn được ưa thích cho thực tế lý do, ví dụ trong khi ước lượng mô hình Bayes với MCMC, mô hình với thứ bậc hyperpriors có thể cư xử tốt hơn trong mô phỏng hơn một các đơn giản hơn. Mặt khác, nói chung, chúng ta sợ quá mứcvà mô hình đơn giản hơn có nguy cơ quá mức thấp hơn, vì vậy nó là lựa chọn an toàn hơn. Một ví dụ điển hình cho việc này là một lựa chọn mô hình từng bước tự động thường không được khuyến nghị bởi vì nó dễ dẫn đến các ước tính quá mức và sai lệch. Ngoài ra còn có một lập luận triết học, dao cạo của Occam , rằng mô hình đơn giản nhất là mô hình được ưa thích. Cũng lưu ý rằng chúng ta đang thảo luận ở đây so sánh các mô hình khác nhau, trong khi trong các tình huống thực tế cũng có thể để sử dụng các công cụ thống kê khác nhau có thể dẫn đến các kết quả khác nhau - vì vậy có thêm một lớp lựa chọn phương pháp!
Tất cả điều này dẫn đến buồn, nhưng giải trí, thực tế là chúng ta không bao giờ có thể chắc chắn. Chúng tôi bắt đầu với sự không chắc chắn, sử dụng các phương pháp để đối phó với nó và chúng tôi kết thúc với sự không chắc chắn. Điều này có thể là nghịch lý, nhưng nhớ lại rằng chúng ta sử dụng số liệu thống kê bởi vì chúng ta tin rằng thế giới không chắc chắn và có xác suất (nếu không chúng ta sẽ chọn một nghề nghiệp của các nhà tiên tri), vậy làm thế nào chúng ta có thể kết thúc bằng những kết luận khác nhau? Không có quy tắc dừng khách quan, có nhiều mô hình có thể xảy ra, tất cả chúng đều sai (xin lỗi vì sự sáo rỗng!) Vì họ cố gắng đơn giản hóa thực tế phức tạp (liên tục thay đổi và xác suất). Chúng tôi tìm thấy một số trong số chúng hữu ích hơn những cái khác cho mục đích của chúng tôi và đôi khi chúng tôi làmθμ
Bạn có thể đi sâu hơn và phát hiện ra rằng không có thứ gọi là "xác suất" trong thực tế - đó chỉ là một sự gần đúng của sự không chắc chắn xung quanh chúng ta và cũng có những cách khác để xấp xỉ nó như logic mờ (xem Kosko, 1993 để thảo luận). Ngay cả các công cụ và định lý rất cơ bản mà các phương pháp của chúng tôi dựa trên cơ sở là gần đúng và không phải là những công cụ duy nhất có thể. Chúng tôi chỉ đơn giản là không thể chắc chắn trong một thiết lập như vậy.
Quy tắc dừng mà bạn đang tìm kiếm luôn luôn là vấn đề cụ thể và chủ quan, tức là dựa trên cái gọi là đánh giá chuyên nghiệp. Nhân tiện, có rất nhiều ví dụ nghiên cứu đã chỉ ra rằng các chuyên gia thường không giỏi hơn và đôi khi còn tệ hơn cả khả năng phán đoán của họ so với giáo dân (ví dụ như được hồi sinh trong các bài báo và sách của Daniel Kahneman ), trong khi thực sự dễ bị tự tin hơn (thực ra điều này một cuộc tranh luận về lý do tại sao chúng ta không nên cố gắng "chắc chắn" về các mô hình của mình).
Kosko, B. (1993). Tư duy mờ: khoa học mới của logic mờ. New York: Hyperion.