Câu trả lời:
Một mô hình phân tích là một mô hình thực hiện một mức độ giải thích hoặc dự đoán mong muốn với càng ít biến dự đoán càng tốt.
Đối với đánh giá mô hình có các phương pháp khác nhau tùy thuộc vào những gì bạn muốn biết. Nhìn chung có hai cách đánh giá một mô hình: Dựa trên dự đoán và dựa trên mức độ phù hợp của dữ liệu hiện tại. Trong trường hợp đầu tiên bạn muốn biết liệu mô hình của bạn có dự đoán đầy đủ dữ liệu mới hay không, trong lần thứ hai bạn muốn biết liệu mô hình của bạn có mô tả đầy đủ các mối quan hệ trong dữ liệu hiện tại của bạn hay không. Đó là hai việc khác nhau.
Cách tốt nhất để đánh giá các mô hình được sử dụng để dự đoán, là xác định giá trị chéo. Rất ngắn gọn, bạn cắt dữ liệu của bạn trong ví dụ. 10 phần khác nhau, sử dụng 9 trong số chúng để xây dựng mô hình và dự đoán kết quả cho bộ dữ liệu thứ mười. Một sự khác biệt bình phương trung bình đơn giản giữa các giá trị được quan sát và dự đoán cung cấp cho bạn một thước đo cho độ chính xác dự đoán. Khi bạn lặp lại mười lần này, bạn tính chênh lệch bình phương trung bình trên tất cả mười lần lặp để đi đến một giá trị chung với độ lệch chuẩn. Điều này cho phép bạn một lần nữa so sánh hai mô hình về độ chính xác dự đoán của chúng bằng các kỹ thuật thống kê tiêu chuẩn (kiểm tra t hoặc ANOVA).
Một biến thể của chủ đề là tiêu chí PRESS (Dự đoán Sum of Squares), được định nghĩa là
Trong đó là giá trị dự đoán cho quan sát thứ i bằng cách sử dụng một mô hình dựa trên tất cả các quan sát trừ đi giá trị thứ i. Tiêu chí này đặc biệt hữu ích nếu bạn không có nhiều dữ liệu. Trong trường hợp đó, việc phân tách dữ liệu của bạn như trong phương pháp xác định giá trị chéo có thể dẫn đến các tập hợp dữ liệu quá nhỏ để phù hợp ổn định.
Trước tiên, hãy để tôi nói rằng điều này thực sự khác nhau tùy thuộc vào khung mô hình bạn sử dụng. Ví dụ, một thử nghiệm tỷ lệ khả năng có thể hoạt động cho các Mô hình hỗn hợp phụ gia tổng quát khi sử dụng gaussian cổ điển cho các lỗi, nhưng là vô nghĩa trong trường hợp biến thể nhị thức.
Đầu tiên bạn có các phương pháp trực quan hơn để so sánh các mô hình. Bạn có thể sử dụng Tiêu chí thông tin Aikake (AIC) hoặc Tiêu chí thông tin Bayes (BIC) để so sánh mức độ phù hợp của hai mô hình. Nhưng không có gì cho bạn biết rằng cả hai mô hình thực sự khác nhau.
Một số khác là tiêu chí Cp của Mallow. Điều này về cơ bản kiểm tra sự thiên vị có thể có trong mô hình của bạn, bằng cách so sánh mô hình với tất cả các mô hình con có thể (hoặc lựa chọn cẩn thận của chúng). Xem thêm http://www.public.iastate.edu/~mervyn/stat401/Other/mallows.pdf
Nếu các mô hình bạn muốn so sánh là các mô hình lồng nhau (nghĩa là tất cả các yếu tố dự đoán và tương tác của mô hình khác biệt hơn cũng xảy ra trong mô hình hoàn chỉnh hơn), bạn có thể sử dụng so sánh chính thức dưới dạng thử nghiệm tỷ lệ khả năng (hoặc bình phương Chi hoặc thử nghiệm F trong các trường hợp thích hợp, ví dụ khi so sánh các mô hình tuyến tính đơn giản được trang bị bằng cách sử dụng bình phương tối thiểu). Thử nghiệm này về cơ bản kiểm soát xem các yếu tố dự đoán hoặc tương tác bổ sung có thực sự cải thiện mô hình hay không. Tiêu chí này thường được sử dụng trong các phương pháp từng bước tiến hoặc lùi.
Bạn có những người ủng hộ và bạn có kẻ thù của phương pháp này. Cá nhân tôi không ủng hộ việc lựa chọn mô hình tự động, đặc biệt là khi mô tả về các mô hình và điều này vì một số lý do:
Về cơ bản, tôi thấy nhiều hơn trong việc so sánh một bộ mô hình được chọn trước đó. Nếu bạn không quan tâm đến việc đánh giá thống kê mô hình và kiểm tra giả thuyết, bạn có thể sử dụng phương pháp xác định chéo để so sánh độ chính xác dự đoán của các mô hình.
Nhưng nếu bạn thực sự sau khi lựa chọn biến cho mục đích dự đoán, bạn có thể muốn xem các phương pháp khác để chọn biến, như Support Vector Machines, Mạng nơ-ron, Rừng ngẫu nhiên và các lượt thích. Chúng thường được sử dụng nhiều hơn trong ví dụ như y học để tìm ra loại nào trong số hàng ngàn protein được đo có thể dự đoán đầy đủ liệu bạn có bị ung thư hay không. Chỉ cần đưa ra một ví dụ (nổi tiếng):
http://www.nature.com/nm/journal/v7/n6/abs/nm0601_673.html
http://www.springerlink.com/content/w68424066825vr3l/
Tất cả các phương pháp này đều có các biến thể hồi quy cho dữ liệu liên tục.
Parsimony là kẻ thù của bạn. Thiên nhiên không hành động một cách phân tích và các bộ dữ liệu không có đủ thông tin để cho phép một người chọn các biến "đúng". Không quan trọng lắm bạn sử dụng phương pháp nào hoặc chỉ mục nào bạn sử dụng làm quy tắc dừng. Lựa chọn biến mà không co ngót gần như là cam chịu. Tuy nhiên, bước lùi hạn chế (với ) đôi khi có thể hữu ích. Nó hoạt động đơn giản vì nó sẽ không xóa nhiều biến.
Sử dụng lựa chọn lùi hoặc tiến là một chiến lược phổ biến, nhưng không phải là một chiến lược tôi có thể đề xuất. Kết quả từ việc xây dựng mô hình như vậy đều sai. Các giá trị p quá thấp, các hệ số bị sai lệch so với 0 và có các vấn đề liên quan khác.
Nếu bạn phải thực hiện lựa chọn biến tự động, tôi khuyên bạn nên sử dụng một phương pháp hiện đại hơn, chẳng hạn như LASSO hoặc LAR.
Tôi đã viết một bài thuyết trình về vấn đề này, với tựa đề "Dừng theo từng bước: Tại sao các phương pháp tương tự và theo chiều dọc là xấu và những gì bạn nên sử dụng"
Nhưng, nếu có thể, tôi sẽ tránh các phương pháp tự động này hoàn toàn và dựa vào chuyên môn của chủ đề. Một ý tưởng là tạo ra 10 mô hình hợp lý hoặc so sánh, và so sánh chúng dựa trên một tiêu chí thông tin. @Nick Sabbe đã liệt kê một vài trong số này trong phản hồi của mình.
Câu trả lời cho điều này sẽ phụ thuộc rất nhiều vào mục tiêu của bạn. Bạn có thể đang tìm kiếm các hệ số có ý nghĩa thống kê, hoặc bạn có thể ra ngoài để tránh càng nhiều sai sót càng tốt khi dự đoán kết quả cho các quan sát mới, hoặc đơn giản là bạn có thể quan tâm đến mô hình với các kết quả dương tính giả ít nhất; có lẽ bạn chỉ đơn giản muốn đường cong 'gần nhất' với dữ liệu.
Trong bất kỳ trường hợp nào ở trên, bạn cần một số biện pháp cho những gì bạn đang tìm kiếm. Một số biện pháp phổ biến với các ứng dụng khác nhau là AUC, BIC, AIC, lỗi dư, ...
Bạn tính toán số đo phù hợp nhất với mục tiêu của mình cho từng mô hình và sau đó so sánh 'điểm số' cho từng mô hình. Điều này dẫn đến mô hình tốt nhất cho mục tiêu của bạn.
Một số biện pháp này (ví dụ AIC) gây thêm căng thẳng cho số lượng hệ số khác không trong mô hình, bởi vì sử dụng quá nhiều có thể chỉ đơn giản là quá mức dữ liệu (do đó mô hình sẽ vô dụng nếu bạn sử dụng nó cho dữ liệu mới, hãy để yên dân số). Có thể có những lý do khác để yêu cầu một mô hình giữ các biến 'càng ít càng tốt', ví dụ nếu chỉ đơn giản là tốn kém để đo lường tất cả chúng để dự đoán. 'Tính đơn giản của' hoặc 'số lượng nhỏ các biến trong' một mô hình thường được gọi là mô tả của nó.
Vì vậy, trong ngắn hạn, một mô hình phân tích là một mô hình 'đơn giản', không chứa quá nhiều biến.
Như thường lệ với các loại câu hỏi này, tôi sẽ giới thiệu cho bạn cuốn sách xuất sắc Các yếu tố học tập thống kê để biết thông tin sâu hơn về chủ đề và các vấn đề liên quan.
Tôi thấy cuộc thảo luận ở đây rất thú vị, đặc biệt là cuộc tranh luận giữa Parsimonious và Model với số lượng hệ số và biến số nhiều hơn.
Giáo sư của tôi Tiến sĩ Steve quá cố thường nhấn mạnh vào một mô hình tuyệt vời với R ^ 2 thấp so với mô hình khác có độ phù hợp tốt hơn / R ^ 2 lớn.
Cảm ơn tất cả các con cá ở đây!
Akash