Cách so sánh độ chính xác của hai mô hình khác nhau bằng ý nghĩa thống kê


10

Tôi đang làm việc trên dự đoán chuỗi thời gian. Tôi có hai bộ dữ liệu và . Tôi có ba mô hình dự đoán: . Tất cả các mô hình đó được đào tạo bằng cách sử dụng các mẫu trong tập dữ liệu và hiệu suất của chúng được đo bằng các mẫu trong tập dữ liệu . Giả sử các số liệu hiệu suất là MSE (hoặc bất cứ điều gì khác). MSE của các mô hình đó khi được đo cho tập dữ liệu là và . Làm thế nào tôi có thể kiểm tra sự cải thiện của một mô hình so với mô hình khác có ý nghĩa thống kê.D1={x1,x2,....xn}D2={xn+1,xn+2,xn+3,....,xn+k}M1,M2,M3D1D2D2MSE1,MSE2,MSE3

Ví dụ: giả sử , , và tổng số mẫu trong tập dữ liệu dựa trên đó các MSE được tính là 2000. Làm cách nào tôi có thể kiểm tra , và khác nhau đáng kể . Tôi sẽ đánh giá rất cao nếu có ai có thể giúp tôi trong vấn đề này.MSE1=200MSE2=205MSE3=210D2MSE1MSE2MSE3

Câu trả lời:


1

Một trong những bài đăng được liên kết ở trên ám chỉ việc sử dụng kiểm tra tỷ lệ khả năng, mặc dù các mô hình của bạn phải được lồng vào nhau để hoạt động này (tức là tất cả các tham số trong một trong các mô hình phải có trong mô hình mà bạn đang kiểm tra) .

RMSE rõ ràng là thước đo mức độ phù hợp của mô hình dữ liệu. Tuy nhiên, tỷ lệ khả năng cũng vậy. Khả năng cho một người nhất định, theo bà Chen, là khả năng một người có tất cả các thông số của cô có kết quả mà cô có. Khả năng chung của bộ dữ liệu là khả năng của bà Chen * Khả năng của bà Gundersen * Khả năng của bà Johnson * ... vv

Việc thêm một hiệp phương sai, hoặc bất kỳ số đồng biến nào, thực sự không thể làm cho tỷ lệ khả năng tồi tệ hơn, tôi không nghĩ vậy. Nhưng nó có thể cải thiện tỷ lệ khả năng bằng một lượng không đáng kể. Các mô hình phù hợp hơn sẽ có khả năng cao hơn. Bạn có thể chính thức kiểm tra xem mô hình A có phù hợp với mô hình B tốt hơn không. Bạn nên có sẵn một số loại chức năng kiểm tra LR trong bất kỳ phần mềm nào bạn sử dụng, nhưng về cơ bản, thống kê kiểm tra LR là -2 * sự khác biệt của các bản ghi khả năng và nó được phân phối vuông góc với df = sự khác biệt về số lượng của các tham số.

Ngoài ra, so sánh AIC hoặc BIC của hai mô hình và tìm ra mô hình thấp nhất cũng được chấp nhận. AIC và BIC về cơ bản là khả năng đăng nhập bị phạt vì số lượng tham số.

Tôi không chắc chắn về việc sử dụng thử nghiệm t cho RMSEs và tôi thực sự sẽ dựa vào nó trừ khi bạn có thể tìm thấy một số công việc lý thuyết đã được thực hiện trong khu vực. Về cơ bản, bạn có biết làm thế nào các giá trị của RMSE được phân phối không theo triệu chứng? Tôi không chắc. Một số thảo luận thêm ở đây:

http://www.stata.com/stirthist/archive/2012-11/index.html#01017


0

Câu trả lời này không tính đến thực tế, rằng dữ liệu của bạn tạo thành một chuỗi thời gian nhưng tôi không nghĩ rằng đây sẽ là một vấn đề.

Khi sử dụng RMSE, bài đăng này gợi ý sử dụng kiểm tra t: Kiểm tra tầm quan trọng của RMSE của các mô hình

Bạn cũng có thể sử dụng mối tương quan của Pearson để đánh giá sự phù hợp của bạn. Theo bài đăng này, bạn có thể sử dụng t-Test của Wolfe cho điều đó: Ý nghĩa thống kê của sự gia tăng trong tương quan

Tôi hiện đang cố gắng tìm hiểu về cùng một vấn đề. Tôi sẽ đánh giá cao câu trả lời chi tiết hơn bản thân mình.


0

Có hai cách chính để làm điều này, nhưng trước tiên tôi sẽ thách thức ý tưởng rằng bạn chỉ muốn chọn một. Nhiều khả năng, một mô hình tập hợp của ba mô hình riêng biệt sẽ đạt được hiệu suất tốt nhất trong tất cả.

Cách chính, có lẽ là tốt nhất, là sử dụng mô hình để đạt được khoảng tin cậy xung quanh số liệu đánh giá. Điều này thường được thực hiện thông qua bootstrapping ( hoặc Poisson bootstrap ).

Cách khác là sử dụng một bài kiểm tra thống kê. Mỗi thử nghiệm đưa ra các giả định khác nhau và chúng thường được sử dụng để so sánh một giá trị hoặc mẫu được lấy từ một phân phối thay vì đánh giá một điểm. Nhiều trong số các thử nghiệm thống kê này chính thức yêu cầu tính độc lập, mà bạn thường không có khi so sánh nhiều kết quả của cùng một mô hình hoặc nhiều mô hình theo dữ liệu chuỗi thời gian.

Với dự đoán chuỗi thời gian cụ thể, bạn nên thực hiện kiểm tra lại với xác thực chéo và đánh giá lỗi tàu và kiểm tra mỗi lần ( ví dụ ). Khi bạn làm điều này, tôi nghi ngờ tất cả các mô hình của bạn sẽ thực hiện tương tự đến mức bạn cần một bài kiểm tra thống kê để phân biệt; rất có thể, bạn sẽ thấy sự khác biệt lớn.

Cũng lưu ý rằng chỉ số đánh giá lịch sử (so sánh thực tế với dự báo) là không đủ để đánh giá dự đoán. Đưa ra hai dự đoán phù hợp hoàn hảo với dữ liệu lịch sử đã biết nhưng một dự đoán cũng phù hợp với niềm tin trước đó về tương lai và dự đoán khác vi phạm rõ ràng (ví dụ: nếu một biến mất về 0 nhưng bạn có lý do để tin rằng điều đó không thể xảy ra), bạn sẽ thích dự đoán hơn phù hợp hơn trước.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.