Hồi quy và học máy được sử dụng trong khoa học tự nhiên để kiểm tra các giả thuyết, ước tính các tham số và đưa ra dự đoán bằng cách khớp các mô hình với dữ liệu. Tuy nhiên, khi tôi có một mô hình tiên nghiệm , tôi không muốn thực hiện bất kỳ sự phù hợp nào --- ví dụ, một mô hình của một hệ thống vật lý xác định được tính toán từ các nguyên tắc đầu tiên. Tôi chỉ đơn giản muốn biết mô hình của mình khớp với dữ liệu tốt như thế nào và sau đó hiểu phần nào của mô hình đóng góp đáng kể cho trận đấu. Ai đó có thể chỉ cho tôi một cách nghiêm ngặt về mặt thống kê để làm điều này?
Nói một cách cụ thể hơn, giả sử tôi có một hệ thống vật lý mà tôi đã đo một biến phụ thuộc ( nằm trong khoảng từ 1 đến , cỡ mẫu) trong các điều kiện khác nhau được mô tả bởi ba biến độc lập , và . Mặc dù hệ thống thực sự tạo ra dữ liệu rất phức tạp, tôi đã thực hiện một số giả định đơn giản hóa để rút ra mô hình lý thuyết cho hệ thống, như vậy
,
Trong đó là hàm phi tuyến tính (và không tuyến tính hóa) của các biến độc lập và là sự khác biệt giữa các giá trị được dự đoán theo mô hình và được đo. là hoàn toàn quy định trước; không có sự phù hợp nào được thực hiện và không có thông số nào được ước tính. Mục tiêu đầu tiên của tôi là xác định xem có phải là mô hình hợp lý cho quy trình tạo ra các giá trị đo được .
Tôi cũng đã phát triển các mô hình đơn giản và , được lồng trong (nếu điều đó quan trọng trong trường hợp này). Mục tiêu thứ hai của tôi là xác định xem phù hợp với dữ liệu tốt hơn đáng kể so với hoặc , cho thấy các tính năng phân biệt mô hình với các mô hình và đóng vai trò quan trọng trong quá trình tạo ra .
Ý tưởng cho đến nay
Có lẽ nếu có một số cách để xác định số lượng tham số hoặc số bậc tự do cho mô hình toán học của tôi, thì có thể sử dụng các quy trình hiện tại như kiểm tra tỷ lệ khả năng hoặc so sánh AIC. Tuy nhiên, với dạng phi tuyến của và không có bất kỳ tham số rõ ràng nào, tôi không chắc liệu có hợp lý không khi gán tham số hoặc giả sử cái gì tạo thành một mức độ tự do.
Tôi đã đọc rằng các biện pháp về mức độ phù hợp, chẳng hạn như hệ số xác định ( ), có thể được sử dụng để so sánh hiệu suất của mô hình. Tuy nhiên, đối với tôi không rõ ngưỡng cho sự khác biệt có ý nghĩa giữa các giá trị có thể là gì. Hơn nữa, vì tôi không khớp mô hình với dữ liệu, giá trị trung bình của phần dư không bằng 0 và có thể khác nhau đối với mỗi mô hình. Do đó, một mô hình phù hợp có xu hướng dự đoán thấp dữ liệu có thể mang lại giá trị kém như một mô hình không thiên vị nhưng khớp với dữ liệu kém.
Tôi cũng đã đọc một chút về các bài kiểm tra mức độ phù hợp (ví dụ: Anderson-Darling), nhưng vì số liệu thống kê không phải là lĩnh vực của tôi, tôi không chắc loại bài kiểm tra này phù hợp với mục đích của tôi như thế nào. Bất kỳ hướng dẫn sẽ được đánh giá cao.
f
là hoàn toàn quy định trước. Nó giống như một hộp đen tạo ra phản hồi y
từ các biến đầu vào và tôi muốn biết nó hoạt động tốt như thế nào so với các hộp đen cạnh tranh. Một tình huống nguy hiểm có thể đang cố gắng đánh giá sự phù hợp giữa đầu ra của một mô phỏng số và các phép đo được thực hiện trong hệ thống vật lý thực.
f()
cần được xác định từ mức phù hợp với dữ liệu hay là hàmf()
hoàn toàn được chỉ định trước?