Let y1,…,yn be the observed data which is presumed to be a realization of a sequence of i.i.d. random variables Y1,…,Yn with common probability density function pe defined with respect to a sigma-finite measure ν. The density pe is called Data Generating Process (DGP)
density.
Trong mô hình xác suất của nhà nghiên cứu
M≡{p(y;θ):θ∈Θ} là tập hợp các hàm mật độ xác suất được lập chỉ mục bởi một vector tham số
θ . Giả sử mỗi mật độ trong M là một định nghĩa đối với một sigma-hữu hạn biện pháp phổ biến với ν (ví dụ, mỗi mật độ có thể là một hàm xác suất khối với cùng không gian mẫu S ).
Điều quan trọng là phải giữ mật độ pe thực sự tạo ra dữ liệu khác biệt về mặt khái niệm với mô hình xác suất của dữ liệu. Trong các phương pháp điều trị thống kê cổ điển, việc phân tách cẩn thận các khái niệm này hoặc bị bỏ qua, không được thực hiện hoặc được giả định ngay từ đầu rằng mô hình xác suất được chỉ định chính xác.
Một mô hình M được chỉ định chính xác đối với pe được định nghĩa là một mô hình trong đó pe∈M ν - ở mọi nơi. Khi
M bị sai chính tả đối với pe điều này tương ứng với trường hợp mô hình xác suất không được chỉ định chính xác.
If the probability model is correctly specified, then there exists
a θ∗ in the parameter space Θ such that
pe(y)=p(y;θ∗) ν-almost everywhere. Such a parameter
vector is called the "true parameter vector". If the probability model
is misspecified, then the true parameter vector does not exist.
Within White's model misspecification framework the goal is to find the parameter estimate θ^n that minimizes
ℓ^n(θ)≡(1/n)∑ni=1logp(yi;θ) over some compact parameter space Θ. It is assumed that
a unique strict global minimizer, θ∗, of the
expected value of ℓ^n on Θ is located in the interior of Θ. In the lucky case where the probability model is correctly specified, θ∗ may be interpreted as the "true parameter value".
In the special case where the probability model is correctly
specified, then θ^n is the familiar maximum likelihood estimate.
If we don't know have absolute knowledge that the probability model
is correctly specified, then θ^n is called a quasi-maximum
likelihood estimate and the goal is to estimate θ∗.
If we get lucky and the probability model is
correctly specified, then the quasi-maximum likelihood estimate reduces as
a special case to the familiar maximum likelihood estimate and
θ∗ becomes the true parameter value.
Consistency within White's (1982) framework corresponds to convergence
to θ∗ without requiring that θ∗ is necessarily the true
parameter vector. Within White's framework, we would never estimate
the probability of the event that the sets produced by δ include the TRUE distribution P*. Instead, we would always estimate the probability distribution P** which is the probability of the event that the sets
produced by δ include the distribution specified by the density
p(y;θ∗).
Finally, a few comments about model misspecification. It is easy to find
examples where a misspecified model is extremely useful and very predictive.
For example, consider a nonlinear (or even a linear) regression model
with a Gaussian residual error term whose variance is extremely small
yet the actual residual error in the environment is not Gaussian.
It is also easy to find examples where a correctly specified model
is not useful and not predictive. For example, consider a random walk
model for predicting stock prices which predicts tomorrow's closing
price is a weighted sum of today's closing priced and some Gaussian
noise with an extremely large variance.
The purpose of the model misspecification framework is not to ensure model
validity but rather to ensure reliability. That is, ensure that the sampling error associated with your parameter estimates, confidence intervals, hypothesis tests, and so on are correctly estimated despite the presence of either a small or large amount of model misspecification. The quasi-maximum likelihood
estimates are asymptotically normal centered at θ∗ with a covariance matrix estimator which depends upon both the first and second derivatives of the negative log-likelihood function. In the special case where you get lucky and the model is correct then all of the formulas reduce to the familiar classical statistical framework where the goal is to estimate the "true" parameter values.