Suy luận thống kê theo Misspecification


14

Cách xử lý cổ điển của suy luận thống kê dựa trên giả định rằng tồn tại một thống kê được chỉ định chính xác. Đó là, sự phân bố P(Y) đã tạo ra dữ liệu quan sát được y là một phần của mô hình thống kê M :

P(Y)M={Pθ(Y):θΘ}
Tuy nhiên, trong hầu hết các tình huống chúng ta không thể cho rằng điều này thực sự đúng Tôi tự hỏi điều gì xảy ra với các thủ tục suy luận thống kê nếu chúng ta bỏ giả định được chỉ định chính xác.

Pθ1=argminPθMKL(P,Pθ)
P

Điều gì xảy ra với các công cụ ước tính đặt niềm tin? Cho phép tóm tắt lại các công cụ ước tính độ tin cậy. Hãy δ:ΩY2Θ là một bộ ước lượng, nơi ΩY là không gian mẫu và 2Θ bộ sức mạnh trên không gian tham số Θ . Những gì chúng ta muốn biết là xác suất của sự kiện mà các bộ sản xuất bởi δ bao gồm đúng phân phối P , đó là

P(P{Pθ:θδ(Y)}):=A.

Tuy nhiên, chúng tôi tất nhiên không biết sự phân bố đúng P . Giả định quy định một cách chính xác cho chúng ta biết rằng PM . Tuy nhiên, chúng tôi vẫn không biết phân phối của mô hình đó là gì. Nhưng,

infθΘPθ(θδ(Y)):=B
là một giới hạn thấp hơn cho xác suất A . Phương trình B là định nghĩa cổ điển của mức độ tin cậy đối với công cụ ước tính độ tin cậy.

Nếu chúng ta bỏ giả định được chỉ định chính xác, B không nhất thiết là giới hạn dưới của A , thuật ngữ mà chúng ta thực sự quan tâm, nữa. Thật vậy, nếu chúng ta giả định rằng mô hình được misspecied, mà được cho là trường hợp đối với hầu hết các tình huống thực tế, A là 0, vì sự phân bố đúng P không được chứa trong các mô hình thống kê M .

Từ góc nhìn khác, người ta có thể nghĩ về những gì B liên quan đến khi mô hình bị sai. Đây là một câu hỏi cụ thể hơn. Liệu B vẫn có nghĩa, nếu mô hình bị sai. Nếu không, tại sao chúng ta thậm chí bận tâm với số liệu thống kê tham số?

Tôi đoán White 1982 chứa một số kết quả về những vấn đề này. Thật không may, sự thiếu nền tảng toán học của tôi cản trở tôi hiểu nhiều về những gì được viết ở đó.


1
Tôi tìm thấy câu hỏi này + trả lời thống kê.stackexchange.com/questions/149773/ . Nó rất giống nhau. Đọc những cuốn sách này có thể sẽ dẫn đến một câu trả lời của câu hỏi này. Tuy nhiên, tôi vẫn nghĩ rằng một bản tóm tắt của ai đó đã làm điều này sẽ rất hữu ích.
Julian Karls

2
Thật xấu hổ khi câu hỏi này không tạo được nhiều sự quan tâm - liên kết của Julian có một số tài liệu hay, nhưng tôi rất muốn nghe thêm suy nghĩ về vấn đề này.
Florian Hartig

1
Thông thường, những gì được thực hiện là phân phối của thống kê kiểm tra được tính theo giả thuyết khống cho rằng mô hình thống kê là chính xác. Nếu giá trị p đủ thấp, kết luận rằng đây là do cơ hội hoặc null là sai. Tuy nhiên, nếu mô hình được chỉ định sai thì đây cũng là một kết luận có thể rút ra một cách hợp lý. Điều tương tự cũng xảy ra đối với tất cả các suy luận khác: thực tế là mô hình được chỉ định sai cung cấp một kết luận thay thế. Đây là cách tôi nghĩ về nó dựa trên việc đã đọc tác phẩm của Spanos.
Toby

Essentially, all models are wrong. It helps to develop the misspecification quantitatively. For an image, misspecification is misregistration. For example, for counting error (e.g., from radioactive decay) for a sufficient number of counts, the error is Poisson distributed. In that case, misregistration of a time series is the y-axis error of the square root of the image, and noise is in those same units. Example here.
Carl

Câu trả lời:


2

Let y1,,yn be the observed data which is presumed to be a realization of a sequence of i.i.d. random variables Y1,,Yn with common probability density function pe defined with respect to a sigma-finite measure ν. The density pe is called Data Generating Process (DGP) density.

Trong mô hình xác suất của nhà nghiên cứu M{p(y;θ):θΘ} là tập hợp các hàm mật độ xác suất được lập chỉ mục bởi một vector tham số θ . Giả sử mỗi mật độ trong M là một định nghĩa đối với một sigma-hữu hạn biện pháp phổ biến với ν (ví dụ, mỗi mật độ có thể là một hàm xác suất khối với cùng không gian mẫu S ).

Điều quan trọng là phải giữ mật độ pe thực sự tạo ra dữ liệu khác biệt về mặt khái niệm với mô hình xác suất của dữ liệu. Trong các phương pháp điều trị thống kê cổ điển, việc phân tách cẩn thận các khái niệm này hoặc bị bỏ qua, không được thực hiện hoặc được giả định ngay từ đầu rằng mô hình xác suất được chỉ định chính xác.

Một mô hình M được chỉ định chính xác đối với pe được định nghĩa là một mô hình trong đó peM ν - ở mọi nơi. Khi M bị sai chính tả đối với pe điều này tương ứng với trường hợp mô hình xác suất không được chỉ định chính xác.

If the probability model is correctly specified, then there exists a θ in the parameter space Θ such that pe(y)=p(y;θ) ν-almost everywhere. Such a parameter vector is called the "true parameter vector". If the probability model is misspecified, then the true parameter vector does not exist.

Within White's model misspecification framework the goal is to find the parameter estimate θ^n that minimizes ^n(θ)(1/n)i=1nlogp(yi;θ) over some compact parameter space Θ. It is assumed that a unique strict global minimizer, θ, of the expected value of ^n on Θ is located in the interior of Θ. In the lucky case where the probability model is correctly specified, θ may be interpreted as the "true parameter value".

In the special case where the probability model is correctly specified, then θ^n is the familiar maximum likelihood estimate. If we don't know have absolute knowledge that the probability model is correctly specified, then θ^n is called a quasi-maximum likelihood estimate and the goal is to estimate θ. If we get lucky and the probability model is correctly specified, then the quasi-maximum likelihood estimate reduces as a special case to the familiar maximum likelihood estimate and θ becomes the true parameter value.

Consistency within White's (1982) framework corresponds to convergence to θ without requiring that θ is necessarily the true parameter vector. Within White's framework, we would never estimate the probability of the event that the sets produced by δ include the TRUE distribution P*. Instead, we would always estimate the probability distribution P** which is the probability of the event that the sets produced by δ include the distribution specified by the density p(y;θ).

Finally, a few comments about model misspecification. It is easy to find examples where a misspecified model is extremely useful and very predictive. For example, consider a nonlinear (or even a linear) regression model with a Gaussian residual error term whose variance is extremely small yet the actual residual error in the environment is not Gaussian.

It is also easy to find examples where a correctly specified model is not useful and not predictive. For example, consider a random walk model for predicting stock prices which predicts tomorrow's closing price is a weighted sum of today's closing priced and some Gaussian noise with an extremely large variance.

The purpose of the model misspecification framework is not to ensure model validity but rather to ensure reliability. That is, ensure that the sampling error associated with your parameter estimates, confidence intervals, hypothesis tests, and so on are correctly estimated despite the presence of either a small or large amount of model misspecification. The quasi-maximum likelihood estimates are asymptotically normal centered at θ with a covariance matrix estimator which depends upon both the first and second derivatives of the negative log-likelihood function. In the special case where you get lucky and the model is correct then all of the formulas reduce to the familiar classical statistical framework where the goal is to estimate the "true" parameter values.


3

Firstly, let me say that this is a really fascinating question; kudos to Julian for posting it. As I see it, the fundamental problem you face in this kind of analysis is that any inference of any subset of Θ is an inference over the restricted class of probability measures in the model M, so when you start asking about probabilities of inferring the true model, under the model, this degenerates down to a trivial question of whether or not there is misspecification to begin with. White gets around this by looking at how close the model gets to the true probability measure, using an appropriate distance metric. This leads him to the probability measure Pθ1, which is the closest proxy for P in M. This method of looking at Pθ1 can be extended to give interesting quantities relating to your question about the confidence sets.

Before getting to this, it is worth pointing out that the values A and B are mathematically well-defined in your analysis (i.e., they exist), and they still have a meaning; it is just not necessarily a very useful meaning. The value A in your analysis is well-defined; it is the true probability that the inferred set of probability measures includes the true probability measure. You are correct that PM implies A=0, which means that this quantity is trivial in the case of misspecification. Following White's lead, it is perhaps more interesting to look at the quantity:

AA(Y)P(Pθ1{Pθ|θδ(Y)}).

Here we have replaced the inner occurrence of P with its closest proxy in the model M, so that the quantity is no longer rendered trivial when PM. Now we are asking for the true probability that the inferred set of probability measures includes the closest proxy for the true probability measure in the model. Misspecification of the model no longer trivialises this quantity, since we have Pθ1M by construction.

White analyses misspecification by showing that the MLE is a consistent estimator of Pθ1. This is valuable because it tells you that even if there is misspecification, you still correctly estimate the closest proxy to the true probability measure in the model. A natural follow-up question concerning confidence sets is whether or not a particular inference method δ imposes any lower bound on the quantity A or any convergence result in the limit as n. If you can establish a (positive) lower bound or a (positive) convergence result, this gives you some value in guaranteeing that even if there is misspecification, you still correctly estimate the closest proxy with some probability level. I would recommend that you explore those issues, following the kind of analysis done by White.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.