Ước tính


14

Tôi có một mô hình kinh tế lý thuyết như sau,

y=a+b1x1+b2x2+b3x3+u

Vì vậy, lý thuyết nói rằng có các yếu tố x1 , x2x3 để ước tính y .

Bây giờ tôi có dữ liệu thực và tôi cần ước tính b1 , b2 , b3 . Vấn đề là tập dữ liệu thực tế chỉ chứa dữ liệu cho x1x2 ; không có dữ liệu cho x3 . Vì vậy, mô hình tôi có thể phù hợp thực sự là:

y=a+b1x1+b2x2+u
  • Có thể ước tính mô hình này?
  • Tôi có mất gì khi ước tính nó không?
  • Nếu tôi ước tính b1 , b2 , thì b3x3 hạn đi đâu?
  • Có phải nó được tính bởi lỗi thời hạn ?u

Và chúng tôi muốn giả sử rằng không tương quan với x 1x 2 .x3x1x2


Bạn có thể cho biết chi tiết về tập dữ liệu của bạn, ý tôi là, biến phụ thuộc và biến độc lập x 1x 2 không? yx1x2
Vara

Hãy coi nó như một ví dụ giả định mà không có bộ dữ liệu cụ thể ...
bỏ

Câu trả lời:


20

Vấn đề bạn cần lo lắng được gọi là nội sinh . Cụ thể hơn, nó phụ thuộc vào việc có tương quan trong dân số với x 1 hay x 2 hay không . Nếu có, thì b j s liên quan sẽ bị sai lệch. Đó là bởi vì các phương pháp hồi quy OLS buộc các phần dư, u i , không được tương quan với các đồng biến của bạn, x j s. Tuy nhiên, dư của bạn được cấu tạo của một số ngẫu nhiên không thể rút gọn, ε i , các biến không quan sát được (nhưng có liên quan), x 3x3x1x2bjuixjεix3 , mà theo quy định tương quan với và / hoặc x 2 . Mặt khác, nếu cả x 1x 2 không tương thích với x 3 trong dân số, thì b của họ sẽ không bị thiên vị bởi điều này (tất nhiên họ cũng có thể bị thiên vị bởi một thứ khác). Một nhà kinh tế lượng học cố gắng giải quyết vấn đề này là sử dụng các biến công cụ . x1x2 x1x2x3b

Để rõ ràng hơn, tôi đã viết một mô phỏng nhanh trong R cho thấy phân phối lấy mẫu của là không thiên vị / tập trung vào giá trị thực của β 2 , khi nó không tương thích với x 3 . Tuy nhiên, trong lần chạy thứ hai, lưu ý rằng x 3 không tương thích với x 1 , nhưng không phải là x 2 . Không phải ngẫu nhiên, b 1 là không thiên vị, nhưng b 2 sai lệch. b2β2x3x3x1x2b1b2

library(MASS)                          # you'll need this package below
N     = 100                            # this is how much data we'll use
beta0 = -71                            # these are the true values of the
beta1 = .84                            # parameters
beta2 = .64
beta3 = .34

############## uncorrelated version

b0VectU = vector(length=10000)         # these will store the parameter
b1VectU = vector(length=10000)         # estimates
b2VectU = vector(length=10000)
set.seed(7508)                         # this makes the simulation reproducible

for(i in 1:10000){                     # we'll do this 10k times
  x1 = rnorm(N)
  x2 = rnorm(N)                        # these variables are uncorrelated
  x3 = rnorm(N)
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
  mod = lm(y~x1+x2)                    # note all 3 variables are relevant
                                       # but the model omits x3
  b0VectU[i] = coef(mod)[1]            # here I'm storing the estimates
  b1VectU[i] = coef(mod)[2]
  b2VectU[i] = coef(mod)[3]
}
mean(b0VectU)  # [1] -71.00005         # all 3 of these are centered on the
mean(b1VectU)  # [1] 0.8399306         # the true values / are unbiased
mean(b2VectU)  # [1] 0.6398391         # e.g., .64 = .64

############## correlated version

r23 = .7                               # this will be the correlation in the
b0VectC = vector(length=10000)         # population between x2 & x3
b1VectC = vector(length=10000)
b2VectC = vector(length=10000)
set.seed(2734)

for(i in 1:10000){
  x1 = rnorm(N)
  X  = mvrnorm(N, mu=c(0,0), Sigma=rbind(c(  1, r23),
                                         c(r23,   1)))
  x2 = X[,1]
  x3 = X[,2]                           # x3 is correated w/ x2, but not x1
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
                                       # once again, all 3 variables are relevant
  mod = lm(y~x1+x2)                    # but the model omits x3
  b0VectC[i] = coef(mod)[1]
  b1VectC[i] = coef(mod)[2]            # we store the estimates again
  b2VectC[i] = coef(mod)[3]
}
mean(b0VectC)  # [1] -70.99916         # the 1st 2 are unbiased
mean(b1VectC)  # [1] 0.8409656         # but the sampling dist of x2 is biased
mean(b2VectC)  # [1] 0.8784184         # .88 not equal to .64

Vì vậy, bạn có thể giải thích thêm một chút không - điều gì sẽ xảy ra nếu chúng tôi cho rằng x3 không bị sai lệch với $ x_1 và x2? Sau đó, điều gì xảy ra nếu tôi ước tính y = a + b1x1 + b2x2 + u?
bỏ

1
sẽ được tích hợp vào phần dư, nhưngnếunó không tương thích trong dân số, thì các b kháccủa bạn sẽ không bị sai lệch bởi sự vắng mặt của x 3 , nhưng nếu nó không bị cắt xén, thì chúng sẽ bị xóa. b3x3bx3
gung - Phục hồi Monica

Để nói rõ hơn điều này: Nếu không tương quan với x 1 hoặc x 2 , bạn vẫn ổn. x3x1x2
gung - Phục hồi Monica

Tôi thảo luận về mặt trái của vấn đề này trong câu trả lời của tôi ở đây: Việc thêm nhiều biến vào một hồi quy đa biến có làm thay đổi hệ số của các biến hiện có không?
gung - Tái lập Monica

3

r2=ax2+by2+cz2+ϵx2y2z2, and you have measurements of r2 then you can determine your coefficients "a", "b", and "c". (You could call it ellipsoid, but to call it a ball is simpler.)

x2y2r2ax2+by2+ϵ.

You are projecting the "ball", whatever shape it is, into the expression for the circle. It could be a diagonally oriented "ball" that is shaped more like a sewing needle, and so the z components utterly wreck the estimates of the two axes. It could be a ball that looks like a nearly crushed m&m where the coin-axes are "x" and "y", and there is zero projection. You can't know which it is without the "z" information.

That last paragraph was talking about a "pure information" case and didn't account for the noise. Real world measurements have the signal with noise. The noise along the perimeter that is aligned to the axes is going to have a much stronger impact on your fit. Even though you have the same number of samples, you are going to have more uncertainty in your parameter estimates. If it is a different equation than this simple linear axis-oriented case, then things can go "pear shaped". Your current equations are plane-shaped, so instead of having a bound (the surface of the ball), the z-data might just go all over the map - projection could be a serious problem.

Is it okay to model? That is a judgment call. An expert who understands the particulars of the problem might answer that. I don't know if someone can give a good answer if they are far from the problem.

You do lose several good things, including certainty in parameter estimates, and the nature of the model being transformed.

The estimate for b3 disappears into epsilon and into the other parameter estimates. It is subsumed by the whole equation, depending on the underlying system.


1
I can't really follow your argument here, & I'm not sure if it's correct. E.g., the surface area of a sphere is 4πr2. Beyond that, I'm not sure how this relates to the question. The key issue is whether or not the omitted variable is correlated w/ variables that are in the model. I'm not sure how what you are saying addresses that issue. (For clarity, I demonstrate this with a simple R simulation.)
gung - Reinstate Monica

Gung. I gave a best-case answer sphere -> circle and showed that it changed the model in unexpected ways. I liked the technical sophistication of your answer, but am not convinced that the asker is able to use either of our answers. the f(x,y,z) is the equation for the surface of an ellipsoid in 3 dimensions, a sphere is one case of it. I am assuming that the "true model" is the surface of the sphere, but noise corrupted measurements are on the surface. Throwing out one dimension gives data that, at best, makes a filled circle instead of the surface of a sphere.
EngrStudent - Reinstate Monica

I am unable to follow your argument because I don't see anything that corresponds to a "filled in square."
whuber

0

The other answers, while not wrong, over complicate the issue a bit.

If x3 is truly uncorrelated with x1 and x2 (and the true relationship is as specified) then you can estimate your second equation without an issue. As you suggest, β3x3 will be absorbed by the (new) error term. The OLS estimates will be unbiased, as long as all the other OLS assumptions hold.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.