Khi nào hình vuông nhỏ nhất sẽ là một ý tưởng tồi?


11

Nếu tôi có mô hình hồi quy: trong đó và ,

Y=Xβ+ε
V[ε]=IdRn×nE[ε]=(0,,0)

khi nào sử dụng , công cụ ước lượng bình phương nhỏ nhất thông thường của , sẽ là lựa chọn kém cho công cụ ước tính?βOLSβ

Tôi đang cố gắng để tìm ra một ví dụ là các hình vuông nhỏ nhất hoạt động kém. Vì vậy, tôi đang tìm kiếm một phân phối các lỗi thỏa mãn giả thuyết trước đó nhưng mang lại kết quả xấu. Nếu gia đình phân phối sẽ được xác định bởi giá trị trung bình và phương sai sẽ là tuyệt vời. Nếu không, nó cũng ổn.

Tôi biết rằng "kết quả xấu" là một chút mơ hồ, nhưng tôi nghĩ ý tưởng này là dễ hiểu.

Chỉ để tránh nhầm lẫn, tôi biết rằng bình phương tối thiểu là không tối ưu, và có những ước lượng tốt hơn như hồi quy sườn núi. Nhưng đó không phải là điều tôi đang hướng tới. Tôi muốn một ví dụ là hình vuông nhỏ nhất sẽ không tự nhiên.

Tôi có thể tưởng tượng những thứ như, vectơ lỗi sống trong một khu vực không lồi của , nhưng tôi không chắc về điều đó.ϵRn

Chỉnh sửa 1: Là một ý tưởng để giúp trả lời (mà tôi không thể tìm ra cách tiếp tục). là MÀU XANH. Vì vậy, nó có thể giúp suy nghĩ về khi một công cụ ước lượng không thiên vị tuyến tính sẽ không phải là một ý tưởng tốt.βOLS

Chỉnh sửa 2: Như Brian đã chỉ ra, nếu bị điều hòa xấu, thì là một ý tưởng tồi vì phương sai quá lớn và thay vào đó nên sử dụng Regression Regression. Tôi quan tâm nhiều hơn đến việc biết phân phối nào nên để làm cho các ô vuông nhỏ nhất hoạt động kém.XXβOLSε

βOLSβ+(XX)1Xεε Có phân phối với ma trận phương sai nhận dạng và trung bình bằng 0 cho làm cho công cụ ước tính này không hiệu quả không?ε


1
Tôi không muốn nghe gay gắt, nhưng tôi không hoàn toàn chắc chắn những gì bạn muốn. Có rất nhiều cách một cái gì đó có thể là một lựa chọn kém. Thông thường, chúng tôi đánh giá các công cụ ước tính theo các khía cạnh như thiên vị , phương sai , mạnh mẽhiệu quả . Ví dụ, như bạn lưu ý, công cụ ước tính OLS là XANH LÁ .
gung - Phục hồi Monica

1
OTOH, phương sai có thể lớn đến mức vô dụng, làm cho một công cụ ước lượng phương sai thấp hơn nhưng sai lệch như sườn núi thích hợp hơn. Một ví dụ khác là OLS sử dụng tối đa tất cả các thông tin trong dữ liệu của bạn, nhưng điều này làm cho nó dễ bị ngoại lệ. Có rất nhiều chức năng mất thay thế mạnh mẽ hơn, trong khi cố gắng duy trì hiệu quả. Có thể rõ ràng hơn nếu bạn có thể đóng khung lại câu hỏi của bạn theo các thuật ngữ như thế này. Tôi không biết ý nghĩa của một người ước tính là "không tự nhiên".
gung - Phục hồi Monica

Cảm ơn bình luận của bạn, nó làm tôi nhận ra sự mơ hồ của câu hỏi. Tôi hy vọng nó rõ ràng hơn bây giờ
Manuel

Xem hồi quy trong câu trả lời này . Tóm lại: các ngoại lệ có ảnh hưởng có thể là một vấn đề.
Glen_b -Reinstate Monica

Câu trả lời:


8

Câu trả lời của Brian Borchers khá tốt --- dữ liệu chứa các ngoại lệ kỳ lạ thường không được phân tích kỹ bởi OLS. Tôi sẽ mở rộng điều này bằng cách thêm một hình ảnh, một Monte Carlo và một số Rmã.

Hãy xem xét một mô hình hồi quy rất đơn giản:

Yi=β1xi+ϵi ϵi={N(0,0.04)w.p.0.99931w.p.0.000531w.p.0.0005

Mô hình này phù hợp với thiết lập của bạn với hệ số độ dốc là 1.

Biểu đồ đính kèm hiển thị một tập dữ liệu bao gồm 100 quan sát trên mô hình này, với biến x chạy từ 0 đến 1. Trong tập dữ liệu được vẽ, có một lỗi về lỗi xuất hiện với giá trị ngoại lệ (+31 trong trường hợp này) . Cũng được vẽ là đường hồi quy OLS màu xanh lam và đường hồi quy sai lệch nhỏ nhất tuyệt đối có màu đỏ. Lưu ý cách OLS nhưng không LAD bị biến dạng bởi ngoại lệ:

OLS vs LAD với một ngoại lệ

Chúng tôi có thể xác minh điều này bằng cách thực hiện một Monte Carlo. Ở Monte Carlo, tôi tạo ra một bộ dữ liệu gồm 100 quan sát bằng cách sử dụng cùng và với phân phối trên 10.000 lần. Trong 10.000 bản sao đó, chúng tôi sẽ không nhận được một ngoại lệ trong đại đa số. Nhưng trong một vài lần chúng ta sẽ có một ngoại lệ, và nó sẽ làm hỏng OLS nhưng không LAD mỗi lần. Các mã bên dưới chạy Monte Carlo. Dưới đây là kết quả cho các hệ số độ dốc:ϵxϵR

               Mean   Std Dev   Minimum   Maximum 
Slope by OLS   1.00      0.34     -1.76      3.89 
Slope by LAD   1.00      0.09      0.66      1.36

Cả OLS và LAD đều tạo ra các công cụ ước tính không thiên vị (các độ dốc trung bình là 1,00 trên 10.000 lần lặp lại). OLS tạo ra một công cụ ước tính với độ lệch chuẩn cao hơn nhiều, tuy nhiên, 0,34 so với 0,09. Do đó, OLS không phải là tốt nhất / hiệu quả nhất trong số các công cụ ước tính không thiên vị, ở đây. Tất nhiên vẫn là BLUE, nhưng LAD không phải là tuyến tính, do đó không có mâu thuẫn. Lưu ý các lỗi hoang dã OLS có thể mắc trong cột Min và Max. Không phải vậy.

Đây là mã R cho cả biểu đồ và Monte Carlo:

# This program written in response to a Cross Validated question
# http://stats.stackexchange.com/questions/82864/when-would-least-squares-be-a-bad-idea

# The program runs a monte carlo to demonstrate that, in the presence of outliers,
# OLS may be a poor estimation method, even though it is BLUE.


library(quantreg)
library(plyr)

# Make a single 100 obs linear regression dataset with unusual error distribution
# Naturally, I played around with the seed to get a dataset which has one outlier
# data point.

set.seed(34543)

# First generate the unusual error term, a mixture of three components
e <- sqrt(0.04)*rnorm(100)
mixture <- runif(100)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31

summary(mixture)
summary(e)

# Regression model with beta=1
x <- 1:100 / 100
y <- x + e

# ols regression run on this dataset
reg1 <- lm(y~x)
summary(reg1)

# least absolute deviations run on this dataset
reg2 <- rq(y~x)
summary(reg2)

# plot, noticing how much the outlier effects ols and how little 
# it effects lad
plot(y~x)
abline(reg1,col="blue",lwd=2)
abline(reg2,col="red",lwd=2)


# Let's do a little Monte Carlo, evaluating the estimator of the slope.
# 10,000 replications, each of a dataset with 100 observations
# To do this, I make a y vector and an x vector each one 1,000,000
# observations tall.  The replications are groups of 100 in the data frame,
# so replication 1 is elements 1,2,...,100 in the data frame and replication
# 2 is 101,102,...,200.  Etc.
set.seed(2345432)
e <- sqrt(0.04)*rnorm(1000000)
mixture <- runif(1000000)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31
var(e)
sum(e > 30)
sum(e < -30)
rm(mixture)

x <- rep(1:100 / 100, times=10000)
y <- x + e
replication <- trunc(0:999999 / 100) + 1
mc.df <- data.frame(y,x,replication)

ols.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(lm(y~x,data=df))[2])
names(ols.slopes)[2] <- "estimate"

lad.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(rq(y~x,data=df))[2])
names(lad.slopes)[2] <- "estimate"

summary(ols.slopes)
sd(ols.slopes$estimate)
summary(lad.slopes)
sd(lad.slopes$estimate)

@Quản lý cảm ơn. Tôi đã gặp một lỗi trong chương trình R của mình --- có 0,04 trong đó đáng lẽ phải có sqrt (0,04). Nó không thay đổi lực đẩy của câu trả lời. Nó tạo ra một sự khác biệt nhỏ cho kết quả. Tuy nhiên, nếu bạn đã sao chép mã trước đó, bạn nên sao chép lại nó ngay bây giờ.
Bill

7

Một ví dụ sẽ là nơi bạn không muốn ước tính giá trị trung bình. Điều này xuất hiện trong công việc tôi từng làm khi chúng tôi ước tính số lượng bạn tình mà mọi người có, như là một phần của mô hình lây lan HIV / AIDS. Có nhiều mối quan tâm hơn trong các đuôi của phân phối: Những người nào có nhiều đối tác?

Trong trường hợp này, bạn có thể muốn hồi quy lượng tử; một phương pháp sử dụng, theo ý kiến ​​của tôi.


bạn có ý nghĩa gì với việc không muốn ước tính trung bình? Tôi đang xem xét như một tham số cố định theo cách tiếp cận thường xuyên, nếu đó là những gì bạn đang nói. β
Manuel

Hay ý bạn là, ý nghĩa của ? Y
Manuel

Vâng, ý tôi là ý nghĩa của Y. Đó là những gì hồi quy OLS làm.
Peter Flom - Tái lập Monica

Điểm tuyệt vời, + 1. Chỉ cần xem xét biểu thức và tính toán mức tối thiểu của nó. Đó là trung điểm giữa a và b. Điều này trái ngược với hàm lỗi , còn gọi là hồi quy mạnh L 1(xa)2+(xb)2L1
jpmuc

6

Nếu là một ma trận có điều kiện xấu hoặc chính xác là số ít, thì công cụ ước lượng bình phương nhỏ nhất của bạn sẽ cực kỳ không ổn định và vô dụng trong thực tế. X

Nếu bạn giới hạn sự chú ý của mình vào phân phối , thì bạn nên nhớ rằng định lý Gauss-Markov đảm bảo rằng giải pháp bình phương tối thiểu sẽ là một công cụ ước lượng không thiên vị tối thiểu. ϵ

Tuy nhiên, nếu phân phối của là cực kỳ đủ, thì có thể xây dựng các ví dụ trong đó phân phối ước tính có các thuộc tính xấu (đặc biệt là khả năng (mặc dù có xác suất thấp) trong các lỗi cực lớn trong ) mặc dù là tối thiểu phương sai. βϵβ


Điều gì sẽ là một phân phối cực đoan của ? Hãy nhớ rằng nó có ma trận hiệp phương sai danh tính. ε
Manuel

1
Ngoài ra, Gauss-Markov đảm bảo bình phương tối thiểu là một công cụ ước lượng không thiên vị tối thiểu giữa các tuyến tính. Có thể là ước tính tuyến tính không thể tái lập cho một số loại phân phối. Đó là những gì tôi muốn hiểu.
Manuel

Hãy xem xét phân phối trong đó với xác suất 0,9999 và với xác suất và với xác suất . Bây giờ, giả sử (y chỉ là các phép đo trực tiếp của tham số chưa biết ) và bạn có khoảng 100 quan sát. Rất có thể ước tính của bạn sẽ hoàn hảo, nhưng có một khả năng đáng kể là ước tính bao gồm một trong những giá trị xấu hiếm gặp và kết quả là bị tắt. ε i = 100 0,00005 ε i = - 100 0,00005 X = Tôi beta εϵi=0ϵi=1000.00005ϵi=1000.00005X=Iβϵ
Brian Borchers

Nếu bạn muốn một cái gì đó thực sự kỳ lạ, hãy cân nhắc sử dụng phân phối t của Học sinh được chia tỷ lệ phù hợp với 4 bậc tự do. Đây là một phân phối nổi tiếng với trung bình và phương sai hữu hạn nhưng khoảnh khắc thứ tư không bị ràng buộc. Bây giờ, giả sử rằng bạn có 1 quan sát với và . Phân phối của sẽ có giá trị trung bình và phương sai hữu hạn nhưng không có giới hạn thứ tư. β = 0 βX=1β=0β^
Brian Borchers

Tôi tin rằng bình luận thứ hai của bạn là những gì tôi đang tìm kiếm. Nó chỉ làm phiền tôi xác suất xảy ra thấp. Cũng từ ví dụ đó, cách xây dựng một công cụ ước tính tốt hơn khi biết phân phối các lỗi.
Manuel
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.