Có phải tất cả đều có thể phòng thủ để phân tầng một dữ liệu được đặt theo kích thước của phần dư và thực hiện so sánh hai mẫu?


16

Đây là một cái gì đó tôi thấy được thực hiện như một phương pháp đặc biệt và nó có vẻ rất tanh đối với tôi nhưng có lẽ tôi đang thiếu một cái gì đó. Tôi đã thấy điều này được thực hiện trong nhiều hồi quy nhưng chúng ta hãy làm cho nó đơn giản:

yi=β0+β1xi+εi

Bây giờ lấy phần dư từ mô hình được trang bị

ei=yi(β^0+β^1xi)

và phân tầng mẫu dựa trên kích thước của phần dư. Ví dụ: giả sử mẫu đầu tiên là 90% dưới cùng của mẫu dư và mẫu thứ hai là 10% hàng đầu, sau đó tiến hành thực hiện hai so sánh mẫu - tôi đã thấy điều này được thực hiện cả trên bộ dự đoán trong mô hình, và trên các biến không có trong mô hình. Logic không chính thức được sử dụng là có lẽ các điểm có giá trị vượt xa những gì bạn mong đợi trong mô hình (nghĩa là phần dư lớn) khác nhau theo một cách nào đó và sự khác biệt đó được nghiên cứu theo cách này.x

Suy nghĩ của tôi về chủ đề này là:

  • Nếu bạn thấy sự khác biệt 2 mẫu trên một yếu tố dự đoán trong mô hình, thì có những hiệu ứng của yếu tố dự đoán không được mô hình tính ở trạng thái hiện tại của nó (tức là các hiệu ứng phi tuyến tính).
  • Nếu bạn thấy sự khác biệt 2 mẫu trên một biến không có trong mô hình, thì có lẽ nó phải ở trong mô hình ở vị trí đầu tiên.

Một điều tôi đã tìm thấy theo kinh nghiệm (thông qua các mô phỏng) là, nếu bạn so sánh giá trị trung bình của một yếu tố dự đoán trong mô hình và phân tầng theo cách này để tạo ra hai phương tiện mẫu, và , chúng có mối tương quan tích cực với nhau. Điều này có ý nghĩa vì cả hai mẫu đều phụ thuộc vào và \ hat {\ rho} _ {xy} . Mối tương quan đó tăng lên khi bạn di chuyển điểm cắt xuống (tức là% bạn sử dụng để chia mẫu). Vì vậy, ít nhất, nếu bạn định làm một phép so sánh hai mẫu thì lỗi tiêu chuẩn trong mẫu số của t¯ x 1 ¯ x 2 ¯ y , ¯ x , σ x , σ y ρ x y txx¯1x¯2y¯,x¯,σ^x,σ^yρ^xyt-statistic cần được điều chỉnh để giải thích cho mối tương quan (mặc dù tôi chưa nhận được một công thức rõ ràng cho hiệp phương sai).

Nhưng dù sao, câu hỏi cơ bản của tôi là: Có lý do nào để làm việc này không? Nếu vậy, trong những tình huống này có thể là một điều hữu ích để làm gì? Rõ ràng tôi không nghĩ là có nhưng có thể có điều gì đó tôi không nghĩ đến theo cách đúng đắn.


hai so sánh mẫu có sử dụng cùng một IVs không? Nếu vậy, tôi không thể thấy được điểm này vì phần còn lại đã sử dụng thông tin đó. Bạn có thể cho một ví dụ về nơi bạn đã thấy điều này, nó mới đối với tôi?
Michelle

1
Chà, một điều có thể là nó có thể được sử dụng như một chẩn đoán để xem liệu bạn có bị lỗi chính tả mô hình hay không - bạn nghĩ gì về điều đó?
Macro

3
Tôi không thể thấy bất kỳ điểm nào khi thực hiện việc này ngoài công cụ chẩn đoán để xác định các điểm có vấn đề hoặc thiếu các hiệu ứng phi tuyến tính, như được đề xuất bởi các nhận xét trên. Tôi nghĩ rằng hai điểm chấm trong OP ("suy nghĩ về chủ đề ...") là âm thanh khá hay.
Peter Ellis

1
Kỹ thuật này được sử dụng bởi Loh và các đồng tác giả của anh ấy để xác định các biến phân tách trong thuật toán cây của anh ấy HPORT TRỢ và, tôi nghĩ, HƯỚNG DẪN. Vì tập dữ liệu được phân vùng theo cách đó, nó có thể được coi là tìm kiếm một ảnh hưởng phi tuyến (được ủy nhiệm bởi một chức năng từng bước) và để xác định xem một biến có thực sự bị lãng quên hay không. Tôi nhớ tự hỏi liệu điều đó có thông minh không, có lẽ bạn sẽ tìm thấy nhiều lời giải thích hơn trong bài viết của họ (tôi không nhớ lại).
Momo

1
Chắc chắn không có vấn đề. Đây là Chaudhuri et al. www3.stat.sinica.edu.tw/statistica/j4n1/j4n18/j4n18.htm www3.stat.sinica.edu.tw/statistica/j5n2/j5n217/j5n217.htm tài liệu tham khảo cho SUPPORT và Loh et al trang cho HƯỚNG DẪN stat. wisc.edu/~loh/guide.html
Momo

Câu trả lời:


8

So sánh các phương tiện là quá yếu: thay vào đó, so sánh các phân phối.

Ngoài ra còn có một câu hỏi liên quan đến việc liệu có nên so sánh kích thước của phần dư (như đã nêu) hay so sánh chính các phần dư. Do đó, tôi đánh giá cả hai.

Để cụ thể về ý nghĩa của nó, đây là một số Rmã để so sánh dữ liệu (được đưa ra trong các mảng song song và ) bằng cách hồi quy y trên x , chia phần dư thành ba nhóm bằng cách cắt chúng dưới định lượng q 0 và trên lượng tử q 1 > q 0 và (bằng phương tiện của biểu đồ qq) so sánh phân phối của các giá trị x được liên kết với hai nhóm đó.(x,y)xyyxq0q1>q0x

test <- function(y, x, q0, q1, abs0=abs, ...) {
  y.res <- abs0(residuals(lm(y~x)))
  y.groups <- cut(y.res, quantile(y.res, c(0,q0,q1,1)))
  x.groups <- split(x, y.groups)
  xy <- qqplot(x.groups[[1]], x.groups[[3]], plot.it=FALSE)
  lines(xy, xlab="Low residual", ylab="High residual", ...)
}

Đối số thứ năm cho hàm này abs0, theo mặc định sử dụng kích thước (giá trị tuyệt đối) của phần dư để tạo thành các nhóm. Sau này chúng ta có thể thay thế nó bằng một hàm sử dụng chính phần dư.

xy

simulate <- function(n, beta0=0, beta1=1, beta2=0, sd=1, q0=1/3, q1=2/3, abs0=abs,
                     n.trials=99, ...) {
  x <- 1:n - (n+1)/2
  y <- beta0 + beta1 * x + beta2 * x^2 + rnorm(n, sd=sd)
  plot(x,y, ylab="y", cex=0.8, pch=19, ...)
  plot(x, res <- residuals(lm(y ~ x)), cex=0.8, col="Gray", ylab="", main="Residuals")
  res.abs <- abs0(res)
  r0 <- quantile(res.abs, q0); r1 <- quantile(res.abs, q1)
  points(x[res.abs < r0], res[res.abs < r0], col="Blue")
  points(x[res.abs > r1], res[res.abs > r1], col="Red")
  plot(x,x, main="QQ Plot of X",
       xlab="Low residual", ylab="High residual",
       type="n")
  abline(0,1, col="Red", lwd=2)
  temp <- replicate(n.trials, test(beta0 + beta1 * x + beta2 * x^2 + rnorm(n, sd=sd), 
                             x, q0=q0, q1=q1, abs0=abs0, lwd=1.25, lty=3, col="Gray"))
  test(y, x, q0=q0, q1=q1, abs0=abs0, lwd=2, col="Black")
}

y~β0+β1x+β2x2sdq0q1abs0n.trialsn(x,y)dữ liệu, phần dư của chúng và các ô qq của nhiều thử nghiệm - để giúp chúng tôi hiểu cách các thử nghiệm được đề xuất hoạt động cho một mô hình nhất định (như được xác định bởi n, beta, s và sd). Ví dụ về các lô này xuất hiện dưới đây.

Bây giờ chúng ta sử dụng các công cụ này để khám phá một số kết hợp thực tế của phi tuyến tính và không đồng nhất, sử dụng các giá trị tuyệt đối của phần dư:

n <- 100
beta0 <- 1
beta1 <- -1/n
sigma <- 1/n

size <- function(x) abs(x)
set.seed(17)
par(mfcol=c(3,4))
simulate(n, beta0, beta1, 0, sigma*sqrt(n), abs0=size, main="Linear Homoscedastic")
simulate(n, beta0, beta1, 0, 0.5*sigma*(n:1), abs0=size, main="Linear Heteroscedastic")
simulate(n, beta0, beta1, 1/n^2, sigma*sqrt(n), abs0=size, main="Quadratic Homoscedastic")
simulate(n, beta0, beta1, 1/n^2, 5*sigma*sqrt(1:n), abs0=size, main="Quadratic Heteroscedastic")

xxx

Giá trị tuyệt đối

xxx

Chúng ta hãy làm điều tương tự, sử dụng chính xác cùng một dữ liệu , nhưng tự phân tích phần dư. Để làm điều này, khối mã trước đó đã chạy lại sau khi thực hiện sửa đổi này:

size <- function(x) x

Dư

x

Có lẽ kết hợp cả hai kỹ thuật này sẽ làm việc. Những mô phỏng này (và các biến thể của chúng, mà người đọc quan tâm có thể chạy lúc rảnh rỗi) chứng minh rằng những kỹ thuật này không phải là không có công.

x(x,y^-x)chúng ta có thể hy vọng các thử nghiệm được đề xuất sẽ ít mạnh hơn các thử nghiệm dựa trên hồi quy như Breusch-Pagan .


2

eTôixTôi

Những người khác đã nhận xét rằng đây có thể chỉ là một công cụ thăm dò để xem liệu hai bộ dữ liệu có nên được mô hình hóa riêng biệt hay không. Nếu đó là trường hợp này và có thể các phương pháp thăm dò khác có thể ổn. Nhưng câu hỏi sau đó trở thành những gì bạn làm tiếp theo? Nếu bạn định thực hiện hai hồi quy riêng biệt và rút ra suy luận về các mẫu tôi nghĩ bạn cần phải tính đến cách bạn chia mẫu.


0

Tôi đoán có thể có một số động lực để làm điều này, ví dụ như giả sử rằng phần dư là nhất quán thì phương pháp bạn đề cập có thể giúp xác định các quan sát bên ngoài, do đó bước thứ hai cung cấp các công cụ ước tính "đã sửa". Tuy nhiên, có nhiều kỹ thuật khắt khe hơn để thực hiện phát hiện ra bên ngoài hoặc cung cấp các công cụ ước tính mạnh mẽ cho sự hiện diện của các quan sát đó, như hồi quy lượng tử, LMS (trung bình bình phương) hoặc ước lượng M, v.v ... trong đó tất cả các phương pháp này đều được xác định rõ và các thuộc tính thống kê đã biết. (Điều này đã được @Michael Chernik bổ sung)

Động lực khác có thể là nhận dạng cụm nhưng điều này là nguyên thủy khi so sánh với các kỹ thuật có sẵn để phát hiện cụm cũng được xác định rõ và thực hiện rộng rãi.

Trong cả hai trường hợp, sử dụng phần dư có vẻ không chính thức và nguyên thủy, nhưng vẫn có thể được dung thứ như một công cụ thăm dò. Nó cũng phụ thuộc vào tên miền của độc giả. Tôi sẽ thấy điều này được chấp nhận đối với một số ngành khoa học xã hội nơi các công cụ định lượng có thể ít phổ biến hơn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.