Tên của trò chơi cải tổ lại trò lừa đảo (ngẫu nhiên hoán vị tập dữ liệu để ước tính độ lệch của công cụ ước tính)


8

Bạn có biết một tham chiếu hoặc tên cho cách sau đây để điều tra nếu một kỹ thuật mô hình phức tạp bị sai lệch?T

  1. Áp dụng cho tập dữ liệu gốc. Đo hiệu suất của nó (ví dụ R bình phương trong cài đặt hồi quy).T
  2. Ngẫu nhiên hoán vị biến trả lời để có được một tập dữ liệu mới. Áp dụng và đo hiệu suất của nó . [Nếu các quan sát phụ thuộc, bước này phức tạp hơn.]P 'TP

Nếu khác biệt đáng kể so với hiệu suất bằng 0, chúng tôi kết luận bị sai lệch. TPT

Bước 2 có thể được lặp lại nếu tài nguyên cho phép, điều này sẽ dẫn đến phân phối null hoán vị của thước đo hiệu suất. Nhưng trong ứng dụng của tôi, tôi không thể làm điều này vì vấn đề tài nguyên.

Tôi tối nhớ rằng thủ thuật "chia sẻ lại" này đã được ai đó sử dụng để điều tra sự thiên vị của xác thực chéo một lần (trong một số cài đặt). Tôi không biết, tuy nhiên, nếu anh ta ở trong hoàn cảnh của tôi, nơi anh ta có thể lặp lại toàn bộ quá trình chỉ một lần.

Một ví dụ trong R cho thấy "sức mạnh" của lựa chọn lạc hậu ngây thơ:

# Generate random data set. Only random performance is expected.
n <- 100
p <- 30

set.seed(7567)
y <- rnorm(n)
X <- rnorm(n*p)
dim(X) <- c(n, p)
data <- data.frame(y, X)

# Modelling technique: backward selection with OLS
T <- function(data) {
  step(lm(y ~ ., data = data), trace = 0)
}

# Performance: R-squared
P <- function(fit) {
  summary(fit)$r.squared
}

# Step 1: Compute performance on original data. Happily publish high R-squared...
P(T(data)) # 0.240405

# Step 2: Your mean colleague reshuffles response and gets also R-squared far away from 0
data$y <- data$y[sample(n)]
P(T(data)) # 0.1925726

Kết luận về ví dụ: Kỹ thuật mô hình được chọn là cực kỳ dễ bị quá mức, ít nhất là trong cài đặt cụ thể này.

Một số nền tảng

Tôi đã từng sử dụng thủ thuật chia sẻ lại này để kiểm tra xem việc xác thực chéo một số quy trình mô hình tẻ nhạt có được tôi thực hiện đúng không. Theo một hoán vị ngẫu nhiên, CV đã cho R bình phương về cơ bản là 0 (như mong đợi / mong muốn).


3
Câu hỏi này có vẻ rất phù hợp: stats.stackexchange.com/questions/192291/NH và tham chiếu được trích dẫn trong đó.
Flounderer

2
Tìm kiếm tốt @Flounderer, tôi đã thêm liên kết đến câu hỏi này vào câu trả lời của mình cho những ai muốn đọc thêm (và có thể nhận được câu trả lời của amip một số câu trả lời xứng đáng)
IWS

Câu trả lời:


15

Để trả lời câu hỏi trong tiêu đề, AFAIK đây được gọi là kiểm tra hoán vị . Nếu đây thực sự là những gì bạn đang tìm kiếm, nó không hoạt động như được mô tả trong câu hỏi.

Để được (phần nào) ngắn gọn: thử nghiệm hoán vị thực sự hoạt động bằng cách xáo trộn một trong các 'cột' và thực hiện thử nghiệm hoặc tính toán quan tâm. Tuy nhiên, mẹo là làm điều này rất nhiều lần , xáo trộn dữ liệu mỗi lần. Trong các bộ dữ liệu nhỏ, thậm chí có thể thực hiện tất cả các hoán vị có thể. Trong các bộ dữ liệu lớn, bạn thường thực hiện một lượng hoán vị mà máy tính của bạn có thể xử lý, nhưng nó đủ lớn để có được sự phân phối thống kê quan tâm .

Cuối cùng, bạn sử dụng phân phối này để kiểm tra xem, ví dụ, sự khác biệt trung bình giữa hai nhóm là> 0 trong 95% phân phối. Nói một cách đơn giản, bước sau này của việc kiểm tra phần nào của phân phối nằm trên / dưới một giá trị tới hạn nhất định là 'giá trị p' cho kiểm tra giả thuyết của bạn.

Nếu giá trị này khác với giá trị p trong mẫu ban đầu, tôi sẽ không nói có gì đó không đúng với kiểm tra / thống kê quan tâm, mà là mẫu của bạn có chứa một số điểm dữ liệu nhất định ảnh hưởng đến kết quả kiểm tra. Đây có thể là sai lệch (sai lệch lựa chọn do bao gồm một số trường hợp lạ; lỗi đo lường trong các trường hợp cụ thể, v.v.) hoặc có thể sử dụng thử nghiệm không chính xác (ví dụ: các giả định đã vi phạm).

Xem https://en.wikipedia.org/wiki/Resampling_(statistic) để biết thêm chi tiết

Hơn nữa, hãy xem câu trả lời của @amoeba cho câu hỏi này Nếu bạn muốn biết thêm về cách kết hợp các phép thử hoán vị với lựa chọn biến.


1
Vì vậy, nó giống như một thử nghiệm hoán vị với một hoán vị duy nhất (vì ví dụ chạy trong 10 ngày) và tập trung vào phân phối null của thống kê hiệu suất (thay vì giá trị p)? T
Michael M

5
Sức mạnh của kiểm tra hoán vị (và phương pháp lấy mẫu lại) nằm ở việc phân phối số liệu thống kê kiểm tra mà bạn có được. Để phục hồi điều đó, có được phân phối là bắt buộc cho thử nghiệm. Bạn sẽ hiểu rằng nếu bạn chỉ làm điều này một lần hoặc chỉ một vài lần, bạn không thể tạo thành một phân phối hợp lý các kết quả này. Nếu mô hình một lần yêu cầu 10 ngày thời gian chạy, các thử nghiệm hoán vị thích hợp thực sự sẽ mất nhiều thời gian. Có lẽ crossvalidation en.wikipedia.org/wiki/Cross-validation_(statistic) được áp dụng nhiều hơn? T
IWS

1
@MichaelM Thử nghiệm hoán vị và thử nghiệm ngẫu nhiên là cùng một thử nghiệm. Nếu thống kê mất nhiều thời gian để tính toán, kiểm tra hoán vị sẽ mất rất nhiều thời gian để chạy.
AdamO

@AdamO: Hoàn toàn đồng ý về thời gian. Nhưng kỹ thuật hoàn toàn không phải là về việc kiểm tra một giả thuyết. Đó là về ước tính của một thiên vị (sẽ đi nhiều hơn theo hướng của một ứng dụng bootstrap). Nhưng đó là lý do tại sao tôi đặt câu hỏi!
Michael M

2

Cuối cùng tôi đã tìm thấy câu trả lời trong cuốn sách "Chiến lược mô hình hóa hồi quy" của Frank Harrell [1] trong Phần 5.2.4 (Những cải tiến về phân tách dữ liệu: Lấy mẫu lại.).

"Phương pháp ngẫu nhiên hóa" được trình bày như một phương pháp thú vị để ước tính sự lạc quan thông qua các hoán vị ngẫu nhiên của phản ứng, đặc biệt là kết hợp với lựa chọn biến (như trong ví dụ trong OP).

Ông, trong số những người khác, đề cập đến [2] cho các ý tưởng liên quan.

Phương pháp này rất đơn giản: Giả sử chiến lược mô hình hóa phức tạp của bạn bao gồm lựa chọn tiến / lùi (và sideway) và tập dữ liệu của bạn quá nhỏ để phân tách kiểm tra / xác thực / kiểm tra sạch. Hơn nữa, bạn có thể không hoàn toàn tin tưởng xác thực chéo vì điều đó luôn có nghĩa là loại bỏ một tỷ lệ nhất định của dữ liệu trong màn hình đầu tiên. Làm thế nào bạn có thể đánh giá nếu R bình phương 0,7 của bạn là hợp lệ hoặc nếu nó chủ yếu là kết quả của quá mức? Phương pháp ngẫu nhiên hoạt động như sau (ở đây chúng ta nói về R bình phương nhưng nó có thể là bất kỳ thước đo hiệu suất quan tâm nào). Nếu chiến lược của bạn không thiên vị, thì bạn sẽ mong đợi bình phương R gần bằng 0 nếu được lặp lại trên tập dữ liệu với biến phản hồi được hoán vị ngẫu nhiên. Giả sử bạn nhận được bình phương R bình phương là 0,6 thay vì 0 sau 20 lần hoán vị. Vì vậy, bạn biết rằng R bình phương ban đầu bằng 0. 7 có lẽ không nhiều hơn kết quả của việc quá mức. Một ước tính trung thực hơn về bình phương R "thật" sẽ là 0,7-0,6 = 0,1 (nhỏ). Vì vậy, bạn đã cho thấy trang phục chiến lược của bạn tồi tệ như thế nào.

Ưu điểm của phương pháp

  • Rất đơn giản
  • Bạn luôn sử dụng bộ dữ liệu đầy đủ

Nhược điểm bao gồm

  • Ước tính của sự lạc quan dường như không chính xác
  • Phương pháp này không nổi tiếng trái ngược với xác thực chéo hoặc xác thực bootstrap.

[1] Frank Harrell, "Chiến lược mô hình hồi quy", 2001. Springer.

[2] R. Tibshirani và K. Hiệp sĩ. Tiêu chí lạm phát hiệp phương sai cho lựa chọn mô hình thích ứng. JRSS B, 61: 529-546, 1999.


1
Thật thú vị, có vẻ như tôi đã bỏ lỡ phương pháp này, trong khi thưởng thức các câu trả lời cho câu trả lời của tôi về một lời giải thích chung về các phương pháp lấy mẫu lại. Nếu bạn có thể giải thích câu trả lời này với cách thức phương pháp hoán vị duy nhất này hoạt động, điều đó thật tuyệt vời.
IWS

Không cần phải xin lỗi! Câu trả lời của bạn luôn được chào đón. Thực sự không có nhiều để giải thích, nhưng tôi đã thêm một số thông tin vào câu trả lời.
Michael M

Dựa trên việc đọc thêm, tôi đã sửa đổi câu trả lời để làm nổi bật rằng, trái ngược với OP của tôi, thường có một vài hoán vị được chạy để tính toán sự lạc quan với độ chính xác đủ.
Michael M

Đây là một ấn phẩm gần đây về kỹ thuật: arxiv.org/abs/1801.01361
Michael M
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.