Liệu một cách tiếp cận từng bước tạo ra mô hình


8

Khi sử dụng cách tiếp cận từng bước để chọn các biến, mô hình kết thúc có được đảm bảo có cao nhất có thể không? Nói một cách khác, cách tiếp cận từng bước đảm bảo tối ưu toàn cầu hay chỉ là tối ưu cục bộ?R2

Ví dụ: nếu tôi có 10 biến để chọn và muốn xây dựng mô hình 5 biến, kết quả cuối cùng là mô hình 5 biến được xây dựng theo phương pháp tiếp cận từng bước có cao nhất trong tất cả các mô hình 5 biến có thể có đã được xây dựng?R2

Lưu ý rằng câu hỏi này hoàn toàn là lý thuyết, tức là chúng tôi không tranh luận liệu giá trị cao có tối ưu hay không, liệu nó có dẫn đến vượt mức, v.v.R2


2
Tôi nghĩ rằng lựa chọn từng bước sẽ mang lại cho bạn cao nhất có thể theo nghĩa là nó sẽ bị sai lệch cao hơn nhiều so với mô hình thực (nghĩa là nó sẽ không dẫn đến mô hình tối ưu). Bạn có thể muốn đọc này . R2
gung - Tái lập Monica

10
Một tối đa đạt được khi bao gồm tất cả các biến. Đây rõ ràng là trường hợp vì bao gồm một biến mới không thể giảm . Thật vậy, theo nghĩa nào bạn có nghĩa là "địa phương" và "toàn cầu"? Lựa chọn biến là một vấn đề riêng biệt - chọn một trong tập hợp con của biến - vậy một vùng lân cận cục bộ của tập hợp con sẽ là gì? R22 k kR22kk
whuber

Chỉnh sửa lại: Bạn có thể vui lòng mô tả "cách tiếp cận từng bước" mà bạn có trong tâm trí không? (Những cái tôi quen thuộc không đến một số biến được chỉ định: một phần mục đích của chúng là giúp bạn quyết định có bao nhiêu biến để sử dụng.)
whuber

Bạn có nghĩ rằng cao hơn (thô) là một điều tốt không? Đó là lý do tại sao họ đã điều chỉnh , AIC, v.v.R 2R2R2
Wayne

1
Đối với R2 tối đa, bao gồm tất cả các tương tác 2 chiều và 3 chiều, các phép biến đổi khác nhau (log, nghịch đảo, vuông, v.v.), các giai đoạn của mặt trăng, v.v.
Zach

Câu trả lời:


5

Bạn không nhất thiết phải có R cao nhất vì bạn chỉ so sánh một tập hợp con của các mô hình có thể và có thể bỏ lỡ mô hình có R cao nhất sẽ bao gồm tất cả các biến .. Để có được mô hình đó, bạn cần xem xét tất cả các tập hợp con . Nhưng mô hình tốt nhất có thể không phải là mô hình có R cao nhất vì có thể bạn quá phù hợp vì nó bao gồm tất cả các biến.2 2222


1
Tôi cũng tin điều này, nhưng để có sức thuyết phục - bởi vì bạn chưa đưa ra một lập luận chặt chẽ - sẽ rất tuyệt khi thấy một ví dụ thực tế. Sẽ còn tuyệt vời hơn khi hiểu tại sao một quy trình từng bước hội tụ đến biến (giả sử) có thể không hội tụ đến tổ hợp cao nhất (không yêu cầu tìm kiếm tất cả các tập con). R 2 kkR2k
whuber

Thủ tục từng bước phụ thuộc vào nơi bạn bắt đầu. Nếu bạn bắt đầu với hai bộ biến ban đầu khác nhau, nó có thể dẫn bạn đến các giải pháp khác nhau. Vấn đề là ở mỗi bước có một tiêu chí về thống kê F cho một biến để nhập và als cho một biến để lại. Thống kê F phụ thuộc vào các biến hiện có trong mô hình. Quy trình dừng khi cả F không nhập và F để thoát đều có ý nghĩa thống kê ở ngưỡng được chỉ định. Vì vậy, điều đó dễ dàng có thể xảy ra trước khi bạn thêm tất cả các biến vào mô hình.
Michael R. Chernick

Điều này có thể dễ dàng được chứng minh bằng một ví dụ nói trong SAS với đầu ra được dán vào câu trả lời.
Michael R. Chernick

1
Tôi đồng ý - nhưng việc tìm ra ví dụ mẫu là phần khó, @Michael, không sử dụng phần mềm!
whuber

Dù bằng cách nào thì nó cũng rất nhiều việc!
Michael R. Chernick

13

Dưới đây là một ví dụ truy cập sử dụng dữ liệu được tạo ngẫu nhiên và R:

library(MASS)
library(leaps)

v <- matrix(0.9,11,11)
diag(v) <- 1

set.seed(15)
mydat <- mvrnorm(100, rep(0,11), v)
mydf <- as.data.frame( mydat )

fit1 <- lm( V1 ~ 1, data=mydf )
fit2 <- lm( V1 ~ ., data=mydf )

fit <- step( fit1, formula(fit2), direction='forward' )
summary(fit)$r.squared

all <- leaps(mydat[,-1], mydat[,1], method='r2')
max(all$r2[ all$size==length(coef(fit)) ])

plot( all$size, all$r2 )
points( length(coef(fit)), summary(fit)$r.squared, col='red' )

R2

whuber muốn quá trình suy nghĩ: nó chủ yếu là một sự tương phản giữa sự tò mò và sự lười biếng. Bài viết gốc nói về việc có 10 biến dự đoán, vì vậy đó là những gì tôi đã sử dụng. Tương quan 0,9 là một số tròn đẹp với tương quan khá cao, nhưng không quá cao (nếu nó quá cao thì từng bước nhiều khả năng sẽ chỉ chọn 1 hoặc 2 dự đoán), tôi đã tìm ra cơ hội tốt nhất để tìm ra một ví dụ phản biện sẽ bao gồm một số lượng lớn của cộng sự. Một ví dụ thực tế hơn sẽ có nhiều mối tương quan khác nhau (nhưng vẫn có số lượng cộng tuyến khá lớn) và mối quan hệ được xác định giữa các yếu tố dự đoán (hoặc tập hợp con của chúng) và biến phản ứng. Cỡ mẫu 100 cũng là số 1 tôi đã thử dưới dạng số tròn đẹp (và quy tắc ngón tay cái nói rằng bạn nên có ít nhất 10 quan sát cho mỗi người dự đoán). Tôi đã thử mã ở trên với hạt 1 và 2, sau đó bọc toàn bộ trong một vòng lặp và để nó thử các hạt khác nhau theo tuần tự. Thật ra nó dừng ở hạt 3, nhưng sự khác biệt ởR2 nằm ở dấu thập phân thứ 15, vì vậy tôi đoán rằng đó có khả năng là lỗi làm tròn số và khởi động lại nó với phép so sánh làm tròn đầu tiên thành 5 chữ số. Tôi đã ngạc nhiên một cách thú vị rằng nó đã tìm thấy một sự khác biệt ngay sau khi 15. Nếu nó không tìm thấy một ví dụ phản biện trong một khoảng thời gian hợp lý, tôi sẽ bắt đầu điều chỉnh mọi thứ (tương quan, kích thước mẫu, v.v.).


2
+1 Tốt lắm! Các ví dụ có sức thuyết phục hơn nhiều sau đó gọi các khả năng giả thuyết. Nhưng nếu bạn có cơ hội, hãy xem xét chia sẻ quá trình suy nghĩ mà bạn đã trải qua trong việc xây dựng ví dụ này.
whuber

Tài khoản của bạn về thủ tục là vô giá: đây là loại tiết lộ, những thứ thiết thực chỉ xuất hiện trong các giấy tờ sáng suốt nhất, nếu có, và phải được học trực tiếp từ người khác hoặc được phát minh lại. (Tôi ước tôi có thể thêm một upvote khác.)
whuber

4

Nếu bạn thực sự muốn có được cao nhất, bạn phải xem (như @Michael đã nói) ở tất cả các tập con. Với rất nhiều biến số, điều đó đôi khi không khả thi và có những phương pháp để tiến gần mà không cần kiểm tra mọi tập hợp con. Một phương thức được gọi là (IIRC) "bước nhảy vọt" và nằm trong gói R nhảy vọt.R2

Tuy nhiên, điều này sẽ mang lại kết quả rất thiên vị. giá trị p sẽ quá thấp, hệ số sai lệch từ 0, sai số chuẩn quá nhỏ; và tất cả theo số lượng không thể ước tính đúng.

Lựa chọn từng bước cũng có vấn đề này.

Tôi thực sự khuyên bạn nên chống lại bất kỳ phương pháp lựa chọn biến tự động nào, bởi vì điều tồi tệ nhất về chúng là chúng ngăn bạn suy nghĩ; hoặc, nói cách khác, một nhà phân tích dữ liệu sử dụng các phương thức tự động đang nói với ông chủ của mình trả cho anh ta / cô ta ít hơn.

Nếu bạn phải sử dụng một phương pháp tự động, thì bạn nên tách dữ liệu của mình thành các tập huấn luyện và kiểm tra, hoặc có thể là đào tạo, xác nhận và các bộ cuối cùng.


1
lựa chọn từng bước không tệ như bạn đưa ra nếu mục đích là để dự đoán hoặc sử dụng chuỗi các mô hình được tạo ra. trong thực tế, nhiều thuật toán rj mcmc để lựa chọn mô hình về cơ bản là "ngẫu nhiên từng bước" vì các đề xuất thường bao gồm thêm hoặc xóa một biến.
xác suất

1
Stepwise đã được chứng minh là khủng khiếp. Để biết chi tiết, xem cuốn sách Chiến lược mô hình hồi quy của Frank Harrell. RJ là gì? Đúng là chuỗi các mô hình có thể nói điều gì đó hữu ích, nhưng sau đó thì sao? Tôi cũng có nhiều vấn đề với giá trị p, nhưng đó là một vấn đề khác (hoặc xem Thử nghiệm đáng kể)
Peter Flom

1
@PeterFlom - RJ là bước nhảy đảo ngược. stepwise chỉ đơn giản là một cách nhanh chóng để tìm kiếm không gian mô hình, làm cho vấn đề ít bị nổ theo tổ hợp. Nhưng nó cần "khởi động lại nhiều lần" để giúp nó không bị kẹt trong chế độ cục bộ. Tôi sẽ phải lấy cuốn sách này.
xác suất

2
@Macro, Ngay cả trong trường hợp trực giao, bạn thấy tại sao giá trị (ngây thơ) sẽ bị tắt, đúng không? Bạn cũng thấy tại saocủa mô hình "được chọn" sẽ có xu hướng (nghĩa là ngẫu nhiên) lớn hơn trong trường hợp không được chọn, đúng không? Giả sử bạn chỉ có hai biến trực giao, cả và lựa chọn mô hình của bạn là chọn biến có giá trị thấp hơn để giữ (giống như chọn một biến có cường độ lớn nhất). | beta | β i = 0 pp|β^|βi=0p
Đức hồng y

1
@cardinal, tôi hiểu rồi. Vì vậy, điều này về cơ bản chỉ là kết quả của thực tế là khi bạn có mẫu iid , thì nếu tôi hiểu bạn một cách chính xác. Điều đó có ý nghĩa. X1,...,Xn
E(min{X1,...,Xn})<E(X1)
Macro
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.