(Chuyển từ nhận xét sang câu trả lời theo yêu cầu của @Greenparker)
Phần 1)
các thuật ngữ log p xuất phát từ nồng độ đo (Gaussian). Đặc biệt, nếu bạn cópđăng nhậpp----√p IID Gaussian biến ngẫu nhiên [F1], tối đa của họ là vào thứ tự của với xác suất cao.σđăng nhậpp----√
Các yếu tố chỉ ra thực tế bạn đang nhìn vào lỗi dự đoán trung bình - tức là, nó phù hợp với n - 1 ở phía bên kia - nếu bạn nhìn tổng lỗi, nó sẽ không có mặt ở đó.n- 1n- 1
Phần 2)
Về cơ bản, bạn có hai lực lượng bạn cần kiểm soát:
- i) các đặc tính tốt của việc có nhiều dữ liệu hơn (vì vậy chúng tôi muốn là lớn);n
- ii) những khó khăn có nhiều tính năng (không liên quan) (vì vậy chúng tôi muốn nhỏ).p
Trong thống kê cổ điển, chúng ta thường sửa và để n đi đến vô cùng: chế độ này không hữu ích cho lý thuyết chiều cao bởi vì nó (không có triệu chứng) trong chế độ chiều thấp bằng cách xây dựng .pn
Ngoài ra, chúng tôi có thể để đi đến vô cùng và n cố định, nhưng sau đó lỗi của chúng tôi chỉ nổ tung khi vấn đề về cơ bản là không thể. Tùy thuộc vào sự cố, lỗi có thể chuyển sang vô cùng hoặc dừng ở một số giới hạn trên tự nhiên ( ví dụ: lỗi phân loại sai 100%).pn
Vì cả hai trường hợp này đều hơi vô dụng, thay vào đó chúng tôi xem xét cả hai sẽ đến vô cùng để lý thuyết của chúng tôi đều phù hợp (duy trì chiều cao) mà không bị khải huyền (tính năng vô hạn, dữ liệu hữu hạn).n , p
Có hai "núm" thường khó hơn so với việc có một núm duy nhất, vì vậy chúng tôi sửa cho một số f cố định và để n đi đến vô cùng (và do đó p đi đến vô cùng gián tiếp). [F2] Sự lựa chọn của f xác định hành vi của vấn đề. Vì lý do trong câu trả lời của tôi cho phần 1, hóa ra "tính xấu" từ các tính năng bổ sung chỉ phát triển khi log p trong khi "tính tốt" từ dữ liệu bổ sung tăng lên khi n .p = f( n )fnpfđăng nhậppn
- Nếu trú liên tục (tương đương,p=f(n)=Θ(Cn)đối với một sốC), chúng tôi bước đi nước và vấn đề là một rửa (ở lại lỗi cố định tiệm cận);đăng nhậppnp = f( n ) = Θ ( Cn)C
- nếu (p=o(Cn)) chúng tôi đạt được không có lỗi;đăng nhậppn→ 0p = o ( Cn)
- và nếu (p=ω(Cn)), sai số cuối cùng đi đến vô cùng.đăng nhậppn→ ∞p = ω ( Cn)
Chế độ cuối cùng này đôi khi được gọi là "siêu chiều" trong tài liệu. Thuật ngữ "siêu cao" không có một định nghĩa nghiêm ngặt như tôi biết, nhưng nó không chính thức chỉ là "chế độ phá vỡ Lasso và các công cụ ước tính tương tự."
Chúng ta có thể chứng minh điều này bằng một nghiên cứu mô phỏng nhỏ trong điều kiện khá lý tưởng hóa. Ở đây chúng ta hãy hướng dẫn lý thuyết vào sự lựa chọn tối ưu của từ [BRT09] và chọn λ = 3 √λ .λ = 3 log( p ) / n-------√
Đầu tiên hãy xem xét một trường hợp trong đó . Đây là trong chế độ chiều cao 'có thể kéo được' được mô tả ở trên và, như dự đoán của lý thuyết, chúng ta thấy lỗi dự đoán hội tụ về không:p = f( n ) = 3 n
Mã để sao chép:
library(glmnet)
library(ggplot2)
# Standard High-Dimensional Asymptotics: log(p) / n -> 0
N <- c(50, 100, 200, 400, 600, 800, 1000, 1100, 1200, 1300)
P <- 3 * N
ERROR_HD <- data.frame()
for(ix in seq_along(N)){
n <- N[ix]
p <- P[ix]
PMSE <- replicate(20, {
X <- matrix(rnorm(n * p), ncol=p)
beta <- rep(0, p)
beta[1:10] <- runif(10, 2, 3)
y <- X %*% beta + rnorm(n)
g <- glmnet(X, y)
## Cf. Theorem 7.2 of Bickel et al. AOS 37(4), p.1705-1732, 2009.
## lambda ~ 2*\sqrt{2} * \sqrt{\log(p)/n}
## is good scaling for controlling prediction error of the lasso
err <- X %*% beta - predict(g, newx=X, s=3 * sqrt(log(p)/n))
mean(err^2)
})
ERROR_HD <- rbind(ERROR_HD, data.frame(PMSE=PMSE, n=n, p=p))
}
ggplot(ERROR_HD, aes(x=n, y=PMSE)) + geom_point() + theme_bw() +
xlab("Number of Samples (n)") +
ylab("Mean Prediction Error (at observed design points)") +
ggtitle("Prediction Error Converging to 0 under High-Dim Asymptotics") +
scale_x_continuous(sec.axis = sec_axis(~ 3 * ., name="Number of Features (p)")) +
scale_y_log10()
Chúng ta có thể so sánh điều này với trường hợp không thay đổi: Tôi gọi đây là chế độ siêu chiều "biên giới", nhưng đó không phải là một thuật ngữ tiêu chuẩn:đăng nhậppn
P <- 10 + ceiling(exp(N/120))
Ở đây chúng ta thấy rằng lỗi dự đoán (sử dụng cùng một thiết kế như trên) tắt thay vì tiếp tục về không.
Penen2en2
P <- 10 + ceiling(exp(N^(1.03)/120))
Xen1.5
Bất chấp những gì tôi đã nói ở trên và nó có thể xuất hiện như thế nào, chế độ siêu cao không thực sự hoàn toàn vô vọng (mặc dù nó gần), nhưng nó đòi hỏi các kỹ thuật phức tạp hơn nhiều so với chỉ một biến ngẫu nhiên Gaussian tối đa đơn giản để kiểm soát lỗi. Nhu cầu sử dụng các kỹ thuật phức tạp này là nguồn gốc cuối cùng của sự phức tạp mà bạn lưu ý.
p , np = f( n )
Phần 3)
đăng nhậppn
n , pn , p
Nếu bạn cảm thấy thoải mái và sẵn sàng nghiên cứu tài liệu nghiên cứu, tôi sẽ xem các tác phẩm của Jian Khánh Fan và Jinchi Lv, người đã thực hiện hầu hết các công việc cơ bản về các vấn đề cực kỳ cao. ("Sàng lọc" là một thuật ngữ tốt để tìm kiếm)
[F1] Trên thực tế, bất kỳ subgaussian biến ngẫu nhiên, nhưng điều này không thêm rằng có rất nhiều cuộc thảo luận này.
Sns = g( n )) nhưng điều đó không thay đổi mọi thứ quá nhiều.
[F3] T. Hastie, R. Tibshirani và M. Wainwright. Học thống kê với độ thưa thớt. Chuyên khảo về Thống kê và Xác suất ứng dụng 143. CRC Press, 2015. Có sẵn để tải xuống miễn phí tại https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf
[BRT] Peter J. Bickel, Ya'acov Ritov và Alexandre B. Tsybakov. "Phân tích đồng thời của Lasso và Dantzig Selector." Biên niên sử Thống kê 37 (4), tr. 1705-1732, 2009. http://dx.doi.org/10.1214/08-AOS620