Hồi quy chiều cao: tại sao


16

Tôi đang cố gắng đọc lên các nghiên cứu trong lĩnh vực hồi quy chiều cao; khi p lớn hơn n , có nghĩa là, p>>n . Có vẻ như thuật ngữ logp/nxuất hiện thường xuyên về mặt tốc độ hội tụ cho các ước tính hồi quy.

β^

1nXβ^Xβ22=OP(σlogpnβ1).

Thông thường, điều này cũng ngụ ý rằng logp nên nhỏ hơn n .

  1. Có bất kỳ trực giác nào về lý do tại sao tỷ lệ này của logp/n lại nổi bật như vậy không?
  2. Ngoài ra, có vẻ như từ các tài liệu vấn đề hồi quy chiều cao trở nên phức tạp khi logpn . Tại sao nó như vậy?
  3. Có một tài liệu tham khảo tốt thảo luận về các vấn đề với tốc độ tăng trưởng của n so với nhau không?pn

2
1. thuật ngữ log p xuất phát từ nồng độ đo (Gaussian). Đặc biệt, nếu bạn cópIID Gaussian biến ngẫu nhiên, tối đa của họ là vào thứ tự củaσlogpp với xác suất cao. Cácn - 1 yếu tố chỉ ra thực tế bạn đang nhìn vào lỗi dự đoán trung bình - tức là, nó phù hợp vớin - 1 ở phía bên kia - nếu bạn nhìn tổng lỗi, nó sẽ không có mặt ở đó. σđăng nhậppn-1n-1
mweylandt

1
2. Về cơ bản, bạn có hai lực lượng cần kiểm soát: i) các đặc tính tốt của việc có nhiều dữ liệu hơn (vì vậy chúng tôi muốn lớn); ii) những khó khăn có nhiều tính năng (không liên quan) (vì vậy chúng tôi muốn p nhỏ). Trong thống kê cổ điển, chúng ta thường sửa p và để n đi đến vô cùng: chế độ này không siêu hữu ích cho lý thuyết chiều cao vì nó ở chế độ chiều thấp khi xây dựng. Ngoài ra, chúng tôi có thể để p đi đến vô cùng và n cố định, nhưng sau đó lỗi của chúng tôi chỉ nổ tung và đi đến vô cùng. nppnpn
mweylandt

1
Do đó, chúng ta cần xem xét cả hai sẽ đến vô cùng để lý thuyết của chúng ta vừa có liên quan (vừa có chiều cao) mà không bị khải huyền (tính năng vô hạn, dữ liệu hữu hạn). Có hai "núm" thường khó hơn so với việc có một núm duy nhất, vì vậy chúng tôi sửa p = f ( n ) cho một số f và để n đi đến vô cùng (và do đó p gián tiếp). Sự lựa chọn của f quyết định hành vi của vấn đề. Vì lý do trong câu trả lời của tôi cho Q1, hóa ra "tính xấu" từ các tính năng bổ sung chỉ tăng lên khi log p trong khi "độ tốt" từ dữ liệu bổ sung tăng lên khi n .n,pp=f(n)fnpflogpn
mweylandt

1
Do đó, nếu ở lại liên tục (tương đương, p = f ( n ) = Θ ( C n ) đối với một số C ), chúng tôi bước đi nước. Nếu log p / n 0 ( p = o ( C n ) ), chúng tôi đạt được lỗi không có triệu chứng. Và nếu log p / n ( p = ω ( C n )logp/np=f(n)=Θ(Cn)Clogp/n0p=o(Cn)logp/np=ω(Cn)), lỗi cuối cùng đi đến vô cùng. Chế độ cuối cùng này đôi khi được gọi là "siêu chiều" trong tài liệu. Nó không phải là vô vọng (mặc dù nó gần), nhưng nó đòi hỏi các kỹ thuật phức tạp hơn nhiều so với chỉ một Gaussian tối đa đơn giản để kiểm soát lỗi. Nhu cầu sử dụng các kỹ thuật phức tạp này là nguồn gốc cuối cùng của sự phức tạp mà bạn lưu ý.
mweylandt

@mweylandt Cảm ơn, những bình luận này thực sự hữu ích. Bạn có thể biến chúng thành một câu trả lời chính thức, để tôi có thể đọc chúng mạch lạc hơn và nâng cao bạn không?
Greenparker

Câu trả lời:


17

(Chuyển từ nhận xét sang câu trả lời theo yêu cầu của @Greenparker)

Phần 1)

các thuật ngữ log p xuất phát từ nồng độ đo (Gaussian). Đặc biệt, nếu bạn cópđăng nhậppp IID Gaussian biến ngẫu nhiên [F1], tối đa của họ là vào thứ tự của với xác suất cao.σđăng nhậpp

Các yếu tố chỉ ra thực tế bạn đang nhìn vào lỗi dự đoán trung bình - tức là, nó phù hợp với n - 1 ở phía bên kia - nếu bạn nhìn tổng lỗi, nó sẽ không có mặt ở đó.n-1n-1

Phần 2)

Về cơ bản, bạn có hai lực lượng bạn cần kiểm soát:

  • i) các đặc tính tốt của việc có nhiều dữ liệu hơn (vì vậy chúng tôi muốn là lớn);n
  • ii) những khó khăn có nhiều tính năng (không liên quan) (vì vậy chúng tôi muốn nhỏ).p

Trong thống kê cổ điển, chúng ta thường sửa và để n đi đến vô cùng: chế độ này không hữu ích cho lý thuyết chiều cao bởi vì nó (không có triệu chứng) trong chế độ chiều thấp bằng cách xây dựng .pn

Ngoài ra, chúng tôi có thể để đi đến vô cùng và n cố định, nhưng sau đó lỗi của chúng tôi chỉ nổ tung khi vấn đề về cơ bản là không thể. Tùy thuộc vào sự cố, lỗi có thể chuyển sang vô cùng hoặc dừng ở một số giới hạn trên tự nhiên ( ví dụ: lỗi phân loại sai 100%).pn

Vì cả hai trường hợp này đều hơi vô dụng, thay vào đó chúng tôi xem xét cả hai sẽ đến vô cùng để lý thuyết của chúng tôi đều phù hợp (duy trì chiều cao) mà không bị khải huyền (tính năng vô hạn, dữ liệu hữu hạn).n,p

Có hai "núm" thường khó hơn so với việc có một núm duy nhất, vì vậy chúng tôi sửa cho một số f cố định và để n đi đến vô cùng (và do đó p đi đến vô cùng gián tiếp). [F2] Sự lựa chọn của f xác định hành vi của vấn đề. Vì lý do trong câu trả lời của tôi cho phần 1, hóa ra "tính xấu" từ các tính năng bổ sung chỉ phát triển khi log p trong khi "tính tốt" từ dữ liệu bổ sung tăng lên khi n .p= =f(n)fnpfđăng nhậppn

  • Nếu trú liên tục (tương đương,p=f(n)=Θ(Cn)đối với một sốC), chúng tôi bước đi nước và vấn đề là một rửa (ở lại lỗi cố định tiệm cận);đăng nhậppnp= =f(n)= =Θ(Cn)C
  • nếu (p=o(Cn)) chúng tôi đạt được không có lỗi;đăng nhậppn0p= =o(Cn)
  • và nếu (p=ω(Cn)), sai số cuối cùng đi đến vô cùng.đăng nhậppnp= =ω(Cn)

Chế độ cuối cùng này đôi khi được gọi là "siêu chiều" trong tài liệu. Thuật ngữ "siêu cao" không có một định nghĩa nghiêm ngặt như tôi biết, nhưng nó không chính thức chỉ là "chế độ phá vỡ Lasso và các công cụ ước tính tương tự."

Chúng ta có thể chứng minh điều này bằng một nghiên cứu mô phỏng nhỏ trong điều kiện khá lý tưởng hóa. Ở đây chúng ta hãy hướng dẫn lý thuyết vào sự lựa chọn tối ưu của từ [BRT09] và chọn λ = 3 λ .λ= =3đăng nhập(p)/n

Đầu tiên hãy xem xét một trường hợp trong đó . Đây là trong chế độ chiều cao 'có thể kéo được' được mô tả ở trên và, như dự đoán của lý thuyết, chúng ta thấy lỗi dự đoán hội tụ về không:p= =f(n)= =3n

Không triệu chứng chiều cao

Mã để sao chép:

library(glmnet)
library(ggplot2)

# Standard High-Dimensional Asymptotics: log(p) / n -> 0

N <- c(50, 100, 200, 400, 600, 800, 1000, 1100, 1200, 1300)
P <- 3 * N

ERROR_HD <- data.frame()

for(ix in seq_along(N)){
  n <- N[ix]
  p <- P[ix]

  PMSE <- replicate(20, {
    X <- matrix(rnorm(n * p), ncol=p)
    beta <- rep(0, p)
    beta[1:10] <- runif(10, 2, 3)
    y <- X %*% beta + rnorm(n)

    g <- glmnet(X, y)

    ## Cf. Theorem 7.2 of Bickel et al. AOS 37(4), p.1705-1732, 2009. 
    ## lambda ~ 2*\sqrt{2} * \sqrt{\log(p)/n} 
    ## is good scaling for controlling prediction error of the lasso
    err <- X %*% beta - predict(g, newx=X, s=3 * sqrt(log(p)/n))
    mean(err^2)
  })

  ERROR_HD <- rbind(ERROR_HD, data.frame(PMSE=PMSE, n=n, p=p))
}

ggplot(ERROR_HD, aes(x=n, y=PMSE)) + geom_point() + theme_bw() + 
xlab("Number of Samples (n)") + 
ylab("Mean Prediction Error (at observed design points)") + 
ggtitle("Prediction Error Converging to 0 under High-Dim Asymptotics") + 
scale_x_continuous(sec.axis = sec_axis(~ 3 * ., name="Number of Features (p)")) + 
scale_y_log10()

Chúng ta có thể so sánh điều này với trường hợp không thay đổi: Tôi gọi đây là chế độ siêu chiều "biên giới", nhưng đó không phải là một thuật ngữ tiêu chuẩn:đăng nhậppn

P <- 10 + ceiling(exp(N/120))

Ở đây chúng ta thấy rằng lỗi dự đoán (sử dụng cùng một thiết kế như trên) tắt thay vì tiếp tục về không.

Borderline Ultra High Asyptotics

Penen2en2

P <- 10 + ceiling(exp(N^(1.03)/120))

Không triệu chứng kích thước cực cao

Xen1.5

Bất chấp những gì tôi đã nói ở trên và nó có thể xuất hiện như thế nào, chế độ siêu cao không thực sự hoàn toàn vô vọng (mặc dù nó gần), nhưng nó đòi hỏi các kỹ thuật phức tạp hơn nhiều so với chỉ một biến ngẫu nhiên Gaussian tối đa đơn giản để kiểm soát lỗi. Nhu cầu sử dụng các kỹ thuật phức tạp này là nguồn gốc cuối cùng của sự phức tạp mà bạn lưu ý.

p,np= =f(n)

Phần 3)

đăng nhậppn

n,pn,p

Nếu bạn cảm thấy thoải mái và sẵn sàng nghiên cứu tài liệu nghiên cứu, tôi sẽ xem các tác phẩm của Jian Khánh Fan và Jinchi Lv, người đã thực hiện hầu hết các công việc cơ bản về các vấn đề cực kỳ cao. ("Sàng lọc" là một thuật ngữ tốt để tìm kiếm)

[F1] Trên thực tế, bất kỳ subgaussian biến ngẫu nhiên, nhưng điều này không thêm rằng có rất nhiều cuộc thảo luận này.

SnS= =g(n)) nhưng điều đó không thay đổi mọi thứ quá nhiều.

[F3] T. Hastie, R. Tibshirani và M. Wainwright. Học thống kê với độ thưa thớt. Chuyên khảo về Thống kê và Xác suất ứng dụng 143. CRC Press, 2015. Có sẵn để tải xuống miễn phí tại https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf

[BRT] Peter J. Bickel, Ya'acov Ritov và Alexandre B. Tsybakov. "Phân tích đồng thời của Lasso và Dantzig Selector." Biên niên sử Thống kê 37 (4), tr. 1705-1732, 2009. http://dx.doi.org/10.1214/08-AOS620


1
(+1) Thanks this is very helpful, and indeed worthy of the bounty (I'll wait a little before awarding the bounty to maintain interest). One question: can you expand more on "logp/n stays constant, we tread on water"? Does it matter if this constant is more than 1 or less than 1?
Greenparker

Sure - I've added a small simulation study to clarify the "tread on water" dynamics. In terms of asymptotic dynamics, it doesn't matter what the constant is, but the error will be proportional to that constant, so of course would like it smaller ceteris paribus (this is equivalent to having more n which is always a good thing).
mweylandt
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.