Hồi quy trong cài đặt

Tôi đang thử xem có nên sử dụng hồi quy sườn , LASSO , hồi quy thành phần chính (PCR) hay Bình phương tối thiểu (PLS) trong tình huống có số lượng lớn biến / tính năng ( $p$ ) và số lượng mẫu nhỏ hơn ( $n<p$ ), và mục tiêu của tôi là dự đoán.

Đây là sự hiểu biết của tôi:

Hồi quy sườn thu nhỏ các hệ số hồi quy, nhưng sử dụng tất cả các hệ số mà không làm cho chúng $0$ .
Lasso cũng co lại các hệ số, mà còn làm cho họ $0$ , có nghĩa là nó có thể làm lựa chọn biến quá.
Hồi quy thành phần chính cắt ngắn các thành phần sao cho $p$ trở nên nhỏ hơn $n$ ; nó sẽ loại bỏ các thành phần $p-n$ .
Bình phương tối thiểu một phần cũng xây dựng một tập hợp các tổ hợp tuyến tính của các đầu vào để hồi quy, nhưng không giống như PCR, nó sử dụng $y$ (ngoài $X$ ) để giảm kích thước. Sự khác biệt thực tế chính giữa hồi quy PCR và PLS là PCR thường cần nhiều thành phần hơn PLS để đạt được cùng một lỗi dự đoán ( xem tại đây ).

Hãy xem xét các dữ liệu giả sau đây (dữ liệu thực tế tôi đang cố gắng làm việc tương tự):

#random population of 200 subjects with 1000 variables 

M <- matrix(rep(0,200*100),200,1000)
for (i in 1:200) {
set.seed(i)
  M[i,] <- ifelse(runif(1000)<0.5,-1,1)
}
rownames(M) <- 1:200

#random yvars 
set.seed(1234)
u <- rnorm(1000)
g <- as.vector(crossprod(t(M),u))
h2 <- 0.5 
set.seed(234)
y <- g + rnorm(200,mean=0,sd=sqrt((1-h2)/h2*var(g)))

myd <- data.frame(y=y, M)

Thực hiện bốn phương pháp:

 require(glmnet)

 # LASSO 
 fit1=glmnet(M,y, family="gaussian", alpha=1)

 # Ridge   
 fit1=glmnet(M,y, family="gaussian", alpha=0)

 # PLS
 require(pls)
 fit3 <- plsr(y ~ ., ncomp = 198, data = myd, validation = "LOO")
 # taking 198 components and using leave-one-out cross validation 
 summary(fit3)
 plot(RMSEP(fit3), legendpos = "topright")

 # PCR 
 fit4 <- pcr(y ~ ., ncomp = 198, data = myd, validation = "LOO")

Mô tả tốt nhất của dữ liệu là:

, hầu hết các lần ; $p > n$ $p>10n$
Các biến ( và ) có mối tương quan với nhau với các mức độ khác nhau. $X$ $Y$

Câu hỏi của tôi là chiến lược nào có thể là tốt nhất cho tình huống này? Tại sao?

— Ram Sharma
nguồn

Tôi không có câu trả lời trực tiếp, nhưng chương 18 về Yếu tố học tập thống kê được dành cho chủ đề này và tôi nghĩ, tất cả các kỹ thuật bạn đề cập.

— Shadowtalker

Câu hỏi liên quan: Hồi quy trong cài đặt

(dự đoán hiệu quả của thuốc từ biểu hiện gen với các yếu tố dự đoán 30k và ~ 30 mẫu)

p ≫ N

$p\gg N$

— amip nói rằng Rebstate Monica

@ssdecontrol Cảm ơn bạn về cuốn sách bạn đã đăng. Rất hữu ích

— Christina

Tôi nghĩ rằng không có câu trả lời duy nhất cho câu hỏi của bạn - nó phụ thuộc vào nhiều tình huống, dữ liệu và những gì bạn đang cố gắng làm. Một số sửa đổi có thể hoặc nên được sửa đổi để đạt được mục tiêu. Tuy nhiên các cuộc thảo luận chung sau đây có thể giúp đỡ.

Trước khi chuyển sang các phương pháp nâng cao hơn, trước tiên hãy thảo luận về mô hình cơ bản: Hồi quy Least Squares (LS) . Có hai lý do tại sao ước tính bình phương tối thiểu của các tham số trong mô hình đầy đủ là không thỏa mãn:

Chất lượng dự đoán: Ước tính bình phương nhỏ nhất thường có độ lệch nhỏ nhưng phương sai cao. Chất lượng dự đoán đôi khi có thể được cải thiện bằng cách thu nhỏ các hệ số hồi quy hoặc bằng cách đặt một số hệ số bằng 0. Bằng cách này, độ lệch tăng lên, nhưng phương sai của dự đoán giảm đáng kể dẫn đến dự đoán được cải thiện tổng thể. Có thể dễ dàng nhìn thấy sự cân bằng này giữa sai lệch và phương sai bằng cách phân tách lỗi bình phương trung bình (MSE). Một MSE nhỏ hơn dẫn đến dự đoán tốt hơn về các giá trị mới.
Khả năng diễn giải : Nếu có sẵn nhiều biến dự đoán, sẽ rất hợp lý khi xác định những biến có giá trị lớn nhất và đặt các biến thành 0 không liên quan đến dự đoán. Do đó, chúng tôi loại bỏ các biến sẽ chỉ giải thích một số chi tiết, nhưng chúng tôi giữ các biến cho phép giải thích chính về biến trả lời.

Do đó phương pháp lựa chọn biến đi vào cảnh. Với lựa chọn biến, chỉ một tập hợp con của tất cả các biến đầu vào được sử dụng, phần còn lại được loại bỏ khỏi mô hình. Hồi quy tập hợp con tốt nhất ﬁ nds tập con có kích thước cho mỗi cung cấp RSS nhỏ nhất. Một thuật toán hiệu quả là thuật toán Leaps and Bound có thể xử lý tới hoặc biến hồi quy. Với bộ dữ liệu lớn hơn $k$ $k \in \{0, 1, ... , p\}$ $30$ $40$ $40$ các biến đầu vào tìm kiếm thông qua tất cả các tập hợp con có thể trở nên không khả thi. Do đó, chuyển tiếp lựa chọn từng bước và lựa chọn lùi từng bước là hữu ích. Lựa chọn lùi chỉ có thể được sử dụng khi để có một mô hình được định nghĩa tốt. Hiệu quả tính toán của các phương pháp này là nghi vấn khi rất cao. $n > p$ $p$

Trong nhiều tình huống, chúng tôi có một số lượng lớn đầu vào (như của bạn), thường có mối tương quan cao (như trong trường hợp của bạn). Trong trường hợp các hồi quy tương quan cao, OLS dẫn đến một tham số không ổn định về số , nghĩa là không đáng tin cậy ước tính. Để tránh vấn đề này, chúng tôi sử dụng các phương pháp sử dụng các hướng đầu vào dẫn xuất. Các phương thức này tạo ra một số lượng nhỏ kết hợp tuyến tính của các đầu vào ban đầu sau đó được sử dụng làm đầu vào trong hồi quy. $\beta$ $z_k, k = 1, 2, ... , q$ $x_j$

Các phương pháp trong cách kết hợp tuyến tính được xây dựng. Hồi quy thành phần chính (PCR) tìm kiếm sự biến đổi của dữ liệu gốc thành một tập hợp các biến không tương quan mới gọi là thành phần chính .

$y$ $X$ $y$ $X$ $\beta$ $\gamma$ $\gamma$ $q \le p$ $X$ $y$ $y$

$\lambda \ge 0$ $\lambda$

$\beta$ $\beta$

$X$ $p - q$

$Y_i$ Sự khác biệt giữa L1 và L2 chỉ là L2 là tổng bình phương của các trọng số, trong khi L1 chỉ là tổng các trọng số. L1-Norm có xu hướng tạo ra các hệ số thưa thớt và có tính năng Lựa chọn tích hợp . L1-Norm không có giải pháp phân tích, nhưng định mức L2 thì có. Điều này cho phép các giải pháp định mức L2 được tính toán hiệu quả. L2-Norm có các giải pháp duy nhất trong khi L1-Norm thì không.

$s$ $0$ $s$

$p\gg N$

Thành phần chủ yếu phân tích là một phương pháp hiệu quả cho việc tìm kiếm sự kết hợp tuyến tính của các tính năng mà hiện sự thay đổi lớn trong một tập dữ liệu. Nhưng những gì chúng tôi tìm kiếm ở đây là sự kết hợp tuyến tính với cả phương sai cao và tương quan đáng kể với kết quả. Do đó, chúng tôi muốn khuyến khích phân tích thành phần chính để tìm ra các kết hợp tuyến tính của các tính năng có mối tương quan cao với kết quả - các thành phần chính được giám sát (xem trang 678, Thuật toán 18.1, trong cuốn sách Các yếu tố học tập thống kê ).

Một phần nhỏ nhất bình phương xuống trọng lượng các tính năng ồn ào, nhưng không ném chúng đi; kết quả là một số lượng lớn các tính năng ồn ào có thể làm ô nhiễm dự đoán. PLS ngưỡng có thể được xem là một phiên bản ồn ào của các thành phần chính được giám sát, và do đó chúng tôi có thể không mong đợi nó hoạt động tốt trong thực tế. Các thành phần chính được giám sát có thể mang lại các lỗi kiểm tra thấp hơn Ngưỡng PLS . Tuy nhiên, không phải lúc nào nó cũng tạo ra một mô hình thưa thớt chỉ liên quan đến một số lượng nhỏ các tính năng.

$p$

— ndorlearn
nguồn

{Bias}^{2} + Variance

$\text{Bias}^2 + \text{Variance}$

Ý bạn là gì khi bạn nói rằng "L2-Norm có các giải pháp duy nhất trong khi L1-Norm thì không."? Mục tiêu của Lasso là lồi ...

— Andrew M