Tôi đang cố gắng tóm tắt những gì tôi hiểu từ trước đến nay trong phân tích đa biến bị phạt với các tập dữ liệu chiều cao và tôi vẫn đấu tranh để có được một định nghĩa đúng đắn về sự trừng phạt mềm so với Lasso (hoặc ).
Chính xác hơn, tôi đã sử dụng hồi quy PLS thưa thớt để phân tích cấu trúc dữ liệu 2 khối bao gồm dữ liệu gen ( đa hình nucleotide đơn , trong đó chúng tôi xem xét tần số của các alen nhỏ trong phạm vi {0,1,2}, được coi là một biến số) và kiểu hình liên tục (điểm số lượng hóa đặc điểm tính cách hoặc bất đối xứng não, cũng được coi là biến liên tục). Ý tưởng là để cô lập các yếu tố dự đoán có ảnh hưởng nhất (ở đây, các biến thể di truyền trên trình tự DNA) để giải thích các biến thể kiểu hình giữa các cá thể.
Ban đầu tôi đã sử dụng gói mixOmics R (trước đây integrOmics
) có tính năng hồi quy PLS bị phạt và CCA chính quy . Nhìn vào mã R, chúng tôi thấy rằng "thưa thớt" trong dự đoán chỉ đơn giản là gây ra bằng cách chọn top biến với tải trọng cao nhất (về giá trị tuyệt đối) trên th thành phần, (thuật toán là các lần lặp và tính toán các biến tải trên các thành phần , làm lệch khối dự đoán ở mỗi lần lặp, xem SpS PLS: Lựa chọn biến khi tích hợp dữ liệu Omics để biết tổng quan). Ngược lại, gói spls được đồng tác giả bởi S. Keleş (xemHồi quy bình phương một phần thưa thớt để giảm kích thước đồng thời và lựa chọn biến , để mô tả chính thức hơn về cách tiếp cận được thực hiện bởi các tác giả này) thực hiện -penalization cho hình phạt thay đổi.
Tôi không rõ liệu có một "mệnh đề" nghiêm ngặt nào hay không, có thể nói, giữa lựa chọn tính năng lặp dựa trên ngưỡng mềm và chính quy . Vì vậy, câu hỏi của tôi là: Có bất kỳ kết nối toán học giữa hai?
Người giới thiệu
- Chun, H. và Kele s, S. (2010), Bình phương tối thiểu một phần thưa thớt để giảm kích thước đồng thời và lựa chọn biến . Tạp chí của Hiệp hội Thống kê Hoàng gia: Sê-ri B , 72 , 3 Hay25.
- Le Cao, K.-A., Rossouw, D., Robert-Granie, C., và Besse, P. (2008), Một PLS thưa thớt cho lựa chọn biến khi tích hợp dữ liệu Omics . Ứng dụng thống kê trong di truyền học và sinh học phân tử , 7 , Điều 35.