Ngưỡng mềm so với hình phạt Lasso


11

Tôi đang cố gắng tóm tắt những gì tôi hiểu từ trước đến nay trong phân tích đa biến bị phạt với các tập dữ liệu chiều cao và tôi vẫn đấu tranh để có được một định nghĩa đúng đắn về sự trừng phạt mềm so với Lasso (hoặc ).L1

Chính xác hơn, tôi đã sử dụng hồi quy PLS thưa thớt để phân tích cấu trúc dữ liệu 2 khối bao gồm dữ liệu gen ( đa hình nucleotide đơn , trong đó chúng tôi xem xét tần số của các alen nhỏ trong phạm vi {0,1,2}, được coi là một biến số) và kiểu hình liên tục (điểm số lượng hóa đặc điểm tính cách hoặc bất đối xứng não, cũng được coi là biến liên tục). Ý tưởng là để cô lập các yếu tố dự đoán có ảnh hưởng nhất (ở đây, các biến thể di truyền trên trình tự DNA) để giải thích các biến thể kiểu hình giữa các cá thể.

Ban đầu tôi đã sử dụng gói mixOmics R (trước đây integrOmics) có tính năng hồi quy PLS bị phạt và CCA chính quy . Nhìn vào mã R, chúng tôi thấy rằng "thưa thớt" trong dự đoán chỉ đơn giản là gây ra bằng cách chọn top biến với tải trọng cao nhất (về giá trị tuyệt đối) trên th thành phần, (thuật toán là các lần lặp và tính toán các biến tải trên các thành phần , làm lệch khối dự đoán ở mỗi lần lặp, xem SpS PLS: Lựa chọn biến khi tích hợp dữ liệu Omics để biết tổng quan). Ngược lại, gói spls được đồng tác giả bởi S. Keleş (xemkii=1,,kkHồi quy bình phương một phần thưa thớt để giảm kích thước đồng thời và lựa chọn biến , để mô tả chính thức hơn về cách tiếp cận được thực hiện bởi các tác giả này) thực hiện -penalization cho hình phạt thay đổi.L1

Tôi không rõ liệu có một "mệnh đề" nghiêm ngặt nào hay không, có thể nói, giữa lựa chọn tính năng lặp dựa trên ngưỡng mềm và chính quy . Vì vậy, câu hỏi của tôi là: Có bất kỳ kết nối toán học giữa hai?L1

Người giới thiệu

  1. Chun, H. và Kele s, S. (2010), Bình phương tối thiểu một phần thưa thớt để giảm kích thước đồng thời và lựa chọn biến . Tạp chí của Hiệp hội Thống kê Hoàng gia: Sê-ri B , 72 , 3 Hay25.
  2. Le Cao, K.-A., Rossouw, D., Robert-Granie, C., và Besse, P. (2008), Một PLS thưa thớt cho lựa chọn biến khi tích hợp dữ liệu Omics . Ứng dụng thống kê trong di truyền học và sinh học phân tử , 7 , Điều 35.

Câu trả lời:


2

Những gì tôi sẽ nói giữ cho hồi quy, nhưng cũng đúng với PLS. Vì vậy, nó không phải là một sự lựa chọn vì phụ thuộc vào mức độ bạn thực thi các ràng buộc trongl1ppl1


@kwak Ok, thuật toán LARS có vẻ phức tạp hơn nhiều so với ngưỡng đơn giản về tầm quan trọng của biến, nhưng điểm quan trọng là tôi không thấy mối quan hệ rõ ràng giữa tham số hình phạt và # biến được yêu cầu giữ trong mô hình; đối với tôi, dường như chúng ta không nhất thiết phải tìm ra một tham số hình phạt sẽ mang lại chính xác một số biến cố định.
chl

@chl:> Ý bạn là S-PLS? (bạn đã viết LARS, một điều khác với thuật toán mà bạn thảo luận). Thật vậy, có một mối quan hệ đơn điệu giữa tham số hình phạt và # của thành phần, nhưng nó không phải là mối quan hệ tuyến tính và mối quan hệ này thay đổi tùy theo từng trường hợp (phụ thuộc vào dữ liệu / vấn đề).
user603

@kwak L1-penalty có thể đạt được bằng LARS, trừ khi tôi gây hiểu nhầm. Điểm thứ hai của bạn là những gì tôi có trong tâm trí; Bạn có bất cứ tài liệu tham khảo về điểm đó?
chl

@chl:> * Có thể đạt được hình phạt L1 khi sử dụng LARS, trừ khi tôi hiểu sai * tôi không biết điều đó (và loại nghi ngờ về điều đó). Bạn có thể cung cấp một tài liệu tham khảo? Cảm ơn. cho câu hỏi thứ hai của bạn: hãy tìm hiểu về mức độ tự do của người Bỉ, người của Lasso Hui Zou, Trevor Hastie và Robert Tibshirani Nguồn: Ann. Thống kê. Tập 35, Số 5 (2007), 2173-2192. (có nhiều phiên bản vô duyên).
user603

1
@kwak Kiểm tra trang web của Tibshirani , www-stat.stanford.edu/~tibs/lasso.htmllarsgói R; các phương thức khác bao gồm gốc tọa độ (xem JSS 2010 33 (1), bit.ly/bDNUFo ) và scikit.learngói Python có cả hai cách tiếp cận, bit.ly/bfhnZz .
chl

6

L1L1

L1XX1

X


(+1) Cảm ơn vì điều này, đặc biệt là bài viết của Friedman.
chl
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.