Tôi có thể nói điều gì đó về xu hướng phù hợp với (A) so với (B) không?
Với điều kiện là cả hai lưới bao phủ một phạm vi đủ, độ mịn của lưới không thực sự có liên quan đến việc quá mức trong vấn đề này (mặc dù lưới thô có thể không phù hợp nếu nó bỏ qua một khoảng có lợi). Không phải là nếu việc kiểm tra quá nhiều giá trị bằng cách nào đó sẽ thay đổi giao diện ngoài mẫu như thế nào. * Trong trường hợp các hồi quy bị phạt này, chúng tôi chắc chắn muốn tối ưu hóa chức năng khả năng bị phạt của mình đối với các giá trị , và nó không thành vấn đề nhiều giá trị của chúng tôi kiểm tra, vì hiệu năng ngoài mẫu cho một tập dữ liệu cố định và phân vùng cố định là hoàn toàn xác định. Hơn nữa, số liệu ngoài mẫu hoàn toàn không bị thay đổi bởi có bao nhiêu giá trịλλλbạn kiểm tra Lưới thô hơn có thể có nghĩa là bạn bỏ qua mức tối thiểu tuyệt đối trong số liệu ngoài mẫu của bạn, nhưng việc tìm mức tối thiểu tuyệt đối có thể không được mong muốn ở nơi đầu tiên bởi vì siêu âm có xu hướng được ước tính kém và các thuộc tính mẫu hữu hạn có nghĩa là dữ liệu các hạn chế sẽ là tiếng ồn nguồn trong ước tính đó sẽ lấn át những thay đổi nhỏ về khoảng cách giữa các điểm lưới liền kề: lỗi tiêu chuẩn của ước tính của bạn sẽ có xu hướng thay đổi độ mịn của lưới.
Nếu bạn thực sự lo ngại rằng số liệu hiệu suất ngoài mẫu có thể lạc quan quá mức, bạn có thể áp dụng quy tắc lỗi 1 tiêu chuẩn, chọn mô hình chính quy nhất trong phạm vi 1 lỗi tối thiểu. Theo cách đó, bạn sẽ hơi bảo thủ hơn và chọn một mô hình ít phức tạp hơn.
Tôi có thể xác định độ mịn lưới tối ưu? Làm sao?
Thuật toán LARS không một tiên nghiệm xác định những giá trị của để kiểm tra; thay vào đó, được thay đổi liên tục và thuật toán kiểm tra các giá trị của mà hệ số đi từ 0 đến giá trị khác không. Những giá trị củaλλλλtrong đó một hệ số mới là khác không được giữ lại, với quan sát rằng các đường dẫn hệ số là tuyến tính trong trường hợp của Lasso, do đó không mất thông tin khi chỉ lưu trữ các nút thắt trong trường hợp đó. LARS chỉ hoạt động khi đường dẫn hệ số là tuyến tính, mặc dù. Hình phạt sườn núi không bao giờ thu nhỏ một hệ số về 0 chính xác, vì vậy tất cả các đường dẫn hệ số của bạn đều trơn tru và luôn luôn khác không; tương tự hồi quy mạng đàn hồi (không bao gồm trường hợp hồi quy lưới đàn hồi cũng là hồi quy lasso).
Nhưng hầu hết mọi người sử dụng GLMNET vì nó thường nhanh hơn. Về mặt xác định lưới nào của để tìm kiếm, tôi khuyên bạn nên đọc bài viết GLMNET "Đường dẫn chính quy cho các mô hình tuyến tính tổng quát thông qua tọa độ gốc" của Jerome Friedman, Trevor Hastie và Rob Tibshirani. Trong đó, họ phát triển một thuật toán rất hiệu quả để ước tính các hồi quy lưới, lasso và đàn hồi. Thuật toán kiểm tra giá trị của mà là vectơ không và sau đó xác định giá trị tối thiểu liên quan đếnλ max beta λ phút λ maxλλtối đaβλtối thiểuλtối đa. Cuối cùng, họ tạo ra một chuỗi các giá trị giữa hai cái thống nhất trên thang đo log. Lưới này là đủ cho hầu hết các mục đích, mặc dù nó bỏ qua thuộc tính mà bạn sẽ biết chính xác khi một hệ số được ước tính ở một giá trị khác không. Khởi động ấm được sử dụng để cung cấp giải pháp nhanh hơn nhiều và nó hỗ trợ nhiều GLM phổ biến.
* Bạn có thể nghĩ về điều này từ góc độ của mạng nơ ron nhân tạo, trong đó việc dừng sớm đôi khi được sử dụng để thực hiện chính quy hóa, nhưng đó là một vấn đề hoàn toàn không liên quan (cụ thể là thuật toán tối ưu hóa được ngăn chặn để đạt đến mức tối ưu, vì vậy mô hình là buộc phải ít phức tạp hơn).