Bảng sao chép 18.1 từ các yếu tố của học tập thống kê

Bảng 18.1 trong Các yếu tố của học thống kê tóm tắt hiệu suất của một số phân loại trên tập dữ liệu 14 lớp. Tôi đang so sánh một thuật toán mới với lasso và lưới đàn hồi cho các vấn đề phân loại đa lớp như vậy.

Sử dụng glmnetphiên bản 1.5.3 (R 2.13.0) Tôi không thể sao chép điểm 7. ( đa thức đa cấp ) trong bảng, trong đó số lượng gen được sử dụng được báo cáo là 269 và lỗi kiểm tra là 13 trong số 54. Dữ liệu được sử dụng là bộ dữ liệu microarray 14 ung thư này . Bất cứ điều gì tôi đã thử, tôi đều có được một mô hình hoạt động tốt nhất bằng cách sử dụng trong vùng lân cận 170-180 gen với lỗi kiểm tra là 16 trên 54. $L_1$

Lưu ý rằng ở đầu Mục 18.3, trên trang 654, một số tiền xử lý dữ liệu được mô tả.

Tôi đã liên hệ với các tác giả - cho đến nay mà không có phản hồi - và tôi hỏi liệu có ai có thể xác nhận rằng có vấn đề trong việc sao chép bảng hoặc cung cấp giải pháp về cách tái tạo bảng không.

classification lasso glmnet

— NRH
nguồn

glmnet đã trải qua khá nhiều thay đổi gần đây và đã có một số vấn đề với số trong quá khứ. Có thể do điều này? Bao lâu kể từ khi bạn liên lạc với các tác giả? Tôi thấy phiên bản hiện tại là 1.7 và đã được tải lên CRAN chỉ khoảng một tuần trước.

— Đức hồng y

@cardinal, đã khoảng bốn tuần kể từ khi tôi thực hiện các thử nghiệm cuối cùng với glmnet, nhưng chúng tôi cũng có một cách triển khai khác tạo ra kết quả tương tự không phù hợp với bảng trong ESL. Bảng chắc chắn là cũ hơn, vì vậy tôi đoán là bảng không chính xác, nhưng sẽ rất tốt để biết chắc chắn.

— NRH

Tôi đã lướt qua rất ngắn những phần đó và một câu hỏi xuất hiện trong đầu tôi là làm thế nào để xác thực chéo được thực hiện để chọn tham số co ngót trong (18,19) trên trang 661 (in lần thứ ba). Bất kỳ ý tưởng? Có lẽ tôi đã bỏ lỡ nó hoặc nó được mô tả ở nơi khác? Đó dường như là một nơi có khả năng mà các nỗ lực của bạn để tạo lại phân tích của họ có thể nhạy cảm với sự khác biệt trong cách tiếp cận.

— Đức Hồng Y

@cardinal, đầu tiên cảm ơn bạn đã quan tâm đến điều này. Đúng là CV có thể tạo ra sự khác biệt, nhưng các tác giả thực sự có các tập hợp con (chỉ số) được sử dụng cho CV trên trang web cùng với dữ liệu. Dù sao, CV chỉ được sử dụng để chọn tham số hình phạt tối ưu lambda, sau đó toàn bộ tập dữ liệu huấn luyện được sử dụng để phù hợp với mô hình, sau đó được đánh giá trên dữ liệu thử nghiệm. Do đó, ngay cả khi bước CV chọn lambda khác, lambda đó đang trên đường dẫn giải pháp cho dữ liệu đào tạo và chúng tôi không thể tìm thấy nó ...

— NRH

bạn đã kiểm tra gói R của cuốn sách chưa? nó chứa tất cả các bộ dữ liệu, chức năng và hầu hết các tập lệnh được sử dụng trong đó ...

— người dùng603
nguồn

cố gắng tốt đẹp Có, tôi đã kiểm tra gói, nhưng tuyên bố rằng nó chứa tất cả dữ liệu, chức năng và hầu hết các tập lệnh là một cường điệu. Nó không đầy đủ và nó không chứa tập dữ liệu được đề cập.

— NRH