Xác thực chéo ở chiều rất cao (để chọn số lượng biến được sử dụng trong phân loại chiều rất cao)


8

Câu hỏi của tôi là về xác nhận chéo khi có nhiều biến hơn so với quan sát. Để khắc phục ý tưởng, tôi đề xuất hạn chế khung phân loại ở chiều rất cao (nhiều tính năng hơn quan sát).

Vấn đề: Giả sử rằng với mỗi biến bạn có thước đo mức độ quan trọng hơn là đo chính xác mức độ quan tâm của tính năng đối với vấn đề phân loại. Vấn đề chọn một tập hợp con của tính năng để giảm tối ưu lỗi phân loại sau đó được giảm xuống thành vấn đề tìm số lượng tính năng.i=1,,pT[i]i

Câu hỏi: Cách hiệu quả nhất để chạy xác nhận chéo trong trường hợp này (sơ đồ xác thực chéo) là gì? Câu hỏi của tôi không phải là về cách viết mã mà là phiên bản xác thực chéo để sử dụng khi cố gắng tìm số lượng tính năng được chọn (để giảm thiểu lỗi phân loại) mà là cách xử lý kích thước cao khi thực hiện xác thực chéo (do đó vấn đề ở trên có thể hơi giống với "vấn đề đồ chơi" để thảo luận về CV ở chiều cao).

Ký hiệu: là kích thước của bộ học tập, p số lượng tính năng (tức là kích thước của không gian tính năng). Theo kích thước rất cao, ý tôi là p >> n (ví dụ và ).np=10000n=100


Tuy nhiên, bạn muốn đo bằng CV và mục đích gì? Để có được một số lượng thuộc tính?

@mbq: cảm ơn vì lời khuyên. Tôi đã chỉnh sửa câu hỏi cho phù hợp, hy vọng nó rõ ràng hơn bây giờ!
cướp girard

Câu trả lời:


6

Bạn bỏ lỡ một vấn đề quan trọng - gần như không bao giờ có chuyện như T [i]. Hãy nghĩ về một vấn đề đơn giản trong đó tổng của hai thuộc tính (có biên độ tương tự) là quan trọng; nếu bạn loại bỏ một trong số chúng, tầm quan trọng của cái kia sẽ đột nhiên giảm xuống. Ngoài ra, số lượng lớn các thuộc tính không liên quan là độ chính xác của hầu hết các phân loại, do đó cùng với khả năng đánh giá tầm quan trọng của chúng. Cuối cùng nhưng không kém phần quan trọng, các thuật toán ngẫu nhiên sẽ trả về kết quả ngẫu nhiên và do đó, ngay cả thứ hạng T [i] cũng không ổn định. Vì vậy, về nguyên tắc, bạn ít nhất nên tính toán lại T [i] sau khi từng thuộc tính (hoặc ít nhất là sau khi từng thuộc tính không dự phòng) bị loại bỏ.

Quay trở lại chủ đề, câu hỏi mà CV nên chọn chủ yếu phụ thuộc vào vấn đề; với số lượng rất ít trường hợp, LOO có thể là lựa chọn tốt nhất vì tất cả các trường hợp khác bắt đầu giảm theo; vẫn còn nhỏ là n = 10 không n = 100. Vì vậy, tôi chỉ khuyên bạn nên lấy mẫu ngẫu nhiên (mà tôi sử dụng nhiều nhất) hoặc K-Fold (sau đó với việc chia lại các phần trên mỗi bước). Tuy nhiên, bạn cũng nên thu thập không chỉ ý nghĩa mà còn cả độ lệch chuẩn của ước tính lỗi; điều này có thể được sử dụng để (đánh giá) sự thay đổi của giá trị trung bình là đáng kể để giúp bạn quyết định khi nào nên dừng quá trình.


đã nói "Bạn bỏ lỡ một vấn đề quan trọng - gần như không bao giờ có chuyện như T [i]" Tôi muốn câu trả lời tập trung vào vấn đề chọn số lượng biến. Việc xây dựng (mà tôi đồng ý là không hoàn hảo) của T [i] sẽ được thảo luận ở đây thống kê.stackexchange.com/questions/490/ Đôi khi, cũng rất hữu ích khi thảo luận vấn đề một cách riêng biệt.
cướp girard

1
@robin Nhưng ở đây bạn không thể xé những thứ đó ra. Hầu hết các thuật toán đề cập trong câu hỏi đó được tạo ra để giải quyết vấn đề này - lựa chọn phía trước là để loại bỏ các tính năng tương quan, loại bỏ lạc hậu là để ổn định biện pháp quan trọng, MCMC là bao gồm các tính năng liên quan ...

@robin ý tưởng thực hiện một số biện pháp quan trọng chính xác là cơ sở cho cái gọi là thuật toán bộ lọc hiện bị bỏ rơi chủ yếu vì chúng quá yếu. Họ có lợi thế là giá rẻ tính toán, nhưng điều này không đáng.

0

Đó là một câu hỏi hay và có xu hướng đánh vào nhiều hơn những gì được đề cập đến cho người học và tính trung bình mô hình (tôi sẽ cung cấp các liên kết bên dưới):

Khi bạn đang ở cài đặt chiều cao, độ ổn định của giải pháp của bạn (nghĩa là, tính năng / biến nào được chọn) có thể thiếu vì các mô hình riêng lẻ có thể chọn 1 trong số nhiều biến cộng, biến có thể trao đổi cùng một tín hiệu ( trong số một trong nhiều lý do) Dưới đây là một vài chiến lược về cách giải quyết vấn đề này.

Trong mô hình Bayes trung bình chẳng hạn,

Hoeting, Jennifer A., ​​et al. "Mô hình Bayes trung bình: một hướng dẫn." Khoa học thống kê (1999): 382-401.

bạn xây dựng nhiều mô hình (giả sử 100) và mỗi mô hình được xây dựng với một tập hợp con các tính năng ban đầu. Sau đó, mỗi mô hình riêng lẻ xác định biến nào mà nó thấy có ý nghĩa và mỗi mô hình được cân nhắc bởi khả năng dữ liệu, cung cấp cho bạn một bản tóm tắt hay về cách "phán đoán" tính hiệu quả của các biến theo cách 'xác thực chéo ". bạn biết rằng một số tính năng có tương quan cao, bạn có thể tạo sơ đồ lấy mẫu sao cho chúng không bao giờ được chọn cùng nhau (hoặc nếu bạn có cấu trúc tương quan khối thì bạn chọn các phần tử của các khối khác nhau trong ma trận hiệp phương sai của bạn)

Trong cài đặt loại máy học : xem "lựa chọn tính năng đồng bộ". Bài viết này (một ví dụ)

Neumann, Ursula, Nikita Genze và Dominik Heider. "EFS: một công cụ lựa chọn tính năng đồng bộ được triển khai dưới dạng gói R và ứng dụng web." Khai thác BioData 10.1 (2017): 21.

xác định tầm quan trọng của tính năng đối với nhiều số liệu "tầm quan trọng" khác nhau để đưa ra lựa chọn tính năng cuối cùng.

Tôi có thể nói rằng lộ trình học máy có thể là các mô hình tuyến tính b / c tốt hơn (lựa chọn w / tính năng) bão hòa ở p = nb / c của công thức tái tối ưu hóa của chúng (xem bài đăng này Nếu p> n, lasso chọn nhiều nhất n các biến ). Nhưng miễn là bạn có thể xác định và chứng minh một tiêu chí khách quan tốt về cách bạn 'xác thực chéo' lựa chọn tính năng, thì bạn sẽ có một khởi đầu tốt.

Hi vọng điêu nay co ich!

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.