Các biện pháp phân tách lớp trong các vấn đề phân loại


11

Một ví dụ về một biện pháp tốt về khả năng phân tách giai cấp ở những người học phân biệt tuyến tính là tỷ lệ phân biệt tuyến tính của Fisher. Có các số liệu hữu ích khác để xác định xem các bộ tính năng có phân tách lớp tốt giữa các biến mục tiêu không? Cụ thể, tôi quan tâm đến việc tìm kiếm các thuộc tính đầu vào đa biến tốt để tối đa hóa phân tách lớp mục tiêu và thật tuyệt khi có một biện pháp phi tuyến tính / phi tham số để nhanh chóng xác định xem chúng có cung cấp khả năng phân tách tốt hay không.


Tôi đọc về việc mở rộng Karhunen Loeve cho phép sử dụng thông tin lớp để trích xuất tính năng. Hơn nữa, có các phần mở rộng cho PCA như sử dụng trung bình trọng số của ma trận hiệp phương sai lớp thay vì ma trận toàn cục. Ngoài thông tin này, tôi cũng quan tâm đến câu trả lời có thể cho câu hỏi của bạn.
Zoran

Câu trả lời:


1

Các biện pháp quan trọng thay đổi (VIM) từ Rừng ngẫu nhiên có thể là những gì bạn đang tìm kiếm. Một tổng quan ngắn gọn về hai trong số này được đưa ra trong một bài viết Tổng quan về Phương pháp rừng ngẫu nhiên và Hướng dẫn thực hành với sự nhấn mạnh về sinh học tính toán và tin sinh học của Boulesteix et al.

Ý tưởng cho Gini VIM là bạn có được một số thống kê về tần suất một khu rừng ngẫu nhiên đã sử dụng một thuộc tính nhất định làm tiêu chí chia tách. Các tính năng thông tin được lựa chọn thường xuyên hơn ở đây.

Các VIM hoán vị được dựa trên ý tưởng rằng các lỗi ước tính của RF-phân loại được so sánh giữa

  • bộ dữ liệu gốc và
  • một bộ dữ liệu nhân tạo trong đó các giá trị cho thuộc tính ONE đã được hoán vị.

Kết quả sai số ước tính lỗi sẽ là lớn đối với các tính năng quan trọng.

Theo tôi nhớ, VIM cũng có thể được sử dụng để khám phá sự phụ thuộc giữa các tính năng.


0

Tìm một bộ tính năng tối ưu có thể khá tốn kém về mặt tính toán. Các loại chính của các giải pháp khả dụng có thể được nhóm thành hai bộ: liên kết với một bộ phân loại cụ thể (Wrappers) hoặc xếp hạng đơn giản các tính năng dựa trên một số tiêu chí (Phương thức lọc).

Dựa trên yêu cầu của bạn (nhanh / không tham số / phi tuyến tính) có thể bạn cần các ứng cử viên từ các phương pháp Lọc. Có khá nhiều ví dụ về những điều được mô tả trong văn học . Ví dụ: Thông tin thu được - đánh giá giá trị của một thuộc tính bằng cách đo mức tăng thông tin liên quan đến lớp; hoặc Tương quan đánh giá giá trị của một thuộc tính dựa trên mối tương quan giữa thuộc tính và lớp.

Các phương thức trình bao bọc được liên kết với một trình phân loại và có thể kết thúc với một bộ tính năng tốt hơn cho trình phân loại quan tâm. Do tính chất của chúng (đào tạo / kiểm tra đầy đủ trong mỗi lần lặp), chúng không thể xem xét nhanh hoặc không tham số, tuy nhiên chúng có thể xử lý các mối quan hệ phi tuyến tính của các tính năng (yêu cầu thứ 3 của bạn). Một ví dụ sẽ là Loại bỏ tính năng đệ quy dựa trên các SVM, do đó nhắm mục tiêu tối đa hóa lề giữa các lớp và có thể xử lý các mối quan hệ phi tuyến tính của các tính năng (sử dụng hạt nhân phi tuyến tính).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.