Hướng dẫn về kỹ thuật tính năng


19

Như đã biết, kỹ thuật tính năng là cực kỳ quan trọng đối với học máy, tuy nhiên tôi tìm thấy một vài tài liệu liên quan đến lĩnh vực này. Tôi đã tham gia một số cuộc thi ở Kaggle và tin rằng các tính năng tốt thậm chí có thể quan trọng hơn một trình phân loại tốt trong một số trường hợp. Có ai biết bất kỳ hướng dẫn về kỹ thuật tính năng, hoặc đây là kinh nghiệm thuần túy?


1
Bạn có nghĩa là tiền xử lý các tính năng (chuẩn hóa và các biến đổi khác) hoặc lựa chọn tính năng?
MattBagg

2
@ mb3041023 Không, bước trước cả hai, trong đó bạn chuyển đổi một số dữ liệu thô như văn bản, hình ảnh hoặc chuỗi thành một số thuộc tính có thể sử dụng.

8
Theo kinh nghiệm của tôi, một phần lớn của vấn đề học máy, thực sự là thiết lập vấn đề chính xác cần giải quyết / tối ưu hóa (nghĩa là các tính năng, biểu diễn tính năng, lựa chọn, v.v.). Tôi rất thích xem một cuốn sách hoàn toàn dành riêng cho việc lựa chọn và xử lý trước theo kinh nghiệm với nhiều minh họa thực tế (như kaggle). Nếu ai biết về một, xin vui lòng. bài đăng. Có một số cuốn sách dành riêng cho những việc như làm sạch dữ liệu / dữ liệu, nhưng một văn bản thực tế dành riêng cho việc lựa chọn tính năng là vô cùng cần thiết.
vỗ

2
Hãy xem: "Trích xuất tính năng: Nền tảng và ứng dụng", 2006
jasonb

2
@jasonb, làm thế nào về tác giả, kích thước, giá cả và một liên kết, đại loại như thế này: Guyon ed., Trích xuất tính năng: Nền tảng và ứng dụng 2006, 778p, $ 306
chối

Câu trả lời:


7

Tôi muốn nói kinh nghiệm - những ý tưởng cơ bản là:

  • để phù hợp với cách phân loại làm việc; đưa ra một vấn đề hình học cho cây, kích thước quá khổ cho kNN và dữ liệu khoảng cho một SVM không phải là một ý tưởng hay
  • loại bỏ càng nhiều phi tuyến càng tốt; hy vọng rằng một số phân loại sẽ thực hiện phân tích Fourier bên trong là khá ngây thơ (ngay cả khi, nó sẽ lãng phí rất nhiều sự phức tạp ở đó)
  • làm cho các tính năng chung cho tất cả các đối tượng để một số mẫu trong chuỗi sẽ không loại bỏ chúng
  • kiểm tra các công việc trước đây - thường chuyển đổi được sử dụng để trực quan hóa hoặc thử nghiệm các loại dữ liệu tương tự đã được điều chỉnh để khám phá các khía cạnh thú vị
  • tránh không ổn định, tối ưu hóa các biến đổi như PCA có thể dẫn đến quá mức
  • thử nghiệm nhiều

Làm thế nào để bạn xác định "dữ liệu khoảng"? Tôi đã tìm kiếm trên Google và tìm thấy nhiều định nghĩa khác nhau.
sức mạnh

bạn có thể giải thích về điểm PCA không?
Daniel Velkov

x|x-nguyên tố gần nhất|<0,3

@DanielVelkov Khi bạn khởi động PCA trên một dữ liệu khá ồn, các thành phần thường không ổn định; điều này thúc đẩy ý tưởng tạo ra một PCA toàn cầu trên toàn bộ tập hợp có sẵn, những gì rò rỉ thông tin và là một cách thẳng thắn để làm hỏng việc đánh giá.

@mbq điều gì xảy ra nếu PCA chỉ được chạy trên tập huấn luyện, theo cách nó được coi là?
Daniel Velkov

1

Có một cuốn sách của O'Reilly có tên là " Kỹ thuật tính năng cho học máy " của Zheng et al.

Tôi đọc cuốn sách và nó bao gồm các loại dữ liệu khác nhau (ví dụ như phân loại, văn bản ...) và mô tả các khía cạnh khác nhau của kỹ thuật tính năng đi kèm với nó. Điều này bao gồm những thứ như chuẩn hóa dữ liệu, lựa chọn tính năng, tf-idf trong văn bản.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.