Câu trả lời:
Không có nguồn xác định về cách làm kỹ thuật tính năng. Nó thường phụ thuộc vào vấn đề bạn đang cố gắng giải quyết. Một số người nói nó là một nghệ thuật hơn là khoa học.
Nhưng tôi sẽ đi qua một số hạt nhân kaggle ghi điểm cao / giải pháp chiến thắng nếu có. Chỉ cần đi qua để kaggle và duyệt qua các cuộc thi. Có rất nhiều tài liệu rất hữu ích trong đó.
Ngoài ra tạp chí nghiên cứu máy học có rất nhiều bài báo về kỹ thuật tính năng. Chỉ cần tìm kiếm trên trang web của họ http://www.jmlr.org/ .
Các liên kết sau đây rất hữu ích và dài để diễn giải:
Thiếu dữ liệu
Phân tích trường hợp hoàn chỉnh
Giá trị trung bình / trung bình / chế độ
Xử lý mẫu ngẫu nhiên
Thay thế bằng giá trị tùy ý
Thiếu chỉ số giá trị
Cắt cụt đa biến
Mã hóa phân loại:
Một mã hóa nóng
Mã hóa đếm và tần số
Mã hóa mục tiêu / Mã hóa trung bình
Mã hóa thông thường
Trọng lượng chứng cứ
Mã hóa nhãn hiếm
BaseN, tính năng băm và những thứ khác
Biến đổi:
Logarit
Đối ứng
Căn bậc hai
số mũ
Yeo-Johnson
Hộp-Cox
Phân biệt đối xử:
Phân biệt tần số bằng nhau
Phân biệt chiều dài bằng nhau
Phân biệt với cây
Phân biệt đối xử với ChiMerge
Loại bỏ ngoại lệ:
Xóa bỏ các ngoại lệ
Đối xử với các ngoại lệ như NaN
Đóng nắp, bói toán
Tính năng mở rộng:
Tiêu chuẩn hóa
Thu nhỏ MinMax
Chia tỷ lệ trung bình
Mở rộng quy mô tuyệt đối
Định mức đơn vị
Kỹ thuật ngày và thời gian:
Tạo tính năng:
Tổng hợp dữ liệu giao dịch:
Trích xuất các tính năng từ văn bản:
Túi từ
tfidf
n-gam
word2vec
trích xuất chủ đề
Và cuối cùng trích xuất các tính năng từ hình ảnh.
Một bài viết hay mô tả hầu hết các kỹ thuật trên: Kỹ thuật tính năng tổng quan toàn diện
Một danh sách tốt các tài nguyên để tìm hiểu thêm về kỹ thuật tính năng: Tài nguyên tốt nhất để tìm hiểu về kỹ thuật tính năng
Các công cụ Python cho kỹ thuật tính năng có thể được tìm thấy trong chuỗi này
TUYÊN BỐ TỪ CHỐI: Tôi đã viết 2 bài báo, và cũng là người tạo ra 1 trong số các khóa học được đề xuất để tìm hiểu về kỹ thuật tính năng.