Kỹ thuật tính năng bất khả tri miền mà vẫn giữ ý nghĩa ngữ nghĩa?

12

Kỹ thuật tính năng thường là một thành phần quan trọng đối với học máy (nó được sử dụng rất nhiều để giành Cup KDD năm 2010 ). Tuy nhiên, tôi thấy rằng hầu hết các tính năng kỹ thuật kỹ thuật hoặc

phá hủy bất kỳ ý nghĩa trực quan của các tính năng cơ bản hoặc
là rất cụ thể cho một tên miền cụ thể hoặc thậm chí các loại tính năng cụ thể.

Một ví dụ kinh điển trước đây sẽ là phân tích thành phần chính. Dường như với tôi rằng bất kỳ kiến thức nào mà một chuyên gia về chủ đề sẽ có về các tính năng sẽ bị phá hủy bằng cách chuyển đổi các tính năng đó thành các thành phần chính.

Ngược lại với một kỹ thuật đơn giản là chuyển đổi một ngày thành các tính năng cho "ngày trong tháng" và "ngày trong tuần". Ý nghĩa cơ bản vẫn được giữ lại trong các tính năng mới, nhưng rõ ràng kỹ thuật đặc biệt này chỉ áp dụng cho các ngày và không phải là các tính năng tùy ý.

Có bất kỳ cơ quan tiêu chuẩn nào của các kỹ thuật kỹ thuật tính năng không phá hủy ý nghĩa của các tính năng cơ bản trong khi cũng có thể áp dụng cho các miền tùy ý (hoặc ít nhất là một loạt các miền)?

predictive-models feature-selection feature-construction

— Michael McGowan
nguồn

2

PCA đôi khi có thể được sử dụng để tìm ý nghĩa trực quan cho các tính năng - ví dụ: không gian riêng .

— tdc

Bạn có thể đưa ra (nhiều hơn) ví dụ về dữ liệu bạn có trong đầu không? nếu bạn có thể cụ thể hơn về ứng dụng của mình (thậm chí một số ví dụ tùy ý), việc đưa ra câu trả lời chính xác sẽ dễ dàng hơn (chính xác hơn).

— Dov

1

@Dov Vâng, toàn bộ vấn đề là (lý tưởng) Tôi muốn một cái gì đó có thể hoạt động cho bất kỳ tập dữ liệu dạng bảng, có cấu trúc nào (một bộ dữ liệu có các biểu dữ liệu và tính năng). Vì vậy, đây có thể là dữ liệu bán hàng, dữ liệu tài chính, dữ liệu khám phá ma túy, dữ liệu bóng chày, v.v.

— Michael McGowan

7

Tôi biết một phương pháp phân rã (nhưng có thể có nhiều ...) có thể hữu ích trong các tình huống như bạn mô tả. Nó giống như 2D-PCA - một phương pháp phân rã bậc cao trong đó phân rã (tức là các yếu tố) có một số ý nghĩa. Bạn có thể xem các ví dụ và đọc về nó ở đây và ở đây và cố gắng ở đây

— Chính phủ
nguồn

+ xin vui lòng tha thứ cho tôi rằng tôi không phải là người nói tiếng Anh bản địa :)

— Dov

Từ những gì tôi đã nói, bước cuối cùng của PCA nên cố gắng tìm ý nghĩa cho thành phần chính.

— jb.

5

Các phương pháp học sâu gần đây sử dụng Máy Boltzmann bị hạn chế đã cho thấy các tính năng hay trên một số loại dữ liệu (âm thanh, hình ảnh, văn bản).

Vì các phương thức này tạo ra một mô hình tổng quát, bạn thường có thể tạo các mẫu thực sự đẹp từ mô hình.

Kiểm tra các ấn phẩm của Hinton. http://www.cs.toronto.edu/~hinton/

Các phương thức này không hoàn toàn chung chung (chạy cùng một mã trên mọi dữ liệu), nhưng mô hình cơ bản thường tương tự nhau.

— Đã chạy
nguồn