Sự khác biệt giữa tạo tính năng và trích xuất tính năng là gì?


13

Ai đó có thể cho tôi biết mục đích của việc tạo tính năng là gì không? và tại sao cần làm giàu không gian trước khi phân loại hình ảnh? Đây có phải là một bước cần thiết?

Có phương pháp nào để làm phong phú không gian tính năng?

Câu trả lời:


13

Tạo tính năng - Đây là quá trình lấy dữ liệu thô, không có cấu trúc và xác định các tính năng (nghĩa là các biến) để sử dụng tiềm năng trong phân tích thống kê của bạn. Chẳng hạn, trong trường hợp khai thác văn bản, bạn có thể bắt đầu bằng một bản ghi thô của hàng ngàn tin nhắn văn bản (ví dụ: SMS, email, tin nhắn mạng xã hội, v.v.) và tạo các tính năng bằng cách xóa các từ có giá trị thấp (ví dụ: mật khẩu), sử dụng kích thước nhất định khối từ (nghĩa là n-gram) hoặc áp dụng các quy tắc khác.

Khai thác tính năng - Sau khi tạo các tính năng, thường cần phải kiểm tra các phép biến đổi của các tính năng gốc và chọn một tập hợp con của nhóm các tính năng gốc và xuất phát tiềm năng này để sử dụng trong mô hình của bạn (nghĩa là trích xuất và lựa chọn tính năng). Kiểm tra các giá trị dẫn xuất là một bước phổ biến vì dữ liệu có thể chứa thông tin quan trọng có mô hình phi tuyến tính hoặc mối quan hệ với kết quả của bạn, do đó tầm quan trọng của yếu tố dữ liệu chỉ có thể rõ ràng ở trạng thái được chuyển đổi (ví dụ: các dẫn xuất bậc cao hơn). Việc sử dụng quá nhiều tính năng có thể dẫn đến nhân rộng hoặc mô hình thống kê gây nhiễu, trong khi trích xuất số lượng tính năng tối thiểu để phù hợp với mục đích phân tích của bạn tuân theo nguyên tắc phân tích.

Cải thiện không gian tính năng của bạn theo cách này thường là một bước cần thiết để phân loại hình ảnh hoặc các đối tượng dữ liệu khác vì không gian tính năng thô thường chứa quá nhiều dữ liệu không có cấu trúc và không liên quan bao gồm những gì thường được gọi là "nhiễu" trong mô hình của một "tín hiệu" và "nhiễu" (có nghĩa là một số dữ liệu có giá trị dự đoán và các dữ liệu khác thì không). Bằng cách tăng cường không gian tính năng, bạn có thể xác định tốt hơn dữ liệu quan trọng có giá trị dự đoán hoặc giá trị khác trong phân tích của mình (tức là "tín hiệu") trong khi xóa thông tin gây nhiễu (tức là "nhiễu").


2
Câu trả lời tốt đẹp! (+1)
Alexanderr Blekh

1
Đó là niềm vui của tôi!
Alexanderr Blekh

Cảm ơn bạn .. Có phương pháp nào để thực hiện làm giàu không gian tính năng không?
Saratha Priya

Chắc chắn rồi. Có nhiều phương pháp như vậy. Ví dụ, bộ lọc Gabor là thuật toán phát hiện cạnh bộ lọc thông dải thường được sử dụng để tạo tính năng trong nhận dạng khuôn mặt và phân loại kết cấu. Điều này có thể được sử dụng kết hợp với các thuật toán phân loại như máy vectơ hỗ trợ.
Hack-R

Tôi có thể sử dụng nó để làm giàu tính năng trong phân loại hình ảnh không?
Saratha Priya
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.