Cây quyết định biến đổi (tính năng) chia tỷ lệ và biến (tính năng) chuẩn hóa (điều chỉnh) cần thiết trong triển khai nào?


10

Trong nhiều thuật toán học máy, tính năng chia tỷ lệ (còn gọi là chia tỷ lệ biến, chuẩn hóa) là một bước chuẩn bị phổ biến Wikipedia - Tính năng mở rộng - câu hỏi này đã đóng Câu hỏi # 41704 - Làm thế nào và tại sao việc chuẩn hóa và nhân rộng tính năng hoạt động?

Tôi có hai câu hỏi cụ thể liên quan đến Cây quyết định:

  1. Có bất kỳ triển khai cây quyết định nào sẽ yêu cầu mở rộng tính năng không? Tôi có ấn tượng rằng hầu hết các tiêu chí phân tách của thuật toán là không phân biệt tỷ lệ.
  2. Hãy xem xét các biến này: (1) Đơn vị, (2) Giờ, (3) Đơn vị mỗi giờ - tốt nhất là để ba biến này "nguyên trạng" khi được đưa vào cây quyết định hoặc chúng ta gặp phải một số loại xung đột vì biến "chuẩn hóa" (3) có liên quan đến (1) và (2) không? Đó là, bạn sẽ tấn công tình huống này bằng cách ném cả ba biến vào hỗn hợp, hay bạn thường chọn một số kết hợp của ba hoặc đơn giản là sử dụng tính năng "chuẩn hóa / chuẩn hóa" (3)?

Câu trả lời:


6

Đối với 1, cây quyết định nói chung thường không yêu cầu chia tỷ lệ. Tuy nhiên, nó giúp với việc hiển thị / thao tác dữ liệu và có thể hữu ích nếu bạn có ý định so sánh hiệu suất với dữ liệu khác hoặc các phương pháp khác như SVM.

Đối với 2, đây là một câu hỏi về điều chỉnh. Đơn vị / giờ có thể được coi là một loại tương tác thay đổi và có thể có sức mạnh dự đoán khác với mỗi đơn vị. Điều này thực sự phụ thuộc vào dữ liệu của bạn, mặc dù. Tôi sẽ thử với và không để xem có sự khác biệt nào không.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.