Hãy nói rằng tôi muốn tạo Trình phân loại hậu cần cho phim M. Các tính năng của tôi sẽ giống như tuổi của người, giới tính, nghề nghiệp, địa điểm. Vì vậy, tập huấn luyện sẽ là một cái gì đó như:
- Tuổi Giới tính Nghề nghiệp Địa điểm Thích (1) / Không thích (0)
- Phần mềm 23 M US 1
- 24 F Bác sĩ Anh 0
và v.v .... Bây giờ câu hỏi của tôi là làm thế nào để mở rộng và thể hiện các tính năng của mình. Một cách tôi nghĩ: Chia tuổi thành các nhóm tuổi, vì vậy 18-25, 25-35, 35 trở lên, Giới tính là M, F, Địa điểm là Hoa Kỳ, Vương quốc Anh, Khác. Bây giờ hãy tạo một tính năng nhị phân cho tất cả các giá trị này, do đó độ tuổi sẽ có 3 tính năng nhị phân tương ứng với một nhóm tuổi, v.v. Vì vậy, một Nam 28 tuổi từ Hoa Kỳ sẽ được đại diện là 010 10 100 (010-> Nhóm tuổi 25-35, 10 -> Nam, 100 -> Hoa Kỳ)
Điều gì có thể là cách tốt nhất để thể hiện các tính năng ở đây? Ngoài ra, tôi nhận thấy trong một số ví dụ. của sklearn rằng tất cả các tính năng đã được thu nhỏ / chuẩn hóa theo một cách nào đó, ví dụ: Giới tính được biểu thị bằng hai giá trị, 0,0045 và -.0,0045 cho Nam và nữ. Tôi không có bất kỳ manh mối nào về cách thực hiện chia tỷ lệ / chuẩn hóa như thế này?