Tôi có một bộ dữ liệu với 20000 mẫu, mỗi mẫu có 12 tính năng khác nhau. Mỗi mẫu thuộc loại 0 hoặc 1. Tôi muốn huấn luyện một mạng lưới thần kinh và một khu rừng quyết định để phân loại các mẫu để tôi có thể so sánh kết quả và cả hai kỹ thuật.
Điều đầu tiên tôi vấp phải là sự chuẩn hóa dữ liệu thích hợp. Một tính năng nằm trong phạm vi , một tính năng khác trong và có một tính năng chủ yếu lấy giá trị 8 và đôi khi 7. Vì vậy, khi tôi đọc trong các nguồn khác nhau, chuẩn hóa đúng dữ liệu đầu vào là rất quan trọng cho các mạng lưới thần kinh. Như tôi đã tìm ra, có nhiều cách có thể để bình thường hóa dữ liệu, ví dụ:
- Chuẩn hóa tối thiểu tối đa : Phạm vi đầu vào được chuyển đổi tuyến tính thành khoảng (hoặc cách khác , điều đó có quan trọng không?)
- Chuẩn hóa điểm Z : Dữ liệu được chuyển đổi thành trung bình bằng 0 và phương sai đơn vị:
Nên chọn chuẩn hóa nào? Là bình thường hóa cũng cần thiết cho rừng quyết định? Với chuẩn hóa Z-Score, các tính năng khác nhau của dữ liệu thử nghiệm của tôi không nằm trong cùng một phạm vi. Điều này có thể là một vấn đề? Mọi tính năng có nên được chuẩn hóa với cùng một thuật toán để tôi quyết định sử dụng Min-Max cho tất cả các tính năng hoặc Z-Score cho tất cả các tính năng không?
Tôi cảm thấy hơi lạc lõng vì tôi không thể tìm thấy tài liệu tham khảo trả lời những câu hỏi này.