Bạn đưa ra một số câu hỏi hay ở đây Ans. Tôi sẽ làm hết sức mình để lần lượt bao gồm từng người trong số họ. Nó không phải là một điều trị toàn diện nhưng hy vọng nó sẽ giúp ...
1. Làm thế nào để bình thường hóa các danh mục.
Trước tiên, hãy đánh giá xem các biến phân loại của bạn có thể được coi là phương sai không (ví dụ: tất cả các bản ghi chỉ sở hữu một danh mục) hoặc gần phương sai không (phần lớn các bản ghi thuộc rất ít danh mục). Tạo một phân phối tần số cơ bản để xác định điều này.
Mặc dù nó không quan trọng bằng bối cảnh thần kinh mỗi se, nhưng nên xem xét việc lọc các biến phương sai thấp từ mô hình của bạn. Chỉ cần cẩn thận vì loại bỏ các biến phương sai gần bằng 0 có thể khiến bạn vứt bỏ em bé bằng nước tắm.
Bạn đã từng làm việc với Mạng lưới thần kinh trước đây để bạn biết rằng bạn cần chuyển đổi danh mục thành giá trị số. Một câu hỏi hay được đặt ra là liệu một giá trị phân loại nhất định có phải là tự nhiên hay không (ví dụ trên thang đo Likert từ 1 đến 5) và liệu bạn có muốn duy trì quy tắc hay không. Điều này đẩy bạn vào một khu vực như được mô tả bởi Pinto da Costa và Cardoso ( https://www.researchgate.net/publication/221112186_Classification_of_Ordinal_Data_Using_Neural_Networks ).
2. Cách xử lý dữ liệu bị thiếu.
Giả sử rằng bạn đang nói về việc thiếu các giá trị liên tục, bạn sẽ muốn áp đặt các giá trị số này dựa trên tổng thể các giá trị hiện diện trên toàn bộ thuộc tính. Có một số cách tiếp cận để sử dụng ở đây nhưng một điều quan trọng cần ghi nhớ là phân tán. Theo một nghĩa cơ bản, nếu thuộc tính của bạn bị lệch bởi các ngoại lệ, bạn sẽ muốn tránh xa một phép tính dựa trên trung bình và đi theo cách tiếp cận dựa trên trung bình.
3. Cách đối phó với thực tế là 'Mặc định' là ~ 5% dữ liệu.
Đây không phải là mối quan tâm ngay lập tức khi bạn có 2500 ví dụ về những gì biểu thị 'Mặc định' (trong bộ dữ liệu 50.000). Một cách tiếp cận lành mạnh ở đây sẽ là để đảm bảo rằng bạn đang sử dụng sơ đồ xác thực chéo K-Fold (nói với 10 lần) để đảm bảo rằng bạn đang thực sự ngẫu nhiên đào tạo so với kiểm tra. Điều này sẽ giúp bảo vệ bạn chống lại quá mức. Một lần nữa, đây là hướng dẫn cấp độ khá cao, nhưng nó là thận trọng.
Tín dụng bổ sung:
Tôi chưa tham gia vào các chiến thuật tiêu chuẩn khác như bình thường hóa các thuộc tính liên tục của bạn, nhưng bạn có thể muốn tăng tốc ở đó để khái quát hóa tốt hơn mô hình của mình (đồng thời phát triển sự hiểu biết sâu sắc hơn về động lực học trong dữ liệu ). Điều này có thể chỉ cho bạn thử các thuật toán khác, v.v.