Mạng nơ-ron: Làm thế nào để chuẩn bị dữ liệu trong thế giới thực để phát hiện các sự kiện xác suất thấp?

Tôi có một bộ dữ liệu thế giới thực của những người vay tín dụng (50.000 hồ sơ). Bộ này chứa các danh mục như Đã kết hôn, Độc thân, Ly dị, v.v. cũng như dữ liệu liên tục như Thu nhập, Tuổi, v.v ... Một số hồ sơ không đầy đủ hoặc chứa các ngoại lệ. Biến phụ thuộc là Mặc định / Tốt (0,1). Chúng tôi đang cố gắng đào tạo một mạng lưới thần kinh để dự đoán mặc định dựa trên dữ liệu đào tạo. Tôi có kinh nghiệm với các mạng thần kinh và sử dụng chúng cho dữ liệu mẫu với kết quả tuyệt vời, tuy nhiên, tôi chưa bao giờ phải bình thường hóa dữ liệu thế giới thực ồn ào.

Bất kỳ suy nghĩ nào tôi nên ghi nhớ liên quan đến: - Làm thế nào để bình thường hóa các danh mục. Tôi có thể chỉ định một số được lập chỉ mục? Tôi có nên cố gắng phân tầng chúng? - Cách xử lý dữ liệu bị thiếu. Gán 0? - Làm thế nào để đối phó với thực tế là mặc định chỉ chiếm khoảng 5% bộ dữ liệu. Hàm chuyển nào sẽ hữu ích để dự đoán các xác suất thấp này. - Về cơ bản bất kỳ lời khuyên dữ liệu thế giới thực khác là rất nhiều đánh giá cao.

Cảm ơn trước!

— Ans Stru
nguồn

Bạn đưa ra một số câu hỏi hay ở đây Ans. Tôi sẽ làm hết sức mình để lần lượt bao gồm từng người trong số họ. Nó không phải là một điều trị toàn diện nhưng hy vọng nó sẽ giúp ...

1. Làm thế nào để bình thường hóa các danh mục.

Trước tiên, hãy đánh giá xem các biến phân loại của bạn có thể được coi là phương sai không (ví dụ: tất cả các bản ghi chỉ sở hữu một danh mục) hoặc gần phương sai không (phần lớn các bản ghi thuộc rất ít danh mục). Tạo một phân phối tần số cơ bản để xác định điều này.

Mặc dù nó không quan trọng bằng bối cảnh thần kinh mỗi se, nhưng nên xem xét việc lọc các biến phương sai thấp từ mô hình của bạn. Chỉ cần cẩn thận vì loại bỏ các biến phương sai gần bằng 0 có thể khiến bạn vứt bỏ em bé bằng nước tắm.

Bạn đã từng làm việc với Mạng lưới thần kinh trước đây để bạn biết rằng bạn cần chuyển đổi danh mục thành giá trị số. Một câu hỏi hay được đặt ra là liệu một giá trị phân loại nhất định có phải là tự nhiên hay không (ví dụ trên thang đo Likert từ 1 đến 5) và liệu bạn có muốn duy trì quy tắc hay không. Điều này đẩy bạn vào một khu vực như được mô tả bởi Pinto da Costa và Cardoso ( https://www.researchgate.net/publication/221112186_Classification_of_Ordinal_Data_Using_Neural_Networks ).

2. Cách xử lý dữ liệu bị thiếu.

Giả sử rằng bạn đang nói về việc thiếu các giá trị liên tục, bạn sẽ muốn áp đặt các giá trị số này dựa trên tổng thể các giá trị hiện diện trên toàn bộ thuộc tính. Có một số cách tiếp cận để sử dụng ở đây nhưng một điều quan trọng cần ghi nhớ là phân tán. Theo một nghĩa cơ bản, nếu thuộc tính của bạn bị lệch bởi các ngoại lệ, bạn sẽ muốn tránh xa một phép tính dựa trên trung bình và đi theo cách tiếp cận dựa trên trung bình.

3. Cách đối phó với thực tế là 'Mặc định' là ~ 5% dữ liệu.

Đây không phải là mối quan tâm ngay lập tức khi bạn có 2500 ví dụ về những gì biểu thị 'Mặc định' (trong bộ dữ liệu 50.000). Một cách tiếp cận lành mạnh ở đây sẽ là để đảm bảo rằng bạn đang sử dụng sơ đồ xác thực chéo K-Fold (nói với 10 lần) để đảm bảo rằng bạn đang thực sự ngẫu nhiên đào tạo so với kiểm tra. Điều này sẽ giúp bảo vệ bạn chống lại quá mức. Một lần nữa, đây là hướng dẫn cấp độ khá cao, nhưng nó là thận trọng.

Tín dụng bổ sung: Tôi chưa tham gia vào các chiến thuật tiêu chuẩn khác như bình thường hóa các thuộc tính liên tục của bạn, nhưng bạn có thể muốn tăng tốc ở đó để khái quát hóa tốt hơn mô hình của mình (đồng thời phát triển sự hiểu biết sâu sắc hơn về động lực học trong dữ liệu ). Điều này có thể chỉ cho bạn thử các thuật toán khác, v.v.

— Damian Wilbur
nguồn