Giả sử bạn có hai bộ dữ liệu D1 và D2. Cả hai đều được lấy mẫu từ cùng một phân phối cơ bản X. Tôi muốn sử dụng chúng để huấn luyện một mạng lưới thần kinh. Các tính năng là tất cả các số nguyên không dấu trong phạm vi [0; 2 ^ 64].
Do thực tế là các tính năng có quy mô rất khác nhau, tôi quyết định sử dụng chuẩn hóa điểm z kết hợp với chức năng sigmoid. Điều đó có nghĩa là tôi cung cấp dữ liệu chuẩn hóa điểm z cho hàm logistic để ánh xạ các tính năng thành [0; 1] phạm vi.
Tại thời điểm này tôi không chắc chắn vào thời điểm nào để bình thường hóa dữ liệu.
1.) Tôi sử dụng D1 và chuẩn hóa nó với mean_1 và std_dev_1, thu được bằng cách chỉ xem xét D1. Tôi lặp lại quy trình cho D2 và chuẩn hóa nó bằng cách sử dụng mean_2 và std_dev_2. Sau đó, tôi đào tạo mạng với hai bộ dữ liệu tuần tự.
2.) Tôi thêm D1 và D2 để lấy tập D3 và chuẩn hóa nó bằng cách tính mean_3 và std_dev_3 trên toàn bộ tập dữ liệu (D1 + D2). Sau đó, tôi đào tạo mạng với nó.
2 câu hỏi ở đây:
a) Hai phương pháp có dẫn đến kết quả tương tự không? Điều này đặc biệt quan trọng đối với tôi vì D2 có thể trở nên khả dụng sau này so với D1 và tôi phải biết liệu tôi có phải đào tạo lại mạng với toàn bộ dữ liệu hay không.
b) Khi thực hiện suy luận với mạng được đào tạo, tôi phải sử dụng tham số nào để chuẩn hóa các đầu vào mới? Vậy tôi có phải sử dụng mean_3 và std_dev_3 không?
EDIT: Tôi phát hiện ra rằng độ lệch trung bình và độ lệch chuẩn của sự kết hợp của hai bộ dữ liệu có thể được tính từ độ lệch trung bình và độ lệch chuẩn của dữ liệu gốc. Điều đó có nghĩa là (về lý thuyết) họ có thể được đào tạo tuần tự và các tham số phân phối của họ có thể được kết hợp để định mức các đầu vào cho suy luận.