Tôi có hai bộ dữ liệu A và B hoàn toàn giống nhau về số lượng cột, tên cột và các giá trị. Sự khác biệt duy nhất là thứ tự của các cột. Sau đó, tôi huấn luyện mô hình LightGBM trên mỗi hai bộ dữ liệu với các bước sau
- Chia mỗi tập dữ liệu vào đào tạo và thử nghiệm (sử dụng cùng tỷ lệ và hạt giống ngẫu nhiên cho cả A và B)
- Để mặc định siêu âm như mặc định
- Đặt trạng thái ngẫu nhiên làm số cố định (để tái tạo)
- Điều chỉnh learning_rate bằng cách sử dụng Tìm kiếm lưới
- Huấn luyện một mô hình LightGBM trên tập huấn luyện và kiểm tra nó trên tập thử nghiệm
- Tỷ lệ học tập với hiệu suất tốt nhất trên bộ kiểm tra sẽ được chọn
Các mô hình đầu ra trên hai bộ dữ liệu rất khác nhau, điều này khiến tôi nghĩ rằng thứ tự các cột có ảnh hưởng đến hiệu suất đào tạo mô hình bằng LightGBM.
Bạn có biết tại sao lại như vậy không?