Trong khi AN6U5 đã đưa ra một câu trả lời rất hay, tôi muốn thêm một vài điểm để tham khảo trong tương lai. Khi xem xét Một mã hóa nóng (OHE) và Mã hóa nhãn , chúng tôi phải thử và hiểu mô hình nào bạn đang cố gắng xây dựng. Cụ thể là hai loại mô hình chúng tôi sẽ xem xét là:
- Mô hình dựa trên cây : Cây quyết định tăng cường và rừng ngẫu nhiên.
- Các mô hình không dựa trên cây: Dựa trên tuyến tính, kNN hoặc Mạng thần kinh.
Chúng ta hãy xem xét khi nào nên áp dụng OHE và khi nào nên áp dụng Mã hóa nhãn trong khi xây dựng các mô hình dựa trên cây.
Chúng tôi áp dụng OHE khi:
- Khi các giá trị gần nhau trong mã hóa nhãn tương ứng với các giá trị đích không đóng (dữ liệu phi tuyến tính).
- Khi tính năng phân loại không phải là thứ tự (chó, mèo, chuột).
Chúng tôi áp dụng mã hóa Nhãn khi:
- Các tính năng phân loại là thứ tự (Jr. kg, Sr. kg, tiểu học, trung học, vv).
- Khi chúng ta có thể đưa ra một bộ mã hóa nhãn gán nhãn gần cho các danh mục tương tự : Điều này dẫn đến ít sự cố trong tress do đó giảm thời gian thực hiện.
- Khi số lượng các tính năng phân loại trong bộ dữ liệu là rất lớn: Mã hóa một nóng một tính năng phân loại với số lượng giá trị lớn có thể dẫn đến (1) mức tiêu thụ bộ nhớ cao và (2) trường hợp khi các tính năng không phân loại hiếm khi được sử dụng bởi mô hình. Bạn có thể đối phó với trường hợp thứ 1 nếu bạn sử dụng ma trận thưa thớt. Trường hợp thứ 2 có thể xảy ra nếu bạn xây dựng một cây chỉ sử dụng một tập hợp con các tính năng. Ví dụ: nếu bạn có 9 tính năng số và 1 tính năng phân loại với 100 giá trị duy nhất và bạn được mã hóa một tính năng phân loại đó, bạn sẽ nhận được 109 tính năng. Nếu một cây được xây dựng chỉ với một tập hợp các tính năng, 9 tính năng số ban đầu sẽ hiếm khi được sử dụng. Trong trường hợp này, bạn có thể tăng kích thước kiểm soát tham số của tập hợp con này. Trong xgboost, nó được gọi là colsample_bytree, trong max_features của sklearn.
Trong trường hợp bạn muốn tiếp tục với OHE, như @ AN6U5 đã đề xuất, bạn có thể muốn kết hợp PCA với OHE.
Hãy xem xét khi nào nên áp dụng Mã hóa OHE và Nhãn trong khi xây dựng các mô hình không dựa trên cây.
Để áp dụng mã hóa Nhãn, sự phụ thuộc giữa tính năng và mục tiêu phải là tuyến tính để Mã hóa nhãn được sử dụng hiệu quả.
Tương tự, trong trường hợp sự phụ thuộc là phi tuyến tính, bạn có thể muốn sử dụng OHE cho cùng.
Lưu ý: Một số lời giải thích đã được tham khảo từ Cách giành chiến thắng trong Cuộc thi khoa học dữ liệu từ Coursera.