Tôi là người mới học về máy học và máy ảnh và hiện đang làm việc với một vấn đề phân loại hình ảnh đa lớp bằng cách sử dụng máy ảnh. Đầu vào được gắn thẻ hình ảnh. Sau một số xử lý trước, dữ liệu đào tạo được trình bày trong danh sách Python là:
[["dog", "path/to/dog/imageX.jpg"],["cat", "path/to/cat/imageX.jpg"], ["bird", "path/to/cat/imageX.jpg"]]
"chó", "mèo" và "chim" là các nhãn lớp. Tôi nghĩ rằng mã hóa một nóng nên được sử dụng cho vấn đề này nhưng tôi không rõ lắm về cách xử lý nó với các nhãn chuỗi này. Tôi đã thử dùng LabelEncoder () của sklearn theo cách này:
encoder = LabelEncoder()
trafomed_label = encoder.fit_transform(["dog", "cat", "bird"])
print(trafomed_label)
Và đầu ra là [2 1 0], khác với đầu ra kỳ vọng của tôi về một cái gì đó như [[1,0,0], [0,1,0], [0,0,1]]. Nó có thể được thực hiện với một số mã hóa, nhưng tôi muốn biết liệu có cách nào "tiêu chuẩn" hoặc "truyền thống" để đối phó với nó không?