Có vấn đề khoa học nào với việc sử dụng ML để hỗ trợ chú thích của con người không?
Tôi đã có một bộ dữ liệu 3 lớp không ghi nhãn trong đó chỉ có 1 trong 500 phần tử thuộc về 2 lớp quan tâm.
Các nhãn không thể nhận thấy một cách tầm thường đối với tất cả các yếu tố của dữ liệu không được ghi nhãn, tuy nhiên vì hầu hết các yếu tố của lớp đa số có thể dễ dàng phát hiện bởi một NN đơn giản, nó có thể được sử dụng để lọc hầu hết các yếu tố của lớp đa số, đưa số lượng xuống khoảng 1 trên 100, và tăng hiệu quả của thời gian chú thích của con người lên gấp 50 lần. Các tập dữ liệu được dán nhãn sẽ được sử dụng để đào tạo, kiểm tra và xác nhận một lớp.
Tuy nhiên tôi có thể thấy trước những lý do tại sao điều này có thể gây ra một vấn đề cụ thể theo quan điểm học thuật:
- Nếu dữ liệu chú thích không có tính đại diện do sai lệch trong ML được sử dụng trước chú thích của con người, bộ phân loại có thể đấu tranh để tổng quát hóa
- Việc sử dụng trình dọn dẹp dữ liệu ML, không dựa trên các quy tắc chính đáng được cung cấp bởi con người, đặt một hộp đen ở đầu của quá trình phân tích dữ liệu
- Chỉ chú thích một tỷ lệ nhỏ của lớp phổ biến cao làm cho bộ dữ liệu trở nên rất chọn lọc, điều này sẽ mời những lời chỉ trích về việc sử dụng sai lệch sai lệch này (tức là thao túng cho một giả thuyết mong muốn)
Tất cả những suy nghĩ đánh giá cao