Làm sạch dữ liệu tự động


10

Một vấn đề phổ biến là ML là chất lượng dữ liệu kém: lỗi về giá trị tính năng, trường hợp phân loại sai, v.v.

Một cách để giải quyết vấn đề này là tự đi qua dữ liệu và kiểm tra, nhưng có các kỹ thuật khác không? (Tôi cá là có!)

Cái nào tốt hơn và tại sao?


Google Refine có thể đáng xem.
Dimitriy V. Masterov

Câu trả lời:


6

Giảm kích thước thông qua một cái gì đó như PCA sẽ hữu ích để có được ý tưởng về số lượng kích thước quan trọng để thể hiện dữ liệu của bạn.

Để kiểm tra các trường hợp phân loại sai, bạn có thể thực hiện phân cụm k-thô sơ của dữ liệu để có ý tưởng về việc dữ liệu thô của bạn sẽ phù hợp với các danh mục được đề xuất của bạn như thế nào. Mặc dù không tự động, hình dung ở giai đoạn này sẽ hữu ích, vì bộ não thị giác của bạn là một bộ phân loại mạnh mẽ trong chính nó.

Về mặt dữ liệu bị thiếu hoàn toàn, số liệu thống kê đã có nhiều kỹ thuật để xử lý tình huống đó, bao gồm cả việc cắt bỏ, lấy dữ liệu từ bộ hiện có hoặc bộ khác để điền vào các khoảng trống.


3
Vẽ dữ liệu một kiểm tra thủ công.
andreister

@andreister Tôi coi việc kiểm tra từng điểm trên bảng tính là kiểm tra thủ công, nhưng không sao, tôi thấy bạn đang làm gì.
jonsca

5

Bạn thực sự không thể loại bỏ một người có kiến ​​thức khỏi vòng lặp và mong đợi kết quả hợp lý. Điều đó không có nghĩa là người đó phải xem xét từng mục riêng lẻ, nhưng cuối cùng, cần có một số kiến ​​thức thực tế để biết liệu tóm tắt / biểu đồ dữ liệu có hợp lý hay không. (Ví dụ: biến A có thể âm, biến B có thể lớn hơn biến A không, hoặc có 4 hoặc 5 lựa chọn cho biến phân loại C?)

Khi bạn đã có một cái nhìn hiểu biết về con người về dữ liệu, bạn có thể tạo ra một loạt các quy tắc mà bạn có thể sử dụng để kiểm tra dữ liệu một cách tự động. Vấn đề là, các lỗi khác có thể phát sinh mà bạn chưa nghĩ đến. (Ví dụ: lỗi lập trình trong quy trình thu thập dữ liệu trùng lặp biến A thành biến C.)


Câu trả lời chính xác. Tôi sẽ chỉ thêm để đảm bảo rằng cú pháp được sử dụng để làm sạch các biến được giữ lại trong tài liệu, với các bình luận nếu không phải là đoạn văn mô tả về lý do tại sao mọi thứ được thay đổi. :)
Michelle

1

Nếu bạn biết rằng dữ liệu của bạn không hoàn toàn tốt, thì việc kiểm tra các ngoại lệ cũng luôn tốt. Hầu hết thời gian có sự bất thường.

Nếu bạn có nhiều tính năng, giảm kích thước là phải. PCA khá hiệu quả cho việc đó.

Nếu bạn thiếu dữ liệu, bạn có thể sử dụng nội dung hoặc nội suy, nhưng nếu nhu cầu của bạn cho phép, trường hợp chiến thắng là sử dụng tính năng lọc cộng tác.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.