Sự khác biệt giữa dữ liệu bị thiếu và dữ liệu thưa thớt trong thuật toán học máy


20

Sự khác biệt chính giữa dữ liệu thưa và dữ liệu bị thiếu là gì? Và nó ảnh hưởng đến việc học máy như thế nào? Cụ thể hơn, những gì ảnh hưởng đến dữ liệu thưa thớt và dữ liệu bị thiếu đối với các thuật toán phân loại và loại hồi quy (dự đoán số) loại thuật toán. Tôi đang nói về một tình huống, trong đó tỷ lệ phần trăm dữ liệu bị thiếu là đáng kể và chúng ta không thể bỏ các hàng chứa dữ liệu bị thiếu.


4
Dữ liệu thưa có nghĩa là nhiều giá trị bằng 0, nhưng bạn biết rằng chúng bằng không. Thiếu dữ liệu có nghĩa là bạn không biết một số hoặc nhiều giá trị là gì.
Anna SdTC

Cảm ơn. Đó là những gì tôi cũng nghĩ, nhưng muốn xác nhận. Ngoài ra, như đã đề cập trong câu hỏi, muốn biết làm thế nào, nói chung, các bộ dữ liệu loại này được xử lý trong các vấn đề về máy học ..
mệt mỏi và buồn chán dev

1
Tôi nghĩ rằng câu hỏi của bạn là một chút mơ hồ. "Học máy" bao gồm một loạt các phương pháp và công cụ, vì vậy câu trả lời phụ thuộc vào những gì bạn có hoặc những gì bạn muốn làm. Tại đây, họ thảo luận về một số phương pháp xử lý dữ liệu bị thiếu: stats.stackexchange.com/questions/103500/iêu
Anna SdTC

Cảm ơn. Tôi biết nhiều loại công cụ và loại thuật toán ml. Nhưng muốn biết nếu có bất kỳ phương pháp tiếp cận chung.
mệt mỏi và buồn chán dev

Câu trả lời:


16

Để dễ hiểu, tôi sẽ mô tả điều này bằng một ví dụ. Giả sử bạn đang thu thập dữ liệu từ một thiết bị có 12 cảm biến. Và bạn đã thu thập dữ liệu trong 10 ngày.

Dữ liệu bạn đã thu thập như sau: nhập mô tả hình ảnh ở đây

Đây được gọi là dữ liệu thưa thớt vì hầu hết các đầu ra cảm biến đều bằng không. Điều đó có nghĩa là những cảm biến đó đang hoạt động đúng nhưng số đọc thực tế bằng không. Mặc dù ma trận này có dữ liệu chiều cao (12 trục) nhưng có thể nói rằng nó chứa ít thông tin hơn.

Giả sử 2 cảm biến của thiết bị của bạn bị trục trặc.
Sau đó, dữ liệu của bạn sẽ như sau:nhập mô tả hình ảnh ở đây

Trong trường hợp này, bạn có thể thấy rằng bạn không thể sử dụng dữ liệu từ Sensor1 và Sensor6. Hoặc bạn phải điền dữ liệu thủ công mà không ảnh hưởng đến kết quả hoặc bạn phải làm lại thử nghiệm.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.