Tôi thường làm việc nhiều hơn về mặt ước tính hiệu quả / suy luận nguyên nhân của mọi thứ, nơi mọi người khá thoải mái với nhiều lần bị mất dữ liệu, nhưng hiện tại tôi đang làm việc trong một dự án nhiều hơn về mặt học máy.
Chúng tôi hy vọng sẽ có một số dữ liệu bị thiếu, bởi vì đó là dữ liệu y tế trong thế giới thực, luôn luôn như vậy.
Xu hướng của một số cộng tác viên là đi kèm với phân tích loại trường hợp hoàn chỉnh, trong đó chỉ các đối tượng có dữ liệu đầy đủ được sử dụng, nhưng điều này làm tôi hơi lo lắng, vì tôi cảm thấy như những mẫu dữ liệu bị thiếu có thể có tác động.
Là "thực hành tốt nhất" cho các nhiệm vụ học máy để sử dụng một số hình thức buộc tội? Nếu vậy, điều này có nên được thực hiện trước khi lựa chọn tính năng?