Tôi có một bộ dữ liệu y tế với khoảng 200 biến. Một trong những biến là một dấu hiệu sinh học (nồng độ của một loại enzyme cụ thể). Phân phối của nó là sai lệch và vấn đề là các giá trị trên một mức nhất định sẽ bị kiểm duyệt / cắt ở mức đó. Vì vậy, trong khi giá trị trung bình của biến là khoảng 10, bất kỳ giá trị nào lớn hơn 50 được ghi lại là 50.
Tôi muốn áp đặt các giá trị liên tục cho các giá trị bị kiểm duyệt đó. Hiện tại tôi đang sử dụng nhiều lần cắt ngang với gói chuột trong R, mặc dù các hệ thống khác có sẵn cho tôi và tôi sẵn sàng tiếp cận các phương pháp khác. Một suy nghĩ tôi đã có là mã hóa lại tất cả các giá trị bị kiểm duyệt bị thiếu và sau đó chạy các phần mềm. Nếu bất kỳ giá trị bị loại bỏ nào được kiểm duyệt ban đầu đều nằm dưới ngưỡng giới hạn, thì chúng sẽ được chỉ định là giá trị ngưỡng.
Tôi muốn biết ý kiến về điều này, và / hoặc bất kỳ phương pháp nào tốt hơn để xử lý vấn đề này.