Việc cắt bỏ một biến bị kiểm duyệt


9

Tôi có một bộ dữ liệu y tế với khoảng 200 biến. Một trong những biến là một dấu hiệu sinh học (nồng độ của một loại enzyme cụ thể). Phân phối của nó là sai lệch và vấn đề là các giá trị trên một mức nhất định sẽ bị kiểm duyệt / cắt ở mức đó. Vì vậy, trong khi giá trị trung bình của biến là khoảng 10, bất kỳ giá trị nào lớn hơn 50 được ghi lại là 50.

Tôi muốn áp đặt các giá trị liên tục cho các giá trị bị kiểm duyệt đó. Hiện tại tôi đang sử dụng nhiều lần cắt ngang với gói chuột trong R, mặc dù các hệ thống khác có sẵn cho tôi và tôi sẵn sàng tiếp cận các phương pháp khác. Một suy nghĩ tôi đã có là mã hóa lại tất cả các giá trị bị kiểm duyệt bị thiếu và sau đó chạy các phần mềm. Nếu bất kỳ giá trị bị loại bỏ nào được kiểm duyệt ban đầu đều nằm dưới ngưỡng giới hạn, thì chúng sẽ được chỉ định là giá trị ngưỡng.

Tôi muốn biết ý kiến ​​về điều này, và / hoặc bất kỳ phương pháp nào tốt hơn để xử lý vấn đề này.


Biarker sẽ đóng vai trò gì trong các phân tích tiếp theo? Ví dụ, nó sẽ là một biến giải thích, hiệp phương sai hay biến phụ thuộc trong hồi quy? Có thể bạn có thể sử dụng một phương thức không yêu cầu giá trị. Bạn nên ưu tiên các phương pháp như vậy, vì nếu không, bạn đang tạo một WAG về hình dạng của đuôi phải bị kiểm duyệt, do - do độ lệch - có thể chứa một số giá trị có ảnh hưởng trong các phân tích.
whuber

@whuber, biomarker là một biến giải thích. Thực tiễn thông thường trong lĩnh vực này là phân biệt nó thành 0-1, 1-10, 10+ hoặc đôi khi chỉ là 0-1 và 1+ (tức là tăng hoặc không tăng). Tôi đã có ý tưởng bao gồm nó như là một biến giải thích liên tục. Mặc dù bộ dữ liệu có 200 biến, hướng dẫn lâm sàng và kinh nghiệm trước đó đề nghị sử dụng 10 trong số này trong mô hình cuối cùng, do đó tôi đã nghĩ đến việc đưa ra các giá trị> 50 bằng cách sử dụng một số biến khác.
Robert Long

Câu trả lời:


5

Bất kỳ phương pháp cắt cụt nào bao gồm nhiều lần cắt cụt đều là một cú đánh trong bóng tối nếu bạn không thể hiểu được cách thức dữ liệu trên 50 được phân phối. Vì bạn có 200 biến là bất kỳ trong số chúng có tương quan với dấu ấn sinh học? Nếu bạn có thể điều chỉnh hồi quy cho dấu ấn sinh học như là một hàm của hiệp phương sai, bạn có thể sử dụng mô hình đó để dự đoán các giá trị cho các giá trị bị cắt cụt. Bạn có thể áp dụng một lỗi cho dự đoán dựa trên phương sai dư trong mô hình để tạo ra nhiều lần cắt ngang theo cách đó. Nó sẽ hợp lý hơn. Tất nhiên, điều này giả định rằng bạn có thể tìm thấy một mô hình hợp lệ và phần dư có giá trị trung bình bằng không và phương sai không đổi. Bạn sẽ chỉ phù hợp với các giá trị dấu sinh học không cắt ngắn để xây dựng mô hình.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.