Kiểm duyệt thường được mô tả so với cắt ngắn . Mô tả hay về hai quá trình được cung cấp bởi Gelman et al (2005, p. 235):
Dữ liệu bị cắt khác với dữ liệu bị kiểm duyệt mà không có số lượng quan sát nào ngoài điểm cắt ngắn có sẵn. Kiểm duyệt các
giá trị của các quan sát ngoài điểm cắt bị mất, nhưng số lượng của chúng được quan sát.
Kiểm duyệt hoặc cắt bớt có thể xảy ra đối với các giá trị trên một số cấp độ (kiểm duyệt phải), dưới một số cấp độ (kiểm duyệt trái) hoặc cả hai.
2.02.0
Ví dụ trực quan về kiểm duyệt là bạn hỏi người trả lời về tuổi của họ, nhưng ghi lại nó chỉ tối đa một số giá trị và tất cả các độ tuổi trên giá trị này, giả sử là 60 tuổi, được ghi là "60+". Điều này dẫn đến việc có thông tin chính xác cho các giá trị không bị kiểm duyệt và không có thông tin về các giá trị bị kiểm duyệt.
Không quá điển hình, ví dụ thực tế về kiểm duyệt đã được quan sát trong điểm thi matura của Ba Lan thu hút khá nhiều sự chú ý trên internet . Kỳ thi được thực hiện vào cuối năm trung học và học sinh phải vượt qua nó để có thể đăng ký vào giáo dục đại học. Bạn có thể đoán từ cốt truyện bên dưới số điểm tối thiểu mà học sinh cần có để vượt qua kỳ thi là bao nhiêu không? Không có gì đáng ngạc nhiên, "khoảng trống" trong phân phối bình thường có thể dễ dàng "lấp đầy" nếu bạn lấy một phần thích hợp của điểm số được đại diện ngay phía trên giới hạn kiểm duyệt.
Trong trường hợp phân tích sinh tồn
Kiểm duyệt xảy ra khi chúng tôi có một số thông tin về thời gian sống sót của từng cá nhân, nhưng chúng tôi không biết chính xác thời gian tồn tại
(Kleinbaum và Klein, 2005, trang 5). Ví dụ, bạn điều trị cho bệnh nhân bằng một số loại thuốc và quan sát họ cho đến khi kết thúc nghiên cứu của bạn, nhưng bạn không biết điều gì xảy ra với họ sau khi kết thúc nghiên cứu (có bất kỳ sự tái phát hoặc tác dụng phụ nào không?), Điều duy nhất bạn biết là họ " sống sót " ít nhất là cho đến khi kết thúc nghiên cứu.
Dưới đây bạn có thể tìm thấy ví dụ về dữ liệu được tạo từ phân phối Weibull được mô hình hóa bằng công cụ ước tính Kaplan Nhận Meier. Mô hình đánh dấu đường cong màu xanh được ước tính trên tập dữ liệu đầy đủ, trong ô giữa bạn có thể thấy mẫu bị kiểm duyệt và mô hình ước tính trên dữ liệu bị kiểm duyệt (đường cong màu đỏ), bên phải bạn thấy mẫu bị cắt cụt và mô hình ước tính trên mẫu đó (đường cong màu đỏ). Như bạn có thể thấy, dữ liệu bị thiếu (cắt ngắn) có tác động đáng kể đến các ước tính, nhưng kiểm duyệt có thể được quản lý dễ dàng bằng các mô hình phân tích sinh tồn tiêu chuẩn.
Điều này không có nghĩa là bạn không thể phân tích các mẫu bị cắt bớt, nhưng trong những trường hợp như vậy, bạn phải sử dụng các mô hình cho dữ liệu bị thiếu để cố gắng "đoán" thông tin chưa biết.
Kleinbaum, DG và Klein, M. (2005). Phân tích sinh tồn: Một văn bản tự học. Mùa xuân.
Gelman, A., Carlin, JB, Stern, HS và Rubin, DB (2005). Phân tích dữ liệu Bayes. Chapman & Hội trường / CRC.