Nói một cách mô tả, tôi sẽ đưa ra "một mẫu dữ liệu được kiểm duyệt nếu một số quan sát trong đó diễn ra hoặc tạo thành các giá trị cực đoan của mẫu nhưng giá trị thực của chúng nằm ngoài phạm vi mẫu được quan sát". Nhưng điều này là hoàn toàn đơn giản.
Vì vậy, trước tiên hãy thảo luận về cách chúng tôi có thể kết luận rằng một bộ dữ liệu được kiểm duyệt, điều này sẽ tự nhiên dẫn chúng tôi thảo luận về các trường hợp được trình bày trong câu hỏi.
Giả sử chúng ta được cung cấp tập dữ liệu sau từ một biến ngẫu nhiên rời rạc , điều duy nhất chúng ta biết là nó không âm:X
{0,1,1,2,2,2,2,2,2,2}
Chúng ta có thể nói rằng tập dữ liệu được kiểm duyệt không? Chà, chúng ta có quyền nghĩ rằng nó có thể, nhưng nó không nhất thiết phải như vậy:
1) có thể có phạm vi { 0 , 1 , 2 } và phân phối xác suất { 0,1 , 0,1X{0,1,2} . Nếu đây thực sự là trường hợp, có vẻ như không có kiểm duyệt ở đây, chỉ là một mẫu "dự đoán" từ một biến ngẫu nhiên như vậy, với sự hỗ trợ ràng buộc và phân phối không đối xứng cao. {0.1,0.1,0.8}
2) Nhưng có thể trường hợp có phạm vi { 0 , 1 , . . . , 9 } với phân phối xác suất đồng đều { 0,1 , 0,1 , . . .0 .1 } , trong trường hợp đó mẫu dữ liệu của chúng tôi rất có thể bị kiểm duyệt. X{0,1,...,9}{0.1,0.1,...0.1}
Làm thế nào chúng ta có thể nói? Chúng tôi không thể, trừ khi chúng tôi có kiến thức hoặc thông tin trước đó , điều đó sẽ cho phép chúng tôi tranh luận có lợi cho trường hợp này hoặc trường hợp khác. Có phải ba trường hợp được trình bày trong câu hỏi đại diện cho kiến thức trước về tác dụng của kiểm duyệt? Hãy xem nào:
Trường hợp A) mô tả một tình huống trong đó đối với một số quan sát, chúng tôi chỉ có thông tin định tính như "rất lớn", "rất nhỏ", v.v., dẫn đến việc chúng tôi gán cho quan sát một giá trị cực đoan. Lưu ý rằng chỉ đơn thuần là không biết giá trị nhận ra thực tế không biện minh cho việc gán một giá trị cực đoan. Vì vậy, chúng ta phải có một số thông tin cho ảnh hưởng của những quan sát này, giá trị của chúng vượt quá hoặc thấp hơn tất cả những thông tin được quan sát. Trong trường hợp này, phạm vi thực tế của biến ngẫu nhiên là không xác định, nhưng thông tin định tính của chúng tôi cho phép chúng tôi tạo một mẫu bị kiểm duyệt (đó là một cuộc thảo luận khác về lý do tại sao chúng tôi không bỏ qua các quan sát mà chúng tôi không có giá trị nhận ra thực tế ).
Trường hợp B) là không một trường hợp kiểm duyệt, nếu tôi hiểu nó một cách chính xác, mà đúng hơn là một trường hợp mẫu bị ô nhiễm: Thông tin của chúng tôi một tiên nghiệm cho chúng ta biết rằng giá trị tối đa của biến ngẫu nhiên không thể vượt quá (nói do một đạo luật về thể chất hoặc một luật xã hội - cho rằng đây là dữ liệu điểm từ hệ thống phân loại chỉ sử dụng các giá trị 1 , 2 , 3 ). Nhưng chúng tôi cũng đã quan sát giá trị 4 và giá trị 5 . Làm sao có thể? Sai lầm trong việc ghi dữ liệu. Nhưng trong trường hợp như vậy, chúng tôi không biết chắc chắn rằng 4 và 5 nên là tất cả 331,2,345453(Trên thực tế, nhìn vào bàn phím bên của máy tính, nhiều khả năng 'là 1 ' và 5 'là 2 ' s!). Bằng cách "sửa" theo bất kỳ cách nào mẫu, chúng tôi không biến nó thành một mẫu bị kiểm duyệt, bởi vì biến ngẫu nhiên không được phép nằm trong phạm vi được ghi ở vị trí đầu tiên (vì vậy không có xác suất đúng được gán cho các giá trị 4 và 5 ). 415245
Trường hợp C) đề cập đến một mẫu chung, trong đó chúng ta có một biến phụ thuộc và các yếu tố dự đoán. Ở đây, chúng ta có thể có một mẫu trong đó các giá trị của biến phụ thuộc được tập trung ở một hoặc cả hai cực trị, do cấu trúc của hiện tượng đang nghiên cứu: Trong ví dụ "giờ làm việc" thông thường, những người thất nghiệp không làm việc nhưng họ sẽ có đã làm việc (suy nghĩ cẩn thận: trường hợp này có thực sự nằm trong "định nghĩa" mô tả khi bắt đầu câu trả lời này không?). Vì vậy, bao gồm chúng trong hồi quy với số giờ ghi "0" được ghi. Ở một thái cực khác, số giờ làm việc tối đa có thể được lập luận để có thể đạt được, nói 16 / ngày, và có thể có những nhân viên sẵn sàng làm việc rất nhiều để được trả lương. Nhưng khung pháp lý không cho phép và vì vậy chúng tôi không tuân thủ "giờ làm việc" như vậy. Ở đây, chúng tôi đang cố gắng ước tính " hàm cung ứng lao động dự định " - và đối với biến này, mẫu được đặc trưng là bị kiểm duyệt.
Nhưng nếu chúng tôi tuyên bố rằng những gì chúng tôi muốn làm là ước tính " có hiện tượng thất nghiệp và khung pháp lý", mẫu sẽ không bị kiểm duyệt, vì nó sẽ phản ánh ảnh hưởng của hai khía cạnh này, một thứ mà chúng tôi muốn nó để làm
Vì vậy, chúng ta thấy rằng việc mô tả một mẫu dữ liệu là bị kiểm duyệt
a) có thể đến từ các tình huống khác nhau và
b) yêu cầu một số sự quan tâm
- thực tế là nó có thể bị nhầm lẫn với trường hợp cắt ngắn .