Chính xác dữ liệu bị kiểm duyệt là gì?


14

Tôi đã đọc các mô tả khác nhau về dữ liệu bị kiểm duyệt:

A) Như đã giải thích trong chủ đề này , dữ liệu không đủ điều kiện bên dưới hoặc trên một ngưỡng nhất định được kiểm duyệt. Không đủ điều kiện có nghĩa là dữ liệu ở trên hoặc dưới một ngưỡng nhất định nhưng chúng tôi không biết giá trị chính xác. Dữ liệu sau đó được đánh dấu ở giá trị ngưỡng thấp hoặc cao trong mô hình hồi quy. Nó phù hợp với mô tả trong bản trình bày này , điều mà tôi đã tìm thấy rất rõ ràng (slide thứ 2 trên trang đầu tiên). Nói cách khác, Y được giới hạn ở mức tối thiểu, giá trị tối đa hoặc cả hai vì chúng ta không biết giá trị thực bên ngoài phạm vi đó.

B) Một người bạn nói với tôi rằng chúng ta có thể áp dụng mô hình dữ liệu bị kiểm duyệt đối với các quan sát Y chưa biết một phần , miễn là chúng ta có ít nhất một số thông tin giới hạn về kết quả Y i chưa biết . Ví dụ: chúng tôi muốn ước tính giá cuối cùng cho một phiên đấu giá im lặng và đấu giá mở dựa trên một số tiêu chí định tính (loại hàng hóa, quốc gia, sự giàu có của nhà thầu, v.v.). Mặc dù đối với các phiên đấu giá mở, chúng tôi biết tất cả giá cuối cùng , đối với các phiên đấu giá im lặng, chúng tôi chỉ biết giá thầu đầu tiên (giả sử, $ 1.000) chứ không phải giá cuối cùng. Tôi đã nói rằng trong trường hợp này dữ liệu được kiểm duyệt từ phía trên và nên áp dụng mô hình hồi quy kiểm duyệt.YYiYi

C) Cuối cùng, có định nghĩa được đưa ra bởi Wikipedia trong đó bị thiếu hoàn toàn nhưng các dự đoán có sẵn. Tôi không chắc ví dụ này khác với dữ liệu bị cắt như thế nào.Y

Vì vậy, chính xác những gì là dữ liệu bị kiểm duyệt?


6
Bài viết Wikipedia có liên quan hơn là tại en.wikipedia.org/wiki/Censoring_%28statistic%29 . Mặc dù không toàn diện, nhưng ít nhất nó mô tả kiểm duyệt Loại I và Loại II và thừa nhận kiểm duyệt giữa chừng cùng với kiểm duyệt trái và phải.
whuber

Câu trả lời:


8

Hãy xem xét các dữ liệu sau đây về kết quả y và hiệp phương trình x :

user y       x   
1    10      2 
2   (-∞,5]   3 
3   [4,+∞)   5   
4   [8,9]    7
5     .      .

Đối với người dùng 1, chúng tôi có dữ liệu đầy đủ. Đối với những người khác, chúng tôi có dữ liệu không đầy đủ. Người dùng 2, 3 và 4 đều bị kiểm duyệt: kết quả tương ứng với các giá trị đã biết của hiệp phương sai không được quan sát hoặc không được quan sát chính xác (trái, phải, và kiểm duyệt giữa chừng). Đôi khi đây là một tạo tác của những cân nhắc về quyền riêng tư trong thiết kế khảo sát. Trong những lần khác, nó xảy ra vì những lý do khác. Chẳng hạn, chúng tôi không quan sát bất kỳ mức lương nào dưới mức lương tối thiểu hoặc nhu cầu thực tế cho vé buổi hòa nhạc trên khả năng của đấu trường.

Người dùng 5 bị cắt ngắn: cả kết quả và hiệp phương sai đều bị thiếu. Điều này thường xảy ra bởi vì chúng tôi chỉ thu thập dữ liệu về những người đã làm một cái gì đó. Chẳng hạn, chúng tôi chỉ khảo sát những người đã mua thứ gì đó ( ), vì vậy chúng tôi loại trừ bất kỳ ai có y = 0 cùng với x s của họ. Chúng tôi thậm chí có thể không có một hàng cho loại người dùng này trong dữ liệu ngoài, mặc dù chúng tôi biết họ tồn tại bởi vì chúng tôi biết quy tắc được sử dụng để tạo mẫu của chúng tôi. Một ví dụ khác là cắt ngắn ngẫu nhiên : chúng tôi chỉ quan sát đề nghị lương cho những người trong lực lượng lao động, bởi vì chúng tôi cho rằng đề nghị lương là tiền lương khi bạn đang làm việc. Việc cắt ngắn là ngẫu nhiên vì nó không phụ thuộc vào yy>0y=0xy, nhưng trên một biến khác.

Nói tóm lại, cắt ngắn hàm ý mất thông tin lớn hơn kiểm duyệt (điểm A & B). Cả hai loại "thiếu" này đều có hệ thống.

Làm việc với loại dữ liệu này thường bao gồm việc đưa ra một giả định phân phối mạnh về lỗi và sửa đổi khả năng tính đến điều này. Phương pháp bán tham số linh hoạt hơn cũng có thể. Điều này là ngầm định trong quan điểm của bạn B.


2
Hai khía cạnh của câu trả lời này làm tôi bối rối. Đầu tiên, các giá trị hoàn toàn bị thiếu không nhất thiết phản ánh sự cắt ngắn. Thứ hai, cách kiểm duyệt ("ngẫu nhiên" so với "thông tin") thường quan trọng như thực tế kiểm duyệt, chỉ ra rằng có nhiều kiểm duyệt hơn là chỉ ghi dữ liệu có giá trị giữa các lần.
whuber

Đây là một ví dụ rất tốt. Có nghĩa là "giới hạn kiểm duyệt" khác nhau có thể được áp dụng cho mỗi y ? Làm thế nào để chúng ta xây dựng mô hình trong trường hợp này? Điều này sẽ xác nhận tuyên bố bạn bè của tôi trong B).
Robert Kubrick

1
Nếu bạn sẵn sàng nhận các lỗi đồng nhất, phân phối bình thường, khả năng có thể được viết như thế này và bạn có thể sử dụng MLE với các ngưỡng kiểm duyệt dành riêng cho quan sát.
Dimitriy V. Masterov

3
@Peter Không phải là (phải) kiểm duyệt? Cắt ngắn sẽ xảy ra khi tất cả những người như vậy được loại trừ và không được tính trong mẫu. Xem en.wikipedia.org/wiki/Truncation_(statistic) .
whuber

1
@Peter Điều khó hiểu là bạn viết "thì chúng tôi biết rằng chỉ số BMI của người đó trên 30": làm thế nào bạn có thể đề cập đến ai đó thậm chí không có trong mẫu của bạn ("không được tính")? Một quan sát của mẫu "BMI> 30" đang kiểm duyệt trong khi loại trừ hoàn toàn tất cả các quan sát đó khỏi phân tích của bạn, ngay cả khi chúng có thể tồn tại trong dân số, là cắt ngắn. Trong trường hợp sau, tất cả những gì bạn có thể nói là "những người có BMI trên 30 đã bị loại khỏi mẫu".
whuber

9

Nói một cách mô tả, tôi sẽ đưa ra "một mẫu dữ liệu được kiểm duyệt nếu một số quan sát trong đó diễn ra hoặc tạo thành các giá trị cực đoan của mẫu nhưng giá trị thực của chúng nằm ngoài phạm vi mẫu được quan sát". Nhưng điều này là hoàn toàn đơn giản.

Vì vậy, trước tiên hãy thảo luận về cách chúng tôi có thể kết luận rằng một bộ dữ liệu được kiểm duyệt, điều này sẽ tự nhiên dẫn chúng tôi thảo luận về các trường hợp được trình bày trong câu hỏi.

Giả sử chúng ta được cung cấp tập dữ liệu sau từ một biến ngẫu nhiên rời rạc , điều duy nhất chúng ta biết là nó không âm:X

{0,1,1,2,2,2,2,2,2,2}

Chúng ta có thể nói rằng tập dữ liệu được kiểm duyệt không? Chà, chúng ta có quyền nghĩ rằng nó có thể, nhưng nó không nhất thiết phải như vậy:

1) có thể có phạm vi { 0 , 1 , 2 } và phân phối xác suất { 0,1 , 0,1X{0,1,2} . Nếu đây thực sự là trường hợp, có vẻ như không có kiểm duyệt ở đây, chỉ là một mẫu "dự đoán" từ một biến ngẫu nhiên như vậy, với sự hỗ trợ ràng buộc và phân phối không đối xứng cao. {0.1,0.1,0.8}

2) Nhưng có thể trường hợp có phạm vi { 0 , 1 , . . . , 9 } với phân phối xác suất đồng đều { 0,1 , 0,1 , . . .0 .1 } , trong trường hợp đó mẫu dữ liệu của chúng tôi rất có thể bị kiểm duyệt. X{0,1,...,9}{0.1,0.1,...0.1}

Làm thế nào chúng ta có thể nói? Chúng tôi không thể, trừ khi chúng tôi có kiến ​​thức hoặc thông tin trước đó , điều đó sẽ cho phép chúng tôi tranh luận có lợi cho trường hợp này hoặc trường hợp khác. Có phải ba trường hợp được trình bày trong câu hỏi đại diện cho kiến ​​thức trước về tác dụng của kiểm duyệt? Hãy xem nào:

Trường hợp A) mô tả một tình huống trong đó đối với một số quan sát, chúng tôi chỉ có thông tin định tính như "rất lớn", "rất nhỏ", v.v., dẫn đến việc chúng tôi gán cho quan sát một giá trị cực đoan. Lưu ý rằng chỉ đơn thuần là không biết giá trị nhận ra thực tế không biện minh cho việc gán một giá trị cực đoan. Vì vậy, chúng ta phải có một số thông tin cho ảnh hưởng của những quan sát này, giá trị của chúng vượt quá hoặc thấp hơn tất cả những thông tin được quan sát. Trong trường hợp này, phạm vi thực tế của biến ngẫu nhiên là không xác định, nhưng thông tin định tính của chúng tôi cho phép chúng tôi tạo một mẫu bị kiểm duyệt (đó là một cuộc thảo luận khác về lý do tại sao chúng tôi không bỏ qua các quan sát mà chúng tôi không có giá trị nhận ra thực tế ).

Trường hợp B)không một trường hợp kiểm duyệt, nếu tôi hiểu nó một cách chính xác, mà đúng hơn là một trường hợp mẫu bị ô nhiễm: Thông tin của chúng tôi một tiên nghiệm cho chúng ta biết rằng giá trị tối đa của biến ngẫu nhiên không thể vượt quá (nói do một đạo luật về thể chất hoặc một luật xã hội - cho rằng đây là dữ liệu điểm từ hệ thống phân loại chỉ sử dụng các giá trị 1 , 2 , 3 ). Nhưng chúng tôi cũng đã quan sát giá trị 4 và giá trị 5 . Làm sao có thể? Sai lầm trong việc ghi dữ liệu. Nhưng trong trường hợp như vậy, chúng tôi không biết chắc chắn rằng 45 nên là tất cả 331,2,345453(Trên thực tế, nhìn vào bàn phím bên của máy tính, nhiều khả năng 'là 1 ' và 5 'là 2 ' s!). Bằng cách "sửa" theo bất kỳ cách nào mẫu, chúng tôi không biến nó thành một mẫu bị kiểm duyệt, bởi vì biến ngẫu nhiên không được phép nằm trong phạm vi được ghi ở vị trí đầu tiên (vì vậy không có xác suất đúng được gán cho các giá trị 45 ). 415245

Trường hợp C) đề cập đến một mẫu chung, trong đó chúng ta có một biến phụ thuộc và các yếu tố dự đoán. Ở đây, chúng ta có thể có một mẫu trong đó các giá trị của biến phụ thuộc được tập trung ở một hoặc cả hai cực trị, do cấu trúc của hiện tượng đang nghiên cứu: Trong ví dụ "giờ làm việc" thông thường, những người thất nghiệp không làm việc nhưng họ sẽ có đã làm việc (suy nghĩ cẩn thận: trường hợp này có thực sự nằm trong "định nghĩa" mô tả khi bắt đầu câu trả lời này không?). Vì vậy, bao gồm chúng trong hồi quy với số giờ ghi "0" được ghi. Ở một thái cực khác, số giờ làm việc tối đa có thể được lập luận để có thể đạt được, nói 16 / ngày, và có thể có những nhân viên sẵn sàng làm việc rất nhiều để được trả lương. Nhưng khung pháp lý không cho phép và vì vậy chúng tôi không tuân thủ "giờ làm việc" như vậy. Ở đây, chúng tôi đang cố gắng ước tính " hàm cung ứng lao động dự định " - và đối với biến này, mẫu được đặc trưng là bị kiểm duyệt.
Nhưng nếu chúng tôi tuyên bố rằng những gì chúng tôi muốn làm là ước tính " hiện tượng thất nghiệp và khung pháp lý", mẫu sẽ không bị kiểm duyệt, vì nó sẽ phản ánh ảnh hưởng của hai khía cạnh này, một thứ mà chúng tôi muốn nó để làm

Vì vậy, chúng ta thấy rằng việc mô tả một mẫu dữ liệu là bị kiểm duyệt
a) có thể đến từ các tình huống khác nhau và
b) yêu cầu một số sự quan tâm
- thực tế là nó có thể bị nhầm lẫn với trường hợp cắt ngắn .


6
Đây dường như là một quan điểm kinh tế lượng. Lưu ý rằng thông thường trong nghiên cứu y sinh học có thời lượng (có thể là sống sót theo nghĩa đen) như một phản ứng, và để bệnh nhân bị kiểm duyệt do không trải qua sự kiện vào cuối thời gian quan sát. Nhưng cũng có những bệnh nhân bỏ học hoặc bị mất để theo dõi trong suốt thời gian quan sát. (Có lẽ họ đã chuyển đi và mất liên lạc.) Chúng ta có thể biết rằng thời gian sống sót là> lần liên lạc cuối cùng, nhưng có thể ngắn hơn thời gian kết thúc quan sát.
gung - Phục hồi Monica

Trường hợp B không cho dữ liệu sai hoặc bị ô nhiễm. Giả sử chúng tôi muốn ước tính giá cuối cùng của một phiên đấu giá im lặng và đấu giá mở dựa trên một số tiêu chí định tính (loại hàng hóa, quốc gia, sự giàu có của nhà thầu, ...). Đối với các phiên đấu giá im lặng, chúng tôi chỉ biết giá thầu đầu tiên (giả sử là $ 1.000) chứ không phải giá cuối cùng. Tôi được cho biết chúng ta có thể sử dụng dữ liệu đấu giá im lặng bằng cách sử dụng một số hình thức mô hình kiểm duyệt.
Robert Kubrick

1
@gung đây chắc chắn là một cách tiếp cận kinh tế lượng, đưa ra người đã viết câu trả lời!
Alecos Papadopoulos

1
@RobertKunrick Những gì bạn mô tả không khớp với trường hợp B. Cách mô tả Trường hợp B, chúng tôi quan sát một loạt các giá trị, và sau đó chúng tôi được thông báo rằng một số giá trị quan sát được trong thực tế là không thể. Làm thế nào mà phù hợp với ví dụ đấu giá?
Alecos Papadopoulos

Xin đừng coi đó là một lời chỉ trích, @AlecosPapadopoulos. Tôi không nghĩ có gì không đúng. Tôi chỉ muốn chỉ ra rằng các thuật ngữ được sử dụng khác nhau trong các lĩnh vực khác nhau và đây không phải là quy ước là stat / biuler.
gung - Phục hồi Monica

2

ZiZi=ziZiaiaiAiAiZZiAiAiZiAiI(ZiA)AAi). Uninformative censoring of Zi, for example, then means that Ai is independent of Zi.

This is a little heuristic and sloppy. We should probably also require that the distribution of [ZiZiai] is non-degenerate to consider Zi censored. We also might note that, as defined, this is a generalization of missing data where for Zi=(Xi,Yi) one might say Yi is missing if ai={x}×Y where Y is the sample space of Y and say Zi is missing if ai=Z. When one says "Zi is censored", if they are following my definition, what they usually mean is "Zi is censored, but is not missing".


1

It's important to distinguish censored versus truncated as well as missing data.

Censoring applies specifically to the issue of survival analysis and time-to-event outcomes wherein the event at hand is assumed to have occurred at some time past the point at which you stopped observing that individual. An example is men-who-have-sex-with-men (MSM) and the risk of incident HIV in a prospective study who move and cease contact with study coordinators.

Truncation applies to a continuous variable that evaluates to a specific point at which the actual value is known to be either greater than or less than that point. An example is the monitoring of subjects with HIV and the development of full blown AIDS, CD4 cell counts falling below 300 are evaluated to the lower-limit-of-detection 300.

Lastly, missing data are data that have actual values that are not observed in any sense. Censored data are not missing time-to-event data nor are they truncated.


1
There's another use of "truncation": to describe a data-generating process where observations above/below cut-offs are unobtainable. A classic example involves counting the no.eggs found in the nests of a particular bird species, where the species can only be identified from the egg; empty nests could be from any species so the no. zeroes is unknown. If the no. eggs follows a Poisson distribution, the egg counts from non-empty nests follow a truncated Poisson. So truncation produces missing data according to a specific well defined mechanism.
Scortchi - Reinstate Monica

1
... Your cell count data are indeed censored according to many people's understanding of the term, which is not restricted to time-to-event measurements, because you know everything about each subject except how far below 300 his cell count is; "truncation" here (alternatively "Winsorization") describes the method of analysis, viz the treatment of values below 300 as if they were equal to 300.
Scortchi - Reinstate Monica

A clear reference on the survival analysis concept of censoring: itl.nist.gov/div898/handbook/apr/section1/apr131.htm.
Eric O Lebigot

-1
  1. Censored: This is a term used to indicate that the period of observation was cut off before the event of interest occurred. So ''censored data'' indicate that the period of a particular event as not or never occurred

3
Welcome to the site. If this is copied from some source, please cite the source.
gung - Reinstate Monica

3
Censoring applies to much more than time-dependent observations. For instance, chemical concentrations measurements that are below the limit of detection are censored, too.
whuber

@whuber: May I offer a friendly amendment to that observation. The chemical concentrations that fall below the limit of detection are indeed censored, but since they cannot possibly be negative, analyses should consider them as truncated at zero. My own understanding of the truncation-censoring distinction is that truncation applies to the range of parameters that are possible for the underlying distribution.
DWin

@DWin Thank you for that thoughtful clarification. I can only agree with the first point. In the great majority of datasets I have analyzed, though, it was necessary to re-express concentrations as logarithms--and there the distinction disappears. In other datasets where background has been subtracted (such as radiological measurements), there is no definite left endpoint, either. Your second point strikes me as unusual: I have never seen "truncation" used to refer to creating a subset of a distribution family.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.