Kiểm duyệt phải và kiểm duyệt trái


10

Wikipedia đưa ra các định nghĩa sau:

Kiểm duyệt phải : một điểm dữ liệu cao hơn một giá trị nhất định nhưng không rõ là bao nhiêu.
Kiểm duyệt còn lại : một điểm dữ liệu nằm dưới một giá trị nhất định nhưng không rõ là bao nhiêu.

Trong các định nghĩa này, có nghĩa là gì:

  • "điểm dữ liệu"
  • "giá trị nhất định" và
  • "bao nhiêu"

Nói chung, kiểm duyệt phải và trái là gì?

Là tuyên bố dưới đây đúng:

"Trong kiểm duyệt phải, chúng tôi chỉ có giới hạn dưới cho giá trị bị kiểm duyệt."

Điều gì sẽ là tuyên bố tương tự cho kiểm duyệt trái?


Kiểm tra số liệu thống kê.stackexchange.com/questions/197628/ trên để tìm hiểu thêm về kiểm duyệt.
Tim

Câu trả lời:


14

Khi thẻ sinh tồn được sử dụng, tôi sẽ thêm một câu trả lời đưa ra một số ví dụ với hương vị phân tích sinh tồn.

Điểm dữ liệu

Theo một điểm dữ liệu, chúng tôi chỉ có nghĩa là một số quan sát, tức là kết quả của một hoặc nhiều biến. Chẳng hạn, chúng ta có thể có những điều sau đây trong một tập dữ liệu: người 1 trong nghiên cứu của chúng ta là nam và chết ở tuổi 58. Chúng ta có thể coi đó là điểm dữ liệu. Nhưng trong ví dụ của bạn, rõ ràng là điểm dữ liệu chỉ bao gồm kết quả của một biến, ví dụ 58.

Kiểm duyệt phải

Nếu chúng ta mô hình hóa thời gian để thất bại, có một lý do rõ ràng để kiểm duyệt, cụ thể là, chúng ta không nhất thiết phải có thời gian để chờ đợi tất cả các đối tượng thất bại. Nói rằng chúng tôi đang thử nghiệm tác dụng của vắc-xin cho trẻ em. Nếu chúng ta tiến hành một thử nghiệm ngẫu nhiên, những đối tượng cuối cùng của chúng ta sẽ chết từ một trăm năm trở lên kể từ bây giờ. Điều này tự nhiên giới thiệu kiểm duyệt, trong trường hợp này là kiểm duyệt, vì đôi khi chúng ta phải nói rằng "chúng ta không biết người này sẽ sống được bao lâu nữa, chúng ta chỉ biết rằng cô ấy vẫn còn sống". Kiểm duyệt phải cũng có thể xảy ra nếu những người trong thử nghiệm ngẫu nhiên bị mất theo dõi, ví dụ họ có thể muốn ngừng tham gia vào nghiên cứu hoặc chuyển đi. Đây là những ví dụ về kiểm duyệt phải, về cơ bản chúng tôi ' Tôi quan tâm đến tuổi thọ của các đối tượng của chúng tôi nhưng do hoàn cảnh thực tế, chúng tôi chỉ có những quan sát bị kiểm duyệt, có nghĩa là đối với một số đối tượng chúng tôi sẽ không bao giờ biết khi họ chết, chỉ đến một lúc nào đó (thời gian kiểm duyệt) họ vẫn còn sống. Do đó, chúng ta biết rằng đối với một cá nhân bị kiểm duyệt, điểm dữ liệu (thời gian chết) lớn hơn một giá trị nhất định (thời gian kiểm duyệt).

Kiểm duyệt trái

Như một ví dụ về kiểm duyệt trái, hãy xem xét những điều sau đây. Hãy nói rằng một số đội khỉ đầu chó luôn ngủ trên cây. Chúng tôi muốn ước tính vào thời gian nào vào buổi sáng họ đi xuống từ những cái cây và giả sử rằng họ xuống hàng ngày. Chúng tôi theo dõi họ trong một số ngày, tuy nhiên, chúng tôi thích ngủ, có nghĩa là một số ngày họ hạ xuống trước khi chúng tôi đến hiện trường. Nếu chúng tôi đến lúc 9 giờ sáng ngày và khỉ đầu chó đã xuống, chúng tôi có dữ liệu bị kiểm duyệt trái. Chúng tôi muốn biết khi nào họ hạ xuống, nhưng tất cả những gì chúng tôi có là giới hạn trên (9 giờ sáng), bởi vì chúng tôi biết rằng tại thời điểm chúng tôi đến, họ đã hạ xuống. Tương tự, bây giờ chúng ta biết rằng điểm dữ liệu (thời gian gốc vào ngày ) nhỏ hơn một giá trị nhất định (9. am).xxx

Ví dụ này được lấy từ

Andersen, PK, Borgan, Ø., Gill, RD và Keiding, N. (1993), Các mô hình thống kê dựa trên các quy trình đếm , chuỗi Springer trong Thống kê, Springer-Verlag, New York.

Cuốn sách này cung cấp một định nghĩa toán học về kiểm duyệt và có lẽ không phải là cuốn sách đầu tiên về phân tích sinh tồn mà người ta nên có. Tuy nhiên, nó cũng có một số ví dụ trực quan, như trên.


Nhưng, giả sử, một con khỉ đầu chó chưa hạ xuống khi chúng tôi đến nơi (9 giờ sáng, giá trị nhất định). Vì vậy, chúng tôi bắt đầu quan sát khi nào nó sẽ hạ xuống. Sau đó, chúng ta không có điểm dữ liệu (thời gian gốc) trên giá trị nhất định (9 giờ sáng)? Nhưng nó vẫn là dữ liệu bị kiểm duyệt trái. Có phải wikipedia đưa ra định nghĩa chung hơn?
ABC

1
Tôi giả định toàn bộ đội quân hạ xuống cùng một lúc, tất cả cùng nhau. Nhưng nó không tạo ra nhiều sự khác biệt. Nếu chúng ta đến sau khi hạ xuống, chúng ta chỉ biết giới hạn trên của thời gian gốc (cụ thể là thời gian đến của chúng ta), do đó điểm dữ liệu này (thời gian hạ xuống vào ngày cụ thể) sẽ bị kiểm duyệt. Nếu chúng tôi đến trước khi xuống, điểm dữ liệu đó sẽ không bị kiểm duyệt (trừ khi chúng tôi mệt mỏi vì phải chờ đợi và rời đi trước khi xuống, trong trường hợp đó chúng tôi có dữ liệu được kiểm duyệt đúng, giả sử rằng họ thực hiện xuống hàng ngày).
swmo

Một ví dụ khác về dữ liệu bị kiểm duyệt phải là dữ liệu khoảng thời gian mà chúng ta không biết nó bắt đầu. Điều này thường bị hiểu sai là dữ liệu được kiểm duyệt đúng (có một số ví dụ trên các diễn đàn và danh sách gửi thư với quan niệm sai lầm này).
drevicko 29/07/2015

4

Giả sử tôi sở hữu một quán bar nơi tôi có các ban nhạc chơi. Quán bar khá nhỏ, vì vậy chỉ có 150 người có thể xem một chương trình bất cứ lúc nào (đây là chìa khóa). Tôi bán vé cho các chương trình, vì vậy dữ liệu kế toán của tôi sẽ như thế này:

date     band               price   tickets_sold
10/01/14 Texas Instruments  $20     2
10/02/14 Unkind Donuts      $30     150
...
03/02/15 The Capybaras      $15     120

Một điểm dữ liệu chỉ là một hàng trong bảng này.

Giả sử biến tôi muốn xem xét là nhu cầu vé. Nhu cầu cho chương trình đầu tiên không được kiểm duyệt. Chỉ có hai người muốn xem Texas Cụ ở mức 20 đô la và 148 vé không được bán. Tôi biết chính xác nhu cầu ở mức 20 đô la : 2 vé đã bán.

Tuy nhiên, biến cầu trong kiểm duyệt ở hàng thứ hai vì chương trình đã bán hết. Tôi biết rằng ít nhất 150 người muốn xem Unkind Donuts với giá 30 đô la mỗi vé, nhưng tôi không biết bao nhiêu người đã quay lưng mà không có vé, vì vậy tôi không biết chính xác nhu cầu. Tất cả những gì tôi biết là giới hạn dưới của 150.

Bây giờ giả sử tôi muốn đo lường sự tham dự tại chương trình thứ ba thay thế. Chúng ta có thể đếm người ở cửa, nhưng vì lợi ích của ví dụ này, hãy giả sử rằng bouncer của tôi không giỏi về số học. Chúng tôi biết rằng một số người sẽ mua vé và sau đó không đến. Điều này có nghĩa là số người tham dự nhiều nhất là 120 vì đó là số lượng vé được bán. Đó là giới hạn trên về việc tham dự The Capybaras, bị kiểm duyệt trái.


1

Một quan niệm sai lầm phổ biến với kiểm duyệt trái là phân loại điểm dữ liệu trong khoảng thời gian mà bạn không biết nó bắt đầu. Nhiều người nghĩ rằng điều này bị kiểm duyệt trái, nhưng nó thực sự bị kiểm duyệt vì chúng ta có giới hạn thấp hơn về độ dài của khoảng thời gian.

Một ví dụ cụ thể có thể là dữ liệu lâm sàng về thời gian "foo-pox", thường là một bệnh không phải là bệnh nan y và chúng tôi quan tâm đến thời gian cần thiết để mọi người phục hồi. Các triệu chứng của foo-pox rất dễ quan sát (ví dụ: răng của bạn chuyển sang màu xanh lá cây). Hầu hết mọi người trong nghiên cứu của chúng tôi biết chính xác khi nào bắt đầu và khi nào nó kết thúc.

Ví dụ cổ điển về dữ liệu được kiểm duyệt đúng trong loại nghiên cứu này là những đối tượng vẫn còn mắc bệnh foo-pox khi kết thúc nghiên cứu hoặc vẫn bị foo-pox khi họ biến mất ("mất theo dõi") trong nghiên cứu (giả sử chúng ta biết ngày bắt đầu bệnh cho những người này). Đối với những người này, chúng tôi có giới hạn thấp hơn về thời lượng, do đó dữ liệu của họ được kiểm duyệt đúng . Đây là "kiểm duyệt đúng" theo trực giác vì chúng ta không biết kết thúc bên phải của khoảng thời gian.

Vấn đề là khi chúng ta không biết ngày bắt đầu của khoảng thời gian (những người sống một mình và không có gương, vì vậy đừng biết khi nào răng của họ chuyển sang màu xanh lá cây). Là những trái hay phải bị kiểm duyệt? Nhiều người lầm tưởng rằng phần cuối bên trái của khoảng thời gian là không xác định, do đó bị kiểm duyệt. Đây là một kết quả đáng tiếc của thuật ngữ, mà tôi đoán được phát triển trong trường hợp không có loại kiểm duyệt này. Đối với những người này, chúng tôi có giới hạn thấp hơn về khoảng thời gian (chúng tôi biết rằng họ đã bị bệnh ít nhất là từ khi người hàng xóm đề cập đến răng xanh của họ cho đến khi họ khỏe lại hoặc nghiên cứu kết thúc và họ vẫn bị bệnh), vì vậy dữ liệu của họ là kiểm duyệt đúng .


2
Tôi nghĩ rằng câu trả lời của bạn là một chút bối rối. Ban đầu, bạn nói về việc kiểm duyệt một khoảng thời gian, sau đó về việc kiểm duyệt một khoảng thời gian (một số duy nhất). Trong đoạn cuối, bạn cũng có thể nói rõ rằng dữ liệu là các khoảng thời gian từ khi bắt đầu foo-pox cho đến khi chết. Trong trường hợp đó, bạn sẽ có các khoảng kiểm duyệt trái trong ví dụ của mình, vì bạn không nhất thiết phải biết chính xác thời gian khởi phát, chỉ có giới hạn trên. Tương tự như vậy, bạn có thể (như bạn làm) nhìn vào thời lượng của foo-pox, trong trường hợp đó bạn có thể bị ràng buộc thấp hơn về thời lượng, do đó có kiểm duyệt đúng.
swmo

Làm thế nào bạn sẽ mã này trong dữ liệu sau đó, ví dụ trong một đối tượng R Surv? Sự kiện của một bản ghi bị kiểm duyệt bên phải là "sự thuyên giảm" hay "sự kiện xảy ra", trong khi sự kiện của một bản ghi bị kiểm duyệt bên phải là "bị kiểm duyệt phải / không có sự xuất hiện / không có sự thuyên giảm"? Ngoài ra, dường như tỷ lệ nguy hiểm phải khác nhau giữa hai loại sự kiện cắt ngắn phải, vì những điều này nên được mô hình hóa như là một chức năng từ khi bắt đầu bệnh? Loại mô hình nào sẽ xử lý việc này?
Allen Wang

@ ALLenWang Sợ tôi không quá quen thuộc với các đối tượng R Surv, nhưng tôi hy vọng thuật ngữ của chúng là nhất quán, vì vậy nếu bạn cẩn thận để hiểu và làm theo nó, bạn sẽ ổn thôi. Đối với tỷ lệ nguy hiểm, không có sự khác biệt, trong cả hai trường hợp, bạn chỉ có giới hạn thấp hơn về thời gian sự kiện.
drevicko
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.