Sự khác biệt giữa kiểm duyệt và cắt ngắn là gì?


30

Trong cuốn sách Các mô hình và phương pháp thống kê dữ liệu trọn đời , nó được viết:

Kiểm duyệt: Khi một quan sát không đầy đủ do một số nguyên nhân ngẫu nhiên.
Cắt ngắn: Khi bản chất không đầy đủ của quan sát là do một quá trình lựa chọn có hệ thống vốn có của thiết kế nghiên cứu.

"Quá trình lựa chọn có hệ thống vốn có của thiết kế nghiên cứu" có nghĩa là gì trong định nghĩa cắt ngắn?

Sự khác biệt giữa kiểm duyệt và cắt ngắn là gì?


3
Hãy xem câu trả lời ở đây .
Dimitriy V. Masterov

3
Kiểm duyệt: "Chúng tôi đã có một quan sát ở khu vực đó ở đâu đó nhưng chúng tôi không biết đó là gì". Cắt ngắn: "Quan sát? Quan sát gì?"
Glen_b -Reinstate Monica

Định nghĩa của bạn được trích dẫn từ đâu?
Glen_b -Reinstate Monica

1
@Glen_b Tôi đã chỉnh sửa câu hỏi của mình.
ABC

Câu trả lời:


57

Các định nghĩa khác nhau, và hai thuật ngữ đôi khi được sử dụng thay thế cho nhau. Tôi sẽ cố gắng giải thích các cách sử dụng phổ biến nhất bằng cách sử dụng bộ dữ liệu sau:

11,25245

Kiểm duyệt : một số quan sát sẽ được kiểm duyệt, có nghĩa là chúng tôi chỉ biết rằng chúng ở dưới (hoặc trên) một số ràng buộc. Điều này có thể xảy ra nếu chúng ta đo nồng độ của một hóa chất trong mẫu nước. Nếu nồng độ quá thấp, thiết bị thí nghiệm không thể phát hiện sự hiện diện của hóa chất. Nó vẫn có thể có mặt, vì vậy chúng tôi chỉ biết rằng nồng độ nằm dưới giới hạn phát hiện của phòng thí nghiệm.

Nếu giới hạn phát hiện là 1,5, do đó các quan sát nằm dưới giới hạn này được kiểm duyệt, bộ dữ liệu mẫu của chúng tôi sẽ trở thành: nghĩa là, chúng ta không biết các giá trị thực tế của hai quan sát đầu tiên, nhưng chỉ có điều chúng nhỏ hơn 1,5.

<1,5<1,5245,

Cắt ngắn : quá trình tạo dữ liệu sao cho chỉ có thể quan sát các kết quả ở trên (hoặc bên dưới) giới hạn cắt ngắn. Ví dụ, điều này có thể xảy ra nếu các phép đo được thực hiện bằng máy dò chỉ được kích hoạt nếu tín hiệu mà nó phát hiện vượt quá giới hạn nhất định. Có thể có nhiều tín hiệu đến yếu, nhưng chúng ta không bao giờ có thể biết được bằng cách sử dụng bộ dò này.

Nếu giới hạn cắt là 1,5, tập dữ liệu mẫu của chúng tôi sẽ trở thành và chúng tôi sẽ không biết rằng trên thực tế có hai tín hiệu không được ghi lại.

245

Vì vậy, về việc sử dụng các thuật ngữ này, "bị kiểm duyệt" là sai lệch nếu chúng ta nghĩ về mặt sử dụng phi kỹ thuật của từ này? tức là theo nghĩa thống kê này, nó có nghĩa là một cái gì đó như "mơ hồ" hoặc "chỉ được biết là nằm trong một phạm vi nào đó", chứ không phải theo nghĩa như phi kỹ thuật - tức là bị loại bỏ hoặc loại bỏ, như khi một cuốn sách bị xóa khỏi các cửa hàng bởi vì nội dung của nó.
Sao Hỏa

3
Đối với một ví dụ cụ thể về việc cắt ngắn, các công ty bảo hiểm xe hơi không bao giờ nghe về các vụ tai nạn mà thiệt hại ít hơn mức khấu trừ, bởi vì mọi người không báo cáo ở đó. Đây là cắt ngắn; chúng tôi không bao giờ thấy dữ liệu về những sự cố này cả. Ví dụ về kiểm duyệt phải, khi một bệnh nhân bị bệnh quyết định ngừng gặp bác sĩ hoặc chuyển đến một thành phố khác, thì tất cả những gì được biết là họ còn sống vào ngày họ rời đi, nhưng chúng ta không biết khi nào họ chết .
David White

@Mars: Tôi đồng ý rằng âm thanh ngược với cách sử dụng phi kỹ thuật hiện đại trong đó "kiểm duyệt" đang xóa tất cả dấu vết và "cắt ngắn" đang xóa chi tiết. Nhưng trong thống kê, "Kiểm duyệt" được sử dụng theo nghĩa phi kỹ thuật lỗi thời hơn, nơi một người kiểm duyệt có thể loại bỏ nhưng không loại bỏ bất kỳ dấu vết nào của một cái gì đó: hộp đen hoặc làm mờ được đặt trên các phần xúc phạm của một bức ảnh hoặc video trên đài phát thanh, hoặc thư của lính đến nhà hoặc phát hành tài liệu được phân loại trong đó các phần bị kiểm duyệt (thuật ngữ hiện đại hơn "được điều chỉnh lại") bị bôi đen.
Wayne

Hãy tưởng tượng tôi đo khoảng thời gian giữa hai loại sự kiện. Nhưng tôi chỉ có thể ghi lại sự kiện trong 1 năm. Thời gian sẽ được kiểm duyệt hoặc cắt ngắn?
skan

4

Cũng giống như một viễn cảnh từ một lĩnh vực khác (lập trình), kiểm duyệt và cắt ngắn là hai hoạt động riêng biệt.

Khi làm việc với một bộ dữ liệu nhạy cảm, ví dụ như số an sinh xã hội và số điện thoại, tôi có thể kiểm duyệt nó hoặc kiểm duyệt nó trước khi quyền truy cập được cấp:

123-12-1234 => 999-99-9999
567-56-5678 => 999-99-9999
(906) 123-4567 => (000) 000-0000

Điều này cho phép phần còn lại của ứng dụng hoạt động như bình thường, với các cấu trúc dữ liệu tương tự, nhưng không có nội dung thông tin thực sự hoặc phổ biến thông tin cá nhân.

Ngược lại, cắt ngắn thường chỉ cắt bỏ các giá trị còn lại sau một điểm nhất định. Để làm việc trên một ứng dụng, tôi không cần hàng trăm nghìn bản ghi, có lẽ tôi chỉ cần ~ 50 trong số đó giúp truy cập dữ liệu nhanh hơn nhiều và bộ dữ liệu nhỏ hơn.

Một biến thể cắt ngắn tương tự là khi chèn một giá trị vào cột hoặc kiểu dữ liệu có độ dài hoặc độ chính xác giới hạn:

abcdefghijklmnopqrstuv => abcdef
10.23412421345 => 10.23
10.92455311 => 10

1
+1 Điều quan trọng cần biết là kiểm duyệt và cắt ngắn có thể có ý nghĩa hoàn toàn khác nhau ngoài số liệu thống kê!
MånsT
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.