Dữ liệu tập trung hóa thường có số không, nhưng những điều này không đại diện cho zero giá trị : họ là mã mà từ khác nhau (và gây nhầm lẫn) đại diện cho cả hai nondetects (đo chỉ ra, với một mức độ cao của khả năng, đó là chất phân tích đã không có mặt) và "unquantified" các giá trị (phép đo đã phát hiện chất phân tích nhưng không thể tạo ra giá trị số đáng tin cậy). Chúng ta hãy mơ hồ gọi những "ND" ở đây.
Thông thường, có một giới hạn liên quan đến ND được gọi là "giới hạn phát hiện", "giới hạn định lượng" hoặc (trung thực hơn nhiều) là "giới hạn báo cáo", vì phòng thí nghiệm chọn không cung cấp giá trị bằng số (thường là hợp pháp lý do). Về tất cả những gì chúng tôi thực sự biết về một ND là giá trị thực có thể thấp hơn giới hạn liên quan: đó gần như (nhưng không hoàn toàn) một hình thức kiểm duyệt trái. (Chà, điều đó cũng không thực sự đúng: đó là một tiểu thuyết thuận tiện. Những giới hạn này được xác định thông qua hiệu chuẩn, trong hầu hết các trường hợp, có các thuộc tính thống kê kém đến khủng khiếp. Chúng có thể được ước tính quá mức hoặc quá thấp. bạn đang xem một tập hợp dữ liệu tập trung dường như có đuôi phải bất thường bị cắt (giả sử) ở mức , cộng với "tăng đột biến" ở đại diện cho tất cả các ND. Điều đó rất khuyến nghị giới hạn báo cáo chỉ là một ít hơn , nhưng dữ liệu phòng thí nghiệm có thể cố gắng cho bạn biết đó là hoặc hoặc đại loại như thế.)1.3301.330.50.1
Nghiên cứu mở rộng đã được thực hiện trong hơn 30 năm qua liên quan đến cách tốt nhất để tóm tắt và đánh giá các bộ dữ liệu đó. Dennis Helsel đã xuất bản một cuốn sách về điều này, Nondetects và Phân tích dữ liệu (Wiley, 2005), dạy một khóa học và phát hành một R
gói dựa trên một số kỹ thuật mà ông ưa thích. Trang web của ông là toàn diện.
Lĩnh vực này đầy lỗi và quan niệm sai lầm. Helsel thẳng thắn về điều này: trên trang đầu tiên của chương 1 của cuốn sách ông viết,
... phương pháp được sử dụng phổ biến nhất trong các nghiên cứu môi trường hiện nay, thay thế một nửa giới hạn phát hiện, KHÔNG phải là phương pháp hợp lý để diễn giải dữ liệu bị kiểm duyệt.
Vậy lam gi? Các tùy chọn bao gồm bỏ qua lời khuyên tốt này, áp dụng một số phương pháp trong cuốn sách của Helsel và sử dụng một số phương pháp thay thế. Đúng vậy, cuốn sách không đầy đủ và các lựa chọn thay thế hợp lệ tồn tại. Thêm một hằng số cho tất cả các giá trị trong tập dữ liệu ("bắt đầu" chúng) là một. Nhưng hãy xem xét:
Thêm là không một nơi tốt để bắt đầu, bởi vì công thức này phụ thuộc vào đơn vị đo lường. Thêm microgam trên mỗi decilit sẽ không có kết quả tương tự như thêm millimole mỗi lít.111
Sau khi bắt đầu tất cả các giá trị, bạn vẫn sẽ có một đột biến ở giá trị nhỏ nhất, đại diện cho bộ sưu tập ND đó. Hy vọng của bạn là sự tăng đột biến này phù hợp với dữ liệu được định lượng theo nghĩa là tổng khối lượng của nó xấp xỉ bằng khối lượng phân phối hợp lý giữa và giá trị bắt đầu.0
Một công cụ tuyệt vời để xác định giá trị bắt đầu là một biểu đồ xác suất logic: ngoài các ND, dữ liệu phải xấp xỉ tuyến tính.
Bộ sưu tập ND cũng có thể được mô tả với phân phối được gọi là "delta lognatural". Đây là một hỗn hợp của một khối điểm và một logic bất thường.
Như đã thấy rõ trong các biểu đồ sau của các giá trị mô phỏng, các phân phối bị kiểm duyệt và delta không giống nhau. Cách tiếp cận delta hữu ích nhất cho các biến giải thích trong hồi quy: bạn có thể tạo biến "giả" để chỉ ra ND, lấy logarit của các giá trị được phát hiện (hoặc chuyển đổi chúng khi cần) và không lo lắng về các giá trị thay thế cho ND .
Trong các biểu đồ này, khoảng 20% giá trị thấp nhất đã được thay thế bằng số không. Để so sánh, tất cả chúng đều dựa trên cùng 1000 giá trị logic bất thường được mô phỏng (phía trên bên trái). Phân phối delta được tạo bằng cách thay thế 200 giá trị bằng các số không một cách ngẫu nhiên . Phân phối bị kiểm duyệt đã được tạo bằng cách thay thế 200 giá trị nhỏ nhất bằng số không. Phân phối "thực tế" phù hợp với kinh nghiệm của tôi, đó là giới hạn báo cáo thực tế khác nhau trong thực tế (ngay cả khi phòng thí nghiệm không được chỉ định!): Tôi đã làm cho chúng thay đổi ngẫu nhiên (chỉ một chút, hiếm khi hơn 30 trong một trong hai hướng) và thay thế tất cả các giá trị mô phỏng nhỏ hơn giới hạn báo cáo của chúng bằng các số không.
Để hiển thị tiện ích của biểu đồ xác suất và để giải thích giải thích của nó , hình tiếp theo hiển thị các sơ đồ xác suất bình thường liên quan đến logarit của dữ liệu trước đó.
Phía trên bên trái hiển thị tất cả dữ liệu (trước khi kiểm duyệt hoặc thay thế). Đó là một sự phù hợp tốt với đường chéo lý tưởng (chúng tôi mong đợi một số sai lệch ở đuôi cực). Đây là những gì chúng tôi đang hướng tới để đạt được trong tất cả các lô tiếp theo (nhưng, do ND, chúng tôi chắc chắn sẽ không đạt được lý tưởng này.) Phía trên bên phải là một biểu đồ xác suất cho bộ dữ liệu bị kiểm duyệt, sử dụng giá trị bắt đầu là 1. Đó là một sự phù hợp khủng khiếp, bởi vì tất cả các ND (được vẽ ở 0, vìlog(1+0)=0) được vẽ nhiều quá thấp. Phía dưới bên trái là một biểu đồ xác suất cho bộ dữ liệu bị kiểm duyệt với giá trị bắt đầu là 120, gần với giới hạn báo cáo thông thường. Sự phù hợp ở phía dưới bên trái bây giờ khá ổn - chúng tôi chỉ hy vọng rằng tất cả các giá trị này đến một nơi nào đó gần, nhưng ở bên phải, đường được trang bị - nhưng độ cong ở đuôi trên cho thấy việc thêm 120 đang bắt đầu thay đổi hình dạng của phân phối. Phía dưới bên phải cho thấy những gì xảy ra với dữ liệu log-normal delta: có sự phù hợp tốt với phần đuôi trên, nhưng một số độ cong rõ rệt gần giới hạn báo cáo (ở giữa lô).
Cuối cùng, hãy khám phá một số tình huống thực tế hơn:
Phía trên bên trái hiển thị tập dữ liệu bị kiểm duyệt với các số không được đặt thành một nửa giới hạn báo cáo. Đó là một phù hợp khá tốt. Ở phía trên bên phải là bộ dữ liệu thực tế hơn (với các giới hạn báo cáo thay đổi ngẫu nhiên). Giá trị bắt đầu là 1 không giúp ích gì, nhưng - ở phía dưới bên trái - với giá trị bắt đầu là 120 (gần phạm vi trên của giới hạn báo cáo) mức độ phù hợp là khá tốt. Điều thú vị là độ cong gần giữa khi các điểm tăng từ ND đến các giá trị được định lượng gợi nhớ đến phân phối lognatural delta (mặc dù những dữ liệu này không được tạo ra từ hỗn hợp như vậy). Ở phía dưới bên phải là biểu đồ xác suất bạn nhận được khi dữ liệu thực tế có ND của chúng được thay thế bằng một nửa giới hạn báo cáo (điển hình). Đây là phù hợp nhất, mặc dù nó cho thấy một số hành vi giống như đồng bằng ở giữa.
Sau đó, những gì bạn nên làm là sử dụng các ô xác suất để khám phá các bản phân phối vì các hằng số khác nhau được sử dụng thay cho các ND. Bắt đầu tìm kiếm với một nửa giới hạn danh nghĩa, trung bình, báo cáo, sau đó thay đổi nó lên và xuống từ đó. Chọn một biểu đồ trông giống như dưới cùng bên phải: đại khái là một đường thẳng chéo cho các giá trị được định lượng, thả nhanh xuống một cao nguyên thấp và một bình nguyên các giá trị (chỉ vừa đủ) đáp ứng phần mở rộng của đường chéo. Tuy nhiên, làm theo lời khuyên của Helsel (được hỗ trợ mạnh mẽ trong tài liệu), đối với các tóm tắt thống kê thực tế, tránh mọi phương pháp thay thế ND bằng bất kỳ hằng số nào. Để hồi quy, hãy xem xét thêm vào một biến giả để chỉ ra ND. Đối với một số màn hình đồ họa, việc thay thế liên tục ND bằng giá trị tìm thấy với bài tập xác suất cốt truyện sẽ hoạt động tốt. Đối với các màn hình đồ họa khác, điều quan trọng là phải mô tả các giới hạn báo cáo thực tế, vì vậy thay thế ND bằng giới hạn báo cáo thay thế. Bạn cần phải linh hoạt!