Ước lượng không thiên vị của ma trận hiệp phương sai cho dữ liệu bị kiểm duyệt nhân


22

Các phân tích hóa học của các mẫu môi trường thường được kiểm duyệt dưới đây ở các giới hạn báo cáo hoặc các giới hạn phát hiện / định lượng khác nhau. Cái sau có thể thay đổi, thường là tỷ lệ với các giá trị của các biến khác. Ví dụ, một mẫu có nồng độ cao của một hợp chất có thể cần phải được pha loãng để phân tích, dẫn đến lạm phát tỷ lệ giới hạn kiểm duyệt đối với tất cả các hợp chất khác được phân tích cùng lúc trong mẫu đó. Một ví dụ khác, đôi khi sự hiện diện của hợp chất có thể làm thay đổi phản ứng của phép thử đối với các hợp chất khác ("nhiễu ma trận"); khi điều này được phát hiện bởi phòng thí nghiệm, nó sẽ tăng giới hạn báo cáo tương ứng.

Tôi đang tìm kiếm một cách thực tế để ước tính toàn bộ ma trận phương sai hiệp phương sai cho các bộ dữ liệu đó, đặc biệt là khi nhiều hợp chất trải qua kiểm duyệt hơn 50%, thường là như vậy. Một mô hình phân phối thông thường là logarit của nồng độ (thật) được phân phối đa cấp và điều này có vẻ phù hợp trong thực tế, vì vậy một giải pháp cho tình huống này sẽ hữu ích.

(Theo "thực tế", ý tôi là một phương pháp có thể được mã hóa một cách đáng tin cậy trong ít nhất một môi trường phần mềm thường có sẵn như R, Python, SAS, v.v., theo cách thực thi đủ nhanh để hỗ trợ tính toán lặp lại như xảy ra trong nhiều lần liệt kê, và điều này khá ổn định [đó là lý do tại sao tôi không muốn khám phá việc triển khai BUGS, mặc dù các giải pháp Bayes nói chung đều được hoan nghênh].)

Rất cám ơn trước những suy nghĩ của bạn về vấn đề này.


Để tôi hiểu chính xác vấn đề kiểm duyệt: Khi bạn pha loãng mẫu, nồng độ của hợp chất giảm xuống thấp đến mức dụng cụ thử có thể không phát hiện ra sự hiện diện của nó. Đó có phải là một cụm từ chính xác của vấn đề kiểm duyệt?

Đúng, điều đó là chính xác: pha loãng theo hệ số D cũng làm tăng tất cả các giới hạn phát hiện theo hệ số D. (Vấn đề nhiễu ma trận khó định lượng hơn và tình hình chung là cực kỳ phức tạp. Để đơn giản hóa điều này, mô hình thông thường là một bộ thử nghiệm trên một mẫu cho ra một vectơ (x [1], ..., x [k ]) nơi x [i] là một trong hai số thực hay là khoảng thời gian của tập số thực, thường với thiết bị đầu cuối bên trái ở vô cực; một Xác định khoảng thời gian một bộ, trong đó giá trị thực sự được giả định là lời nói dối).
whuber

Tại sao các giới hạn phát hiện sẽ tăng lên? Có phải chúng không phải là một tính năng của dụng cụ thử nghiệm hơn là mẫu thử nghiệm?

Ví dụ: giả sử giới hạn phát hiện của một công cụ là 1 microgam / lít (ug / L). Một mẫu được pha loãng 10: 1 (với độ chính xác cao, vì vậy chúng tôi không lo lắng về lỗi ở đây) và công cụ ghi "<1"; đó là, không thể phát hiện được, đối với mẫu pha loãng. Phòng thí nghiệm cho rằng nồng độ trong mẫu nhỏ hơn 10 * 1 = 10 ug / L và báo cáo như vậy; đó là "<10".
whuber

1
@amoeba Tôi thấy tôi nên đã giải thích những điều đó trong chính câu hỏi. Các câu trả lời là: PCA; chiều sẽ thay đổi từ 3 đến vài trăm; cỡ mẫu luôn vượt quá nhiều chiều nhưng tỷ lệ kiểm duyệt có thể rất cao (có thể xử lý tới 50% là cần thiết và có thể đạt tới 95%).
whuber

Câu trả lời:


3

Tôi chưa hoàn toàn nội tâm hóa vấn đề nhiễu ma trận nhưng đây là một cách tiếp cận. Để cho:

là một vectơ biểu thị nồng độ của tất cả các hợp chất mục tiêu trong mẫu không pha loãng.Y

là vectơ tương ứng trong mẫu pha loãng.Z

là hệ số pha loãng tức là mẫu được pha loãng d : 1.dd

Mô hình của chúng tôi là:

YN(μ,Σ)

Z=Yd+ϵ

nơi đại diện cho các lỗi do lỗi pha loãng.ϵN(0,σ2 I)

Do đó, nó theo sau:

ZN(μd,Σ+σ2 I)

ZfZ(.)

Oτith

Oi=ZiI(Zi>τ)+0I(Ziτ)

k

L(O1,...Ok,Ok+1,...On|)=[i=1i=kPr(Ziτ)][i=k+1i=nf(Oi|)]

Ở đâu

f(Oi|)=jifZ(Oi|)I(Oi>τ)

Ước tính sau đó là một vấn đề sử dụng khả năng tối đa hoặc ý tưởng bayes. Tôi không chắc làm thế nào dễ điều khiển ở trên nhưng tôi hy vọng nó cung cấp cho bạn một số ý tưởng.


Cảm ơn bạn rất nhiều vì suy nghĩ này. Thật vậy, đây là một cách tiếp cận tiêu chuẩn và được ghi chép rõ ràng để kiểm duyệt nhiều lần. Một khó khăn nằm ở tính hấp dẫn của nó: những tích phân này nổi tiếng là khó tính. Cũng có một vấn đề mô hình ẩn giấu ở đây: giá trị của d thường tương quan dương với Y , theo ngụ ý của đoạn đầu tiên trong mô tả của tôi.
whuber

2

Một lựa chọn hiệu quả hơn về mặt tính toán khác sẽ phù hợp với ma trận hiệp phương sai bằng cách khớp thời điểm bằng cách sử dụng một mô hình được gọi là "Gaussian nhị phân", thực sự chỉ là mô hình copula Gaussian.

Một bài báo gần đây của Macke et al 2010 mô tả một quy trình dạng đóng để phù hợp với mô hình này chỉ liên quan đến ma trận hiệp phương sai thực nghiệm (được kiểm duyệt) và tính toán một số xác suất thông thường. Cùng một nhóm (phòng thí nghiệm Bethge tại MPI Tuebingen) cũng đã mô tả các mô hình Gaussian rời rạc / liên tục có thể là những gì bạn muốn ở đây (ví dụ, vì RV Gaussian không hoàn toàn "phân đôi" - chỉ những mô hình dưới ngưỡng).

Quan trọng, đây không phải là công cụ ước tính ML và tôi e rằng tôi không biết thuộc tính thiên vị của nó là gì.


@jp Cảm ơn bạn: Tôi sẽ xem xét điều này. (Nó có thể mất một thời gian...)
whuber

1

Có bao nhiêu hợp chất trong mẫu của bạn? (Hoặc, ma trận hiệp phương sai trong câu hỏi lớn đến mức nào?).

Alan Genz có một số mã rất hay trong nhiều ngôn ngữ (R, Matlab, Fortran; xem tại đây ) để tính toán các tích phân của mật độ thông thường đa biến trên các hình chữ nhật (ví dụ, các loại tích phân bạn cần để đánh giá khả năng, như đã lưu ý bởi người dùng28).

Tôi đã sử dụng các hàm này ("ADAPT" và "QSIMVN") cho các tích phân lên tới khoảng 10-12 kích thước và một số chức năng trên trang đó quảng cáo các tích phân (và các dẫn xuất liên quan mà bạn có thể cần) cho các vấn đề lên tới kích thước 100. Tôi không Sẽ không biết liệu đó có đủ kích thước cho mục đích của bạn hay không, nhưng nếu vậy có lẽ nó có thể cho phép bạn tìm ước tính khả năng tối đa theo độ dốc.


Ôi, xin lỗi, tôi mới ở đây và không để ý cách đây đã được đăng lên, có lẽ đã quá muộn để được giúp đỡ nhiều!
jpvel

@jp Đây là một vấn đề quan trọng đang diễn ra, vì vậy thời gian trôi qua giữa câu hỏi và câu trả lời ít có hậu quả. Cảm ơn vì nhắn lại!
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.