Hồi quy lỗi trong biến: có hợp lệ để gộp dữ liệu từ ba trang web không?


15

Gần đây tôi có một khách hàng đến gặp tôi để thực hiện phân tích bootstrap vì một nhà phê bình của FDA nói rằng hồi quy lỗi trong biến của họ là không hợp lệ vì khi gộp dữ liệu từ các trang web, phân tích bao gồm dữ liệu gộp từ ba trang web trong đó hai trang web có một số mẫu giống nhau.

LÝ LỊCH

Khách hàng có phương pháp khảo nghiệm mới mà họ muốn hiển thị là "tương đương" với phương pháp được phê duyệt hiện có. Cách tiếp cận của họ là so sánh kết quả của cả hai phương pháp được áp dụng cho cùng một mẫu. Ba trang web đã được sử dụng để làm thử nghiệm. Lỗi trong biến (hồi quy Deming) được áp dụng cho dữ liệu tại mỗi trang. Ý tưởng là nếu hồi quy cho thấy tham số độ dốc gần bằng 1 và chặn gần 0 thì điều này sẽ cho thấy hai kỹ thuật khảo nghiệm cho kết quả gần như nhau và do đó phương pháp mới phải được phê duyệt. Tại địa điểm 1, họ có 45 mẫu cho họ 45 quan sát được ghép nối. Trang web 2 có 40 mẫu và trang 3, 43 mẫu. Họ đã thực hiện ba hồi quy Deming riêng biệt (giả sử tỷ lệ 1 cho các lỗi đo lường cho hai phương pháp). Vì vậy, thuật toán tối thiểu hóa tổng khoảng cách vuông góc bình phương.

Trong bản đệ trình của họ, khách hàng đã chỉ ra rằng một số mẫu được sử dụng tại các trang 1 và 2 giống nhau. Trong đánh giá, nhà phê bình của FDA cho rằng hồi quy Deming không hợp lệ vì các mẫu phổ biến được sử dụng gây ra "nhiễu" làm mất hiệu lực các giả định của mô hình. Họ yêu cầu điều chỉnh bootstrap được áp dụng cho kết quả Deming để tính đến sự can thiệp này.

Vào thời điểm đó vì khách hàng không biết làm thế nào để khởi động tôi đã được đưa vào. Thuật ngữ can thiệp là lạ và tôi không chắc chính xác những gì người đánh giá đang nhận được. Tôi giả định rằng vấn đề thực sự là bởi vì dữ liệu gộp có các mẫu chung sẽ có mối tương quan cho các mẫu chung và do đó các thuật ngữ lỗi mô hình sẽ không hoàn toàn độc lập.

PHÂN TÍCH KHÁCH HÀNG

Ba hồi quy riêng biệt rất giống nhau. Mỗi có tham số độ dốc gần bằng 1 và chặn gần 0. Khoảng tin cậy 95% chứa 1 và 0 cho độ dốc và đánh chặn tương ứng trong mỗi trường hợp. Sự khác biệt chính là phương sai dư cao hơn một chút ở vị trí 3. Ngoài ra, họ đã so sánh kết quả này với kết quả từ việc thực hiện OLS và thấy chúng rất giống nhau (chỉ trong một trường hợp, khoảng tin cậy cho độ dốc dựa trên OLS không chứa 1). Trong trường hợp CI OLS cho độ dốc không chứa 1 thì giới hạn trên của khoảng là 0,99.

Với kết quả tương tự nhau ở cả ba trang web, dữ liệu trang web có vẻ hợp lý. Khách hàng đã thực hiện hồi quy Deming gộp cũng dẫn đến kết quả tương tự. Với những kết quả này, tôi đã viết một báo cáo cho khách hàng tranh luận về tuyên bố rằng các hồi quy là không hợp lệ. Lập luận của tôi là bởi vì có các lỗi đo lường tương tự trong cả hai biến, khách hàng có quyền sử dụng hồi quy Deming như một cách để thể hiện sự đồng ý / không đồng ý. Hồi quy trang web riêng lẻ không có vấn đề về lỗi tương quan vì không có mẫu nào được lặp lại trong một trang web nhất định. Tập hợp dữ liệu để có được khoảng tin cậy chặt chẽ hơn.

Khó khăn này có thể được khắc phục bằng cách đơn giản gộp dữ liệu với các mẫu phổ biến từ trang 1 nói ra. Ngoài ra ba mô hình trang web cá nhân không có vấn đề và là hợp lệ. Điều này dường như với tôi để cung cấp bằng chứng mạnh mẽ của thỏa thuận ngay cả khi không có sự góp mặt. Hơn nữa, các phép đo được thực hiện độc lập tại các trang 1 và 2 cho các trang phổ biến. Vì vậy, tôi nghĩ rằng ngay cả phân tích gộp sử dụng tất cả dữ liệu là hợp lệ vì các lỗi đo lường cho mẫu tại trang 1 không tương quan với các lỗi đo lường trong mẫu tương ứng tại trang 2. Điều này thực sự chỉ là lặp lại một điểm trong thiết kế không gian không phải là một vấn đề. Nó không tạo ra sự tương quan / "nhiễu".

Trong báo cáo của tôi, tôi đã viết rằng một phân tích bootstrap là không cần thiết bởi vì không có mối tương quan để điều chỉnh cho. Ba mô hình trang web là hợp lệ (không có "nhiễu" có thể có trong các trang web) và phân tích gộp có thể được thực hiện để loại bỏ các mẫu phổ biến tại trang 1 khi thực hiện gộp. Một phân tích gộp như vậy không thể có một vấn đề can thiệp. Điều chỉnh bootstrap sẽ không cần thiết vì không có sự điều chỉnh nào cho điều chỉnh.

PHẦN KẾT LUẬN

Khách hàng đồng ý với phân tích của tôi nhưng sợ đưa nó đến FDA. Họ muốn tôi thực hiện điều chỉnh bootstrap nào.

NHỮNG CÂU HỎI CỦA TÔI

A) Bạn có đồng ý với (1) Phân tích của tôi về kết quả của khách hàng và (2) lập luận của tôi rằng bootstrap là không cần thiết.

B) Cho rằng tôi phải bootstrap hồi quy Deming, có bất kỳ thủ tục nào SAS hoặc R có sẵn để tôi thực hiện hồi quy Deming trên các mẫu bootstrap không?

EDIT: Đưa ra gợi ý của Bill Huber, tôi dự định xem xét các giới hạn về hồi quy lỗi trong biến bằng hồi quy cả y trên x và x trên y. Chúng ta đã biết rằng đối với một phiên bản OLS, câu trả lời về cơ bản giống như các lỗi trong biến khi hai phương sai lỗi được giả sử là bằng nhau. Nếu điều này đúng với hồi quy khác thì tôi nghĩ điều đó sẽ cho thấy hồi quy Deming đưa ra một giải pháp thích hợp. Bạn có đồng ý không?

Để đáp ứng yêu cầu của khách hàng, tôi cần thực hiện phân tích bootstrap được yêu cầu được xác định một cách mơ hồ. Về mặt đạo đức tôi nghĩ sẽ là sai lầm khi chỉ cung cấp bootstrap vì nó không thực sự giải quyết được vấn đề thực sự của khách hàng, đó là biện minh cho quy trình đo thử nghiệm của họ. Vì vậy, tôi sẽ cung cấp cho họ cả hai phân tích và yêu cầu ít nhất là họ nói với FDA rằng ngoài việc thực hiện bootstrap, tôi đã thực hiện hồi quy ngược và giới hạn các hồi quy Deming mà tôi nghĩ là phù hợp hơn. Ngoài ra tôi nghĩ rằng phân tích sẽ chỉ ra rằng phương pháp của họ tương đương với tham chiếu và do đó hồi quy Deming cũng đầy đủ.

Tôi dự định sử dụng chương trình R mà @whuber gợi ý trong câu trả lời của anh ấy để cho phép tôi khởi động hồi quy Deming. Tôi không quen thuộc lắm với R nhưng tôi nghĩ tôi có thể làm được. Tôi đã cài đặt R cùng với R Studio. Điều đó sẽ làm cho nó đủ dễ dàng cho một người mới như tôi?

Ngoài ra tôi có SAS và tôi lập trình thoải mái hơn trong SAS. Vì vậy, nếu bất cứ ai biết một cách để làm điều này trong SAS, tôi sẽ đánh giá cao việc biết về nó.


2
Tôi không biết câu trả lời cho câu hỏi này, nhưng, trên cơ sở chính trị thuần túy, sẽ tốt hơn nếu làm những gì FDA muốn và cho thấy (ít nhất, có lẽ), rằng kết quả tương tự nhau? (Câu hỏi hay, BTW, +1)
Peter Flom - Tái lập Monica

1
Có @PeterFlom Tôi đồng ý rằng việc phân tích cho FDA và cho thấy nó không thành vấn đề. Nhưng tôi nghĩ rằng về mặt ngoại giao chỉ ra kết quả của hồi quy và ý nghĩa của chúng và thực hiện tổng hợp mà không có các mẫu chồng chéo sẽ củng cố lập luận. Tôi sẽ thực hiện bootstrap nhưng tôi có thể sử dụng trợ giúp tìm phần mềm có sẵn để tự thực hiện hồi quy Deming mà không cần mã hóa độc lập.
Michael R. Chernick

2
Michael, khả năng "các mẫu" chung cho "các trang web" đặt câu hỏi về một số cách hiểu tự nhiên về những thuật ngữ (trừu tượng) này có nghĩa là gì. Chẳng hạn, ban đầu tôi nghĩ "các trang web" là các vị trí địa lý khác nhau và "các mẫu" là các thực thể riêng biệt được liên kết với các vị trí đó, mỗi vị trí chịu các phép đo độc lập. Trong mô hình này, các mẫu không thể phổ biến ở các vị trí khác nhau. Bạn có thể vui lòng làm rõ những gì bạn có nghĩa là những điều khoản này?
whuber

3
@whuber các trang web là vị trí khác nhau. Các mẫu được huyết tương từ các cá nhân. Các thử nghiệm trong phòng thí nghiệm được thực hiện tại các trang web khác nhau tại các thời điểm khác nhau. Các so sánh dành cho hai thiết bị đo xét nghiệm được dự định thực hiện cùng chức năng. Tại trang 1 và 2, một số mẫu được sử dụng lại nhưng các thiết bị hoạt động độc lập tại trang 1 và trang 2. Vì vậy, đó là lý do tại sao tôi nói rằng các lỗi đo thực sự độc lập mặc dù đã sử dụng cùng một mẫu (hoặc một phần của cùng một mẫu) .
Michael R. Chernick

1
a) Đồng ý rằng việc loại bỏ mẫu trùng lặp khỏi phân tích gộp sẽ loại bỏ các mối lo ngại về sự thiếu độc lập. b) Rất ít người dùng SAS sẽ thấy "dễ dàng" sử dụng R cho các phân tích bootstrap liên quan đến các phương pháp hồi quy không phổ biến. Các phân tích Bootstrap thực sự đòi hỏi chế độ tư duy lập trình chức năng, và đó không phải là chế độ mà SAS khuyến khích.
DWin

Câu trả lời:


10

Đây là một vấn đề hiệu chuẩn lẫn nhau: nghĩa là so sánh định lượng hai thiết bị đo độc lập.

Dường như có hai vấn đề chính. Cách đầu tiên (chỉ ẩn trong câu hỏi) là trong việc đóng khung vấn đề: làm thế nào để xác định liệu một phương thức mới có "tương đương" với phương pháp được phê duyệt không? Mối quan tâm thứ hai về cách phân tích dữ liệu trong đó một số mẫu có thể được đo nhiều lần.

Đóng khung câu hỏi

Giải pháp tốt nhất (và có lẽ rõ ràng) cho vấn đề đã nêu là đánh giá phương pháp mới bằng cách sử dụng các mẫu với các giá trị được biết chính xác thu được từ môi trường so sánh (như huyết tương người). . Do đó, chúng tôi rút gọn so sánh hai phương pháp đo lường, một trong số đó đang được sử dụng làm tài liệu tham khảo vì nó được cho là chính xác và có thể tái tạo (nhưng không có độ chính xác hoàn hảo).

Trên thực tế, khách hàng sẽ yêu cầu FDA cho phép phương thức mới làm proxy hoặc thay thế cho phương pháp được phê duyệt. Như vậy, gánh nặng của họ là chứng minh rằng kết quả từ phương pháp mới sẽ dự đoán, với độ chính xác đủ, phương pháp được phê duyệt sẽ xác định được áp dụng nó. Khía cạnh tinh tế của điều này là chúng tôi không cố gắng tự dự đoán các giá trị thực - chúng tôi thậm chí không biết chúng. Do đó, hồi quy lỗi trong biến có thể không phải là cách thích hợp nhất để phân tích các dữ liệu này.

YXXYYXYX. (Theo kinh nghiệm của tôi, cách tiếp cận này có xu hướng nghiêm ngặt: các khoảng này có thể lớn một cách đáng ngạc nhiên trừ khi cả hai phép đo đều có độ chính xác cao, chính xác và liên quan tuyến tính.)

Giải quyết các mẫu trùng lặp

Các khái niệm liên quan ở đây là hỗ trợ mẫu các thành phần của phương sai. "Hỗ trợ mẫu" đề cập đến phần vật lý của một đối tượng (một người ở đây) thực sự được đo. Sau khi một số phần của đối tượng được thực hiện, nó thường cần được chia thành các mẫu phụ phù hợp với quá trình đo. Chúng tôi có thể lo ngại về khả năng biến đổi giữa các mẫu phụ. Trong một mẫu chất lỏng được trộn đều, về cơ bản không có sự thay đổi về lượng cơ bản (như nồng độ của một chất hóa học) trong toàn bộ mẫu, nhưng trong các mẫu chất rắn hoặc semisolids (có thể bao gồm cả máu), sự biến đổi đó có thể là đáng kể Xem xét rằng các phòng thí nghiệm thường chỉ cần microliter của một giải pháp để thực hiện phép đo, chúng ta phải quan tâm đến sự thay đổi gần như trên quy mô hiển vi. Điều này có thể quan trọng.

Khả năng biến đổi như vậy trongmột mẫu vật lý chỉ ra rằng sự thay đổi trong kết quả đo phải được phân chia thành các "thành phần phương sai" riêng biệt. Một thành phần là phương sai từ biến thể trong mẫu và các thành phần khác là những đóng góp cho phương sai từ mỗi bước độc lập của quá trình đo tiếp theo. (Các bước này có thể bao gồm hành động vật lý của việc lấy mẫu, xử lý hóa học và vật lý tiếp theo của mẫu - như thêm chất ổn định hoặc ly tâm--, tiêm mẫu vào dụng cụ đo, các biến thể trong dụng cụ, các biến thể giữa các dụng cụ và khác các biến thể do thay đổi người vận hành thiết bị, ô nhiễm môi trường xung quanh trong phòng thí nghiệm và hơn thế nữa. Tôi hy vọng điều này cho thấy rõ rằng để thực hiện tốt công việc trả lời câu hỏi này, nhà thống kê cần có sự hiểu biết thấu đáo về toàn bộ quá trình lấy mẫu và phân tích. Tất cả những gì tôi có thể làm là cung cấp một số hướng dẫn chung.)

Những cân nhắc này áp dụng cho câu hỏi trong tầm tay vì một "mẫu" được đo tại hai "địa điểm" khác nhau thực sự là hai mẫu vật lý thu được từ cùng một người và sau đó được phân chia giữa các phòng thí nghiệm. Phép đo theo phương pháp được phê duyệt sẽ sử dụng một mảnh của mẫu phân tách và phép đo đồng thời theo phương pháp mới sẽ sử dụng một mảnh khác của mẫu phân tách. Bằng cách xem xét các thành phần của phương sai các phân tách này ngụ ý, chúng ta có thể giải quyết vấn đề chính của câu hỏi. Bây giờ cần phải rõ ràng rằng sự khác biệt giữa các phép đo được ghép này phải được quy cho hai điều: thứ nhất, sự khác biệt thực tế giữa các quy trình đo - đây là điều chúng tôi đang cố gắng đánh giá - và thứ hai, sự khác biệt do bất kỳ biến thể nào trongmẫu cũng như sự biến đổi gây ra bởi các quá trình vật lý trích xuất hai mẫu con cần đo. Nếu lý luận vật lý về tính đồng nhất mẫu và quy trình lấy mẫu có thể xác định rằng dạng phương sai thứ hai là không đáng kể, thì thực sự không có "nhiễu" như tuyên bố của người đánh giá. Mặt khác, các thành phần của phương sai này có thể cần được mô hình hóa và ước tính rõ ràng trong phân tích hồi quy nghịch đảo.


1
Cảm ơn bạn đã phân tích rất hay gợi ý cách tốt nhất để giải quyết vấn đề này. Tuy nhiên, trong tình huống cụ thể của tôi, khách hàng đã chọn phương pháp hồi quy Deming và không tìm kiếm một phương pháp khác. Sự phản đối của FDA đối với hồi quy Deming dường như chỉ do sự can thiệp và đề nghị của họ để khắc phục vấn đề là một số loại sửa lỗi bootstrap. Tôi chỉ được đưa vào vì họ không biết làm bootstrap. Họ không có thống kê liên quan và không trình bày một phân tích thống kê về kết quả như tôi đã đưa ra trong báo cáo của mình.
Michael R. Chernick

2
Tôi đánh giá cao những hạn chế (và đáng lẽ phải rõ ràng về điều đó). Tuy nhiên, nói chung, một khuôn khổ tốt để giải quyết các câu hỏi như thế này là lấy một mô hình thích hợp làm điểm xuất phát của bạn. Nếu bạn cố gắng đưa ra giải pháp theo cách tiếp cận không phù hợp và mô hình không hợp lệ (để thỏa mãn khách hàng), bạn sẽ chỉ gộp các lỗi và không thể đạt được bất kỳ giải pháp phòng thủ rõ ràng nào. Những gì bạn có thể xem xét bây giờ là cách hồi quy Deming thay đổi từ hồi quy nghịch đảo, cũng như cách hồi quy Deming có thể được điều chỉnh để phù hợp với nhiều thành phần phương sai.
whuber

1
Bạn có thể được thúc đẩy để chứng minh rằng hồi quy Deming, như đã được áp dụng, đủ gần với phương pháp thông thường hoặc phù hợp hơn sẽ tạo ra: một minh chứng như vậy có thể là giải pháp tốt nhất có thể trong tình huống của bạn.
whuber

Thay vào đó, những gì họ đã làm chỉ đơn giản là mô tả vấn đề và cách dữ liệu được thu thập và hiển thị đầu ra của hồi quy Deming. Nếu một nhà thống kê đã tham gia thì có thể có ít vấn đề thống kê được nêu ra về hồi quy Deming. Tất cả những gì tôi có thể làm cho bác sĩ lâm sàng là cung cấp một trường hợp cho phân tích đã được thực hiện (bao gồm một lời giải thích về lý do tại sao hầu hết hồi quy có thể được phân tích mà không phải lo lắng về sự can thiệp từ lấy mẫu lặp lại từ một nguồn chung) và để cung cấp bootstrap được yêu cầu điều chỉnh phương sai dư trong mô hình gộp.
Michael R. Chernick

Tại thời điểm này tôi không thể bảo họ thực hiện hồi quy nghịch đảo. Nếu một phương pháp đo lường được phê duyệt, tôi nghĩ rằng nó có thể được xem là tài liệu tham khảo và gánh nặng cho công ty là cho thấy phương pháp mới về cơ bản thực hiện cùng một công việc như tham chiếu. Đối với điều này, tôi nghĩ rằng hồi quy Deming có thể phù hợp và ít nhất có thể được chấp nhận bởi FDA. Có lẽ sẽ có nếu vấn đề của các mẫu lặp đi lặp lại không xảy ra. Vấn đề đó sẽ không xảy ra nếu họ để lại một trong những mẫu lặp đi lặp lại khi họ thực hiện tổng hợp.
Michael R. Chernick
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.