kiểm tra t cho dữ liệu được ghép nối một phần và không ghép đôi


28

Một điều tra viên muốn tạo ra một phân tích kết hợp của một số bộ dữ liệu. Trong một số bộ dữ liệu có các quan sát được ghép nối để điều trị A và B. Trong các dữ liệu khác có dữ liệu A và / hoặc B không ghép cặp. Tôi đang tìm kiếm một tài liệu tham khảo cho việc điều chỉnh thử nghiệm t, hoặc thử nghiệm tỷ lệ khả năng, cho dữ liệu được ghép một phần như vậy. Tôi sẵn sàng (bây giờ) để đảm nhận tính bình thường với phương sai bằng nhau và dân số có nghĩa là A giống nhau cho mỗi nghiên cứu (và tương tự như vậy đối với B).


2
Xin chào Frank. Có lẽ nó sẽ hữu ích để làm cho các giả định mô hình rõ ràng hơn. Thông thường khi tôi nghĩ về các thiết kế được ghép nối, tôi nghĩ đến một trong những điều sau đây (i) đang cố gắng loại bỏ các hiệu ứng cấp đơn vị không thể quan sát được cố định, (ii) làm giảm sự thay đổi của hiệu ứng ngẫu nhiên giữa các đơn vị thử nghiệm hoặc (iii) điều chỉnh cho tính không biến dạng của phản ứng bằng cách lấy sự khác biệt giữa các cặp, do đó có được xấp xỉ tốt hơn. Cụ thể, tôi không thấy ngay bất kỳ lợi ích nào trong các cặp trùng khớp nếu giả định dưới null là các quan sát đều bình thường.
Đức hồng y

4
Hồng y, tôi thực sự đã có rất nhiều dữ liệu trông giống như thế này. Chúng tôi đã cố gắng thu thập dữ liệu được ghép nối đầy đủ, nhưng do sự cố kỹ thuật hoặc không may mắn, một số mẫu đo theo A hoặc B đôi khi bị hỏng. Hai giải pháp rõ ràng - nhưng không thỏa mãn - là 1) loại bỏ tất cả các cặp không hoàn chỉnh và thực hiện kiểm tra t cặp, hoặc 2) bỏ qua việc ghép nối và thực hiện kiểm tra t ghép đôi trên tất cả dữ liệu. Tôi nghĩ rằng người đăng đang yêu cầu một cách để tận dụng việc ghép nối ở nơi nó tồn tại (vì lý do số 1 và số 2 của bạn), trong khi cứu vãn bất cứ điều gì anh ta có thể từ các điểm dữ liệu khác, không ghép đôi.
Matt Krause

2
Tôi đánh giá cao tất cả các ý kiến. Đối với các cặp đối sánh, các đối tượng đã được thử nghiệm theo cả A và B. Một cách để tận dụng việc ghép cặp là sử dụng khoảng tin cậy phần trăm không theo tỷ lệ bootstrap cho sự khác biệt giữa các phương tiện trong A và B. Điều này sẽ liên quan đến việc sử dụng bootstrap cụm, lấy mẫu thay thế từ đối tượng. Một chủ đề không có dữ liệu được ghép nối sẽ có một quan sát được lưu giữ hoặc xóa trong một mẫu lại và dữ liệu được ghép nối sẽ có hai bản ghi được lưu hoặc xóa. Điều này có vẻ tôn trọng việc ghép đôi nhưng một ước tính cần xác định và chúng ta không biết về sự tối ưu.
Frank Harrell

1
Cách tiếp cận Bayes rất dễ thực hiện.
Stéphane Laurent

2
Hani M. Samawi & Robert Vogel, Tạp chí Thống kê Ứng dụng (2013): Ghi chú về hai bài kiểm tra mẫu cho dữ liệu tương quan một phần (cặp), dx.doi.org/10.1080/02664763.2013.830285
Suresh

Câu trả lời:


6

Guo và Yuan đề xuất một phương pháp thay thế gọi là thử nghiệm t gộp chung tối ưu xuất phát từ thử nghiệm t-pooled của Samawi và Vogel.

Liên kết đến tài liệu tham khảo: http://citeseerx.ist.psu.edu/viewdoc/doad?doi=10.1.1.865.734&rep=rep1&type=pdf

Tuyệt vời đọc với nhiều lựa chọn cho tình huống này.

Mới nhận xét vì vậy xin vui lòng cho tôi biết nếu tôi cần thêm bất cứ điều gì khác.


8

Chà, nếu bạn biết phương sai trong cặp không ghép đôi và trong cặp (thường sẽ là một thỏa thuận nhỏ hơn), trọng số tối ưu cho hai ước tính chênh lệch trong các nhóm có nghĩa là có trọng số tỷ lệ nghịch với phương sai của cá nhân ước tính của sự khác biệt về phương tiện.

[Chỉnh sửa: hóa ra khi ước tính phương sai, đây được gọi là công cụ ước tính của Graybill-Deal. Có khá nhiều giấy tờ về nó. Đây là một]

Nhu cầu ước tính phương sai gây ra một số khó khăn (tỷ lệ kết quả của ước tính phương sai là F và tôi nghĩ rằng trọng số kết quả có phân phối beta và thống kê kết quả là khá phức tạp), nhưng vì bạn đang xem xét bootstrapping, nên điều này có thể là ít quan tâm

Một khả năng khác thể đẹp hơn theo một nghĩa nào đó (hoặc ít nhất là mạnh hơn một chút so với tính phi quy tắc, vì chúng ta đang chơi với các tỷ lệ phương sai) với rất ít sự mất hiệu quả ở mức bình thường là dựa trên ước tính kết hợp của sự thay đổi các thử nghiệm xếp hạng được ghép đôi và không ghép cặp - trong mỗi trường hợp, một loại ước tính Hodges-Lehmann, trong trường hợp không ghép cặp dựa trên các giá trị trung bình của các khác biệt giữa các cặp và trong trường hợp được ghép giữa các trung vị của các khác biệt trung bình theo cặp. Một lần nữa, tổ hợp tuyến tính trọng số phương sai tối thiểu của cả hai sẽ có trọng số tỷ lệ thuận với nghịch đảo của phương sai. Trong trường hợp đó, tôi có lẽ nghiêng về hoán vị (/ ngẫu nhiên) hơn là bootstrap - nhưng tùy thuộc vào cách bạn triển khai bootstrap của mình, chúng có thể kết thúc ở cùng một nơi.

Trong cả hai trường hợp, bạn có thể muốn củng cố phương sai / thu nhỏ tỷ lệ phương sai của mình. Vào đúng sân bóng cho trọng lượng là tốt, nhưng bạn sẽ mất rất ít hiệu quả ở mức bình thường bằng cách làm cho nó hơi mạnh mẽ. ---

Một số suy nghĩ bổ sung mà tôi không có đủ rõ ràng sắp xếp trong đầu trước đây:

Vấn đề này có những điểm tương đồng khác biệt với vấn đề BehDR-Fisher, nhưng thậm chí còn khó hơn.

Nếu chúng tôi cố định các trọng số, chúng tôi chỉ có thể đánh vào một xấp xỉ loại Welch-Satterthwaite; cấu trúc của vấn đề là như nhau.

Vấn đề của chúng tôi là chúng tôi muốn tối ưu hóa các trọng số, điều đó có nghĩa là trọng số không cố định - và thực tế, có xu hướng tối đa hóa thống kê (ít nhất là gần và nhiều hơn trong các mẫu lớn, vì bất kỳ tập hợp trọng lượng nào cũng là một đại lượng ngẫu nhiên ước tính như nhau tử số và chúng tôi đang cố gắng giảm thiểu mẫu số; cả hai không độc lập).

Điều này, tôi hy vọng, sẽ làm cho xấp xỉ chi bình phương trở nên tồi tệ hơn, và gần như chắc chắn sẽ ảnh hưởng đến df của một xấp xỉ hơn nữa.

[Nếu vấn đề này có thể thực hiện được, thì cũng có thể có một quy tắc tốt sẽ nói rằng 'bạn cũng có thể làm tốt nếu bạn chỉ sử dụng dữ liệu được ghép nối trong các tập hợp tình huống này, chỉ có ghép nối dưới các bộ khác này điều kiện và trong phần còn lại, sơ đồ cân nặng cố định này thường rất gần với tối ưu '- nhưng tôi sẽ không nín thở chờ đợi cơ hội đó. Quy tắc quyết định như vậy chắc chắn sẽ có một số tác động đến tầm quan trọng thực sự trong từng trường hợp, nhưng nếu hiệu ứng đó không quá lớn, quy tắc ngón tay cái như vậy sẽ giúp mọi người sử dụng phần mềm kế thừa dễ dàng, vì vậy có thể mong muốn cố gắng xác định quy tắc như thế cho người dùng trong tình huống như vậy.]

---

Chỉnh sửa: Lưu ý về bản thân - Cần quay lại và điền thông tin chi tiết về công việc vào các thử nghiệm 'mẫu chồng chéo', đặc biệt là các mẫu thử nghiệm chồng chéo

---

Nó xảy ra với tôi rằng một thử nghiệm ngẫu nhiên sẽ hoạt động tốt -

  • nơi dữ liệu được ghép nối, bạn hoán vị ngẫu nhiên các nhãn nhóm trong các cặp

  • trong đó dữ liệu không được ghép đôi nhưng được coi là có phân phối chung (dưới giá trị null), bạn hoán vị các bài tập nhóm

  • bây giờ bạn có thể căn cứ trọng số cho hai ước tính thay đổi ngoài ước tính phương sai tương đối ( w1=1/(1+v1v2)), tính toán ước tính trọng số của từng mẫu ngẫu nhiên và xem nơi mẫu phù hợp với phân phối ngẫu nhiên.


(Đã thêm nhiều sau)

Giấy có thể liên quan:

Derrick, B., Russ B., Toher, D. và White, P. (2017),
"Thống kê thử nghiệm để so sánh các phương tiện cho hai mẫu bao gồm cả quan sát độc lập và quan sát độc lập"
Tạp chí về phương pháp thống kê ứng dụng hiện đại , tháng 5 , Tập 16, số 1, 137-157.
doi: 10.22237 / jmasm / 1493597280
http://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=2251&context=jmasm


1
+1. Tôi có một câu hỏi về phần cuối của câu trả lời của bạn. Ước tính phương sai nào (nghĩa là các trọng số) bạn sẽ sử dụng trong phép thử hoán vị - các giá trị thực được tính trên mẫu thực tế, hoặc bạn sẽ tính các trọng số cho mỗi hoán vị dựa trên dữ liệu từ hoán vị đó?
amip nói phục hồi Monica

@amoeba để giải thích chính xác tính chất dựa trên mẫu của phép tính mà bạn dựa trên phép hoán vị cụ thể đó.
Glen_b -Reinstate Monica

@amoeba Tôi nên so sánh điều đó với một số cách tiếp cận khác cho vấn đề.
Glen_b -Reinstate Monica

1
Nhân tiện, tôi tình cờ thấy chủ đề này vì ai đó đã tiếp cận tôi với dữ liệu sau: hai đối tượng có dữ liệu được ghép nối cộng với hai đối tượng có dữ liệu chưa ghép nối (tức là 3 phép đo trong nhóm A, 3 phép đo trong nhóm B, trong số 6 giá trị này 2+ 2 được ghép nối và phần còn lại là không ghép đôi). Trong trường hợp này, nó không đủ dữ liệu để ước tính phương sai của ước tính dịch chuyển không ghép đôi, vì vậy tôi không thể đề xuất bất cứ điều gì ngoài việc bỏ qua việc ghép nối và thực hiện một thử nghiệm không ghép đôi ... Nhưng tất nhiên đây là một tình huống cực kỳ khó khăn.
amip nói rằng Phục hồi Monica

6

Dưới đây là một số suy nghĩ. Về cơ bản, tôi chỉ đi đến kết luận của Greg Snow rằng vấn đề này có những điểm tương đồng khác biệt với vấn đề BehDR-Fisher . Để tránh việc bắt tay, trước tiên tôi giới thiệu một số ký hiệu và chính thức hóa các giả thuyết.

  • nxipAxipBi=1,,n
  • nAnBxiAi=1,,nAxiBi=1,,nB
  • mỗi quan sát là tổng của một hiệu ứng bệnh nhân và một hiệu quả điều trị. Các biến ngẫu nhiên tương ứng là

    • XipA=Pi+TiAXipB=Pi+TiB
    • XiA=Qi+UiAXiB=Ri+ViB

    Pi,Qi,RiN(0,σP2)Tiτ,Uiτ,ViτN(μτ,σ2)τ=A,B

    • μA=μB

Xi=XipAXipBXiN(μAμB,2σ2)

XinXiAnAXiBnB

  • XN(μAμB,2nσ2)
  • XAN(μA,1nA(σP2+σ2))
  • XBN(μB,1nB(σP2+σ2))

Bước tự nhiên tiếp theo là xem xét

  • Y=X+XAXBN(2(μAμB),2nσ2+(1nA+1nB)(σP2+σ2))

σ2n1σP2+σ2nA1nB1(1nA+1nB)(σP2+σ2)nA+nB2Y

Tại thời điểm này, tôi nghĩ rằng người ta có thể bổ sung bất kỳ giải pháp nào được đề xuất cho vấn đề BehDR Fisher để có được giải pháp cho vấn đề của bạn.


1
Tôi đã sửa một vài lỗi chính tả trong công thức. Hãy kiểm tra!
kjetil b halvorsen

5

Suy nghĩ đầu tiên của tôi là một mô hình hiệu ứng hỗn hợp, nhưng điều đó đã được thảo luận vì vậy tôi sẽ không nói gì thêm về điều đó.

Suy nghĩ khác của tôi là nếu về mặt lý thuyết, bạn có thể đo dữ liệu được ghép nối trên tất cả các đối tượng nhưng do chi phí, lỗi hoặc lý do khác mà bạn không có tất cả các cặp, thì bạn có thể xử lý hiệu ứng không đo lường được cho các đối tượng chưa ghép nối vì thiếu dữ liệu và sử dụng các công cụ như thuật toán EM hoặc Đa mục tiêu (thiếu ngẫu nhiên có vẻ hợp lý trừ khi lý do một đối tượng chỉ được đo dưới 1 điều trị có liên quan đến kết quả của họ sẽ được xử lý theo cách khác).

Thậm chí có thể đơn giản hơn khi chỉ khớp một dữ liệu bivariate bình thường với dữ liệu bằng khả năng tối đa (với khả năng được xác định dựa trên dữ liệu có sẵn cho mỗi đối tượng), sau đó thực hiện kiểm tra tỷ lệ khả năng so sánh phân phối với phương tiện bằng với các phương tiện khác nhau.

Đã lâu rồi kể từ các lớp lý thuyết của tôi, vì vậy tôi không biết những điều này so sánh như thế nào về sự tối ưu.


1
Cảm ơn Greg. Tôi đang nghiêng về cách tiếp cận khả năng tối đa tùy chỉnh.
Frank Harrell

4

có thể mô hình hỗn hợp với bệnh nhân như hiệu ứng ngẫu nhiên có thể là một cách. Với mô hình hỗn hợp, cấu trúc tương quan trong trường hợp ghép đôi và sai sót một phần trong trường hợp không ghép đôi có thể được tính đến.


2
Vì không có bộ dữ liệu nào khi được phân tích riêng lẻ sẽ dẫn người ta sử dụng các hiệu ứng ngẫu nhiên, tôi không hiểu tại sao các hiệu ứng ngẫu nhiên lại hữu ích ở đây. Nhưng có thể sử dụng bình phương tối thiểu tổng quát để cho phép mỗi đối tượng có cấu trúc tương quan của riêng mình. Các quan sát không ghép đôi sẽ có tương quan bằng không. Đáng để suy nghĩ. Cảm ơn.
Frank Harrell

vâng, bạn đúng, các bộ dữ liệu sẽ không yêu cầu mô hình hỗn hợp nếu được sử dụng riêng. Nhưng nếu bạn nối chúng vào một tập dữ liệu duy nhất, bạn có thể sử dụng cách tiếp cận để kết hợp mối tương quan trong dữ liệu được ghép nối và sử dụng đồng thời dữ liệu chưa ghép bằng cách chỉ định tương quan bằng không.
psj

1
Vâng; quan điểm của tôi là một mô hình hỗn hợp có thể là quá mức cần thiết vì bạn có thể dễ dàng chỉ định cấu trúc tương quan thay đổi chủ đề bằng cách sử dụng bình phương tối thiểu tổng quát (sử dụng glschức năng của R trong nlme4gói.
Frank Harrell

3

Một trong những phương pháp được đề xuất trong Hani M. Samawi & Robert Vogel (Tạp chí Thống kê Ứng dụng 2013) bao gồm sự kết hợp trọng số của điểm T từ các mẫu độc lập và phụ thuộc theo cách sao cho điểm T mới bằng

To=γ(μYμXSx2/nX+Sy2/nY)+(1γ)μDSD2/nD

Dγγ


1
Về thử nghiệm trọng số bảo thủ này cho dữ liệu tương quan một phầnT0
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.