GEE: chọn cấu trúc tương quan làm việc phù hợp


19

Tôi là một nhà dịch tễ học cố gắng tìm hiểu GEE để phân tích chính xác một nghiên cứu đoàn hệ (sử dụng hồi quy Poisson với một liên kết nhật ký, để ước tính Rủi ro tương đối). Tôi có một vài câu hỏi về "mối tương quan làm việc" mà tôi muốn ai đó hiểu biết hơn để làm rõ:

(1) Nếu tôi có các phép đo lặp lại trong cùng một cá nhân, thường có hợp lý nhất khi giả định một cấu trúc có thể trao đổi không? (Hoặc tự phát nếu các phép đo cho thấy một xu hướng)? Thế còn sự độc lập - có trường hợp nào người ta có thể đảm nhận sự độc lập cho các phép đo trong cùng một cá nhân không?

(2) Có cách nào (đơn giản hợp lý) để đánh giá cấu trúc phù hợp bằng cách kiểm tra dữ liệu không?

(3) Tôi nhận thấy rằng, khi chọn cấu trúc độc lập, tôi nhận được các ước tính điểm giống nhau (nhưng sai số tiêu chuẩn thấp hơn) như khi chạy hồi quy Poisson đơn giản (sử dụng R, hàm glm()geeglm()từ gói geepack). Tại sao chuyện này đang xảy ra? Tôi hiểu rằng với GEE, bạn ước tính mô hình trung bình dân số (trái ngược với cụ thể theo chủ đề), do đó bạn chỉ nên lấy ước tính điểm giống nhau trong trường hợp hồi quy tuyến tính.

(4) Nếu đoàn hệ của tôi ở nhiều địa điểm (nhưng chỉ có một phép đo cho mỗi cá nhân), tôi nên chọn một sự độc lập hoặc tương quan làm việc có thể trao đổi, và tại sao? Ý tôi là, các cá nhân trong mỗi trang web vẫn độc lập với nhau, phải không ?? Do đó, đối với một mô hình cụ thể theo chủ đề, ví dụ, tôi sẽ chỉ định trang web là một hiệu ứng ngẫu nhiên. Tuy nhiên, với GEE, tính độc lập và có thể trao đổi đưa ra các ước tính khác nhau và tôi không chắc cái nào tốt hơn về các giả định cơ bản.

(5) GEE có thể xử lý phân cụm phân cấp 2 cấp, tức là một nhóm đa trang web với các biện pháp lặp lại cho mỗi cá nhân không? Nếu có, tôi nên chỉ định biến phân cụm là geeglm()gì và tương quan làm việc là gì nếu giả sử "độc lập" cho cấp đầu tiên (trang web) và "có thể trao đổi" hoặc "tự động" cho cấp thứ hai (cá nhân)?

Tôi hiểu đây là một vài câu hỏi và một số trong số chúng có thể khá cơ bản, nhưng vẫn rất khó đối với tôi (và có thể những người mới khác?) Để nắm bắt. Vì vậy, bất kỳ trợ giúp đều được đánh giá rất cao và chân thành, và để thể hiện điều này tôi đã bắt đầu một tiền thưởng.

Câu trả lời:


12
  1. Không cần thiết. Với các cụm nhỏ, thiết kế không cân bằng và điều chỉnh bộ gây nhiễu trong cụm không hoàn chỉnh, mối tương quan có thể trao đổi có thể không hiệu quả và sai lệch so với GEE độc lập. Những giả định đó cũng có thể khá mạnh. Tuy nhiên, khi những giả định đó được đáp ứng, bạn sẽ có được sự suy luận hiệu quả hơn với khả năng trao đổi. Tôi chưa bao giờ tìm thấy một trường hợp nào khi các cấu trúc tương quan AR-1 có ý nghĩa, vì nó không phổ biến để có các phép đo được cân bằng theo thời gian (tôi làm việc với dữ liệu chủ thể của con người).

  2. Vâng, khám phá mối tương quan là tốt và nên được thực hiện trong phân tích dữ liệu. Tuy nhiên, nó thực sự không nên hướng dẫn việc ra quyết định. Bạn có thể sử dụng variograms và lorellograms để hình dung mối tương quan trong các nghiên cứu dọc và bảng điều khiển. Tương quan nội bào là một phép đo tốt về mức độ tương quan trong các cụm.

  3. Cấu trúc tương quan trong GEE, không giống như các mô hình hỗn hợp, không ảnh hưởng đến các ước tính tham số cận biên (mà bạn đang ước tính với GEE). Nó không ảnh hưởng đến các ước tính lỗi tiêu chuẩn mặc dù. Điều này là độc lập với bất kỳ chức năng liên kết. Hàm liên kết trong GEE dành cho mô hình cận biên.

  4. Các trang web có thể là nguồn của các biến thể không được đo lường, chẳng hạn như răng trong miệng hoặc học sinh trong khu học chánh. Có khả năng gây nhiễu ở cấp độ cụm trong các dữ liệu này, chẳng hạn như xu hướng di truyền đối với sâu răng hoặc tài trợ giáo dục cộng đồng, vì vậy, vì lý do đó, bạn sẽ có được ước tính lỗi tiêu chuẩn tốt hơn bằng cách sử dụng cấu trúc tương quan có thể trao đổi.

  5. Tính toán các hiệu ứng cận biên trong GEE rất phức tạp khi chúng không được lồng nhưng có thể được thực hiện . Làm tổ rất dễ, và bạn làm như bạn đã nói.


(Liên quan đến số 5) Vì vậy, trong trường hợp phân cụm lồng nhau, người ta chỉ cần chọn biến cụm cấp cao nhất và đó là?
Theodore Lytras

Không, bạn có thể tạo cấu trúc tương quan có thể trao đổi hai cấp phân cấp và ước tính nhất quán hai tham số tương quan riêng biệt cho tương quan bằng thuật toán EM 3 bước. Bằng cách đó, bạn sẽ biết trẻ em trong cộng đồng có mối tương quan với nhau, nhưng không tương quan như trẻ em trong một gia đình.
AdamO

Xin lỗi, tôi không hiểu điều này. Bạn có thể chỉ cho tôi một số mã, tốt nhất là trong R hoặc Stata? Tôi đoán rằng sẽ giúp.
Theodore Lytras

1
@TheodoreLytras xin lỗi, tôi đã nhầm. Khẳng định trước của bạn là chính xác. Từ chính tờ giấy tôi đã liên kết, "Ngoài ra, nếu nhiều cụm được lồng hoàn hảo, cụm GEE trên cụm cấp cao nhất cho cấu trúc tương quan đa cấp thông qua công cụ ước tính phương sai bánh sandwich".
AdamO

1
Có thể bạn có ý gì khác, nhưng khi bạn nêu "Cấu trúc tương quan trong GEE, không giống như các mô hình hỗn hợp, không ảnh hưởng đến ước tính tham số cận biên", tôi nghĩ điều này không đúng. Ít nhất, nếu bạn muốn nói rằng các hệ số không thay đổi bằng cách chọn một ma trận tương quan làm việc khác, thì đây không phải là điều xảy ra: ma trận tương quan hoạt động trong ma trận trọng số và ảnh hưởng đến ma trận hiệp phương sai cũng như các hệ số.
Nick

6

(1) Bạn có thể sẽ cần một số loại cấu trúc tự phát, đơn giản vì chúng tôi hy vọng các phép đo được thực hiện cách xa nhau sẽ ít tương quan hơn so với các phép đo gần nhau hơn. Trao đổi sẽ cho rằng tất cả chúng đều tương quan như nhau. Nhưng như mọi thứ khác, nó phụ thuộc.

(2) Tôi nghĩ rằng loại quyết định này được đưa ra để suy nghĩ về cách dữ liệu được tạo ra, thay vì nhìn chúng trông như thế nào.

(4) nó phụ thuộc. Ví dụ, trẻ em được lồng trong trường học, trong hầu hết các trường hợp, không được coi là độc lập. Do sự phân tán xã hội, v.v., nếu tôi biết điều gì đó về một đứa trẻ ở một ngôi trường nhất định, thì có lẽ tôi biết ít nhất một chút về những đứa trẻ khác trong trường. Tôi đã từng sử dụng GEE để xem xét mối quan hệ giữa các chỉ số kinh tế và xã hội khác nhau và tỷ lệ béo phì trong một đoàn hệ sinh tại nơi những người tham gia được làm tổ trong các khu phố. Tôi đã sử dụng một cấu trúc trao đổi. Bạn có thể tìm thấy bài báo ở đây và kiểm tra một số tài liệu tham khảo, bao gồm 2 từ các tạp chí epi.

(5) Rõ ràng là như vậy (ví dụ: xem ví dụ này ), nhưng tôi không thể giúp với đặc tả R khi thực hiện việc này.

Zeger SL, Liang KY, Albert PS. Các mô hình cho dữ liệu theo chiều dọc: một cách tiếp cận phương trình ước lượng tổng quát. Sinh trắc học. 1988; 44: 1049 Từ60.

Hubbard AE, Aotta J, Fleischer N, van der Laan M, Lippman S, Bruckner T, Satariano W. To GEE hay không với GEE: so sánh chức năng ước tính và phương pháp dựa trên khả năng để ước tính mối liên quan giữa các khu phố và sức khỏe. Dịch tễ học. 2009

Hanley JA, Negassa A, Edwardes MDB, Forrester JE. Phân tích thống kê dữ liệu tương quan bằng các phương trình ước lượng tổng quát: một định hướng. Là J Epidemiol. 2003; 157: 364.


Điều này thực sự hữu ích, nhưng nó khiến tôi tự hỏi tại sao mọi người sau đó sẽ sử dụng một cấu trúc độc lập, bởi vì cụm mỗi se có một mức độ tương tự giữa các quan sát. Tuy nhiên, tôi có ấn tượng rằng trong trường hợp các trường, sự tương đồng có liên quan đến các trường khác , và trong mỗi học sinh sẽ độc lập. Vì vậy, tôi vẫn không rõ ràng về điều đó.
Theodore Lytras

Có, nếu bạn giới hạn mô hình mẫu và mô hình con của bạn vào một trường duy nhất, không phải lo lắng. Trong trường hợp này, sẽ hợp lý hơn khi giả sử các lỗi là iid. Nhưng một khi bạn bắt đầu kết hợp trẻ em từ các trường khác nhau vào cùng một mẫu / mô hình, giả định đó sẽ trở nên khó khăn, trừ khi bạn tính đến trường trong mô hình, tức là các lỗi có điều kiện ở trường được giả định là iid.
DL Dahly

Cũng đáng lưu ý rằng mọi người có thể hữu ích hơn cho bạn nếu bạn có thể cung cấp một số chi tiết về kích thước mẫu, số lượng và thời gian của các biện pháp lặp lại, số cụm, v.v.
DL Dahly

2
@DLDahly quan điểm của bạn trong (1) không phải là điều tôi thường thấy trong các phân tích bảng thống kê sinh học. Một trong những giả định đằng sau các cấu trúc tương quan AR-N là, khi có đủ thời gian giữa chúng, hai phép đo trên cùng một cá nhân sẽ không tương quan như hai phép đo giữa các cá thể khác nhau. Tuy nhiên, các yếu tố gây nhiễu chính giữa các cụm thường không phải là các biến số thời gian khác nhau (như các dấu hiệu di truyền) và giả sử khác là rất khó (nếu không nói là không thể) để đánh giá. Một lorrelogram là một nơi rất tốt để bắt đầu, mặc dù.
AdamO

1

(0) Nhận xét chung: hầu hết các mô hình tôi thấy trên crossvalidated đều quá phức tạp. Đơn giản hóa nếu có thể. Nó thường có giá trị mô hình hóa với GEE và mô hình hỗn hợp để so sánh kết quả.
(1) Có. Chọn trao đổi. Câu trả lời rõ ràng của tôi dựa trên lợi ích được chào mời rộng rãi nhất của GEE: khả năng phục hồi của các ước tính đối với các giả định được đưa ra.
Nếu bạn nhìn vào các nghiên cứu trong lĩnh vực của bạn, bạn sẽ thấy exch là tùy chọn mặc định. Nó không có nghĩa là nó là tốt nhất, nhưng nên là người đầu tiên xem xét. Tư vấn exch sẽ là lời khuyên tốt nhất mà không có kiến ​​thức chi tiết về dữ liệu của bạn.
(2) Có, có các cách tiếp cận dựa trên dữ liệu như "QIC". Đây là một ví dụ về Stata, nhưng được chấp nhận rộng rãi như một lựa chọn hợp lý, mặc dù rất hiếm khi được sử dụng trong thực tế:http://www.stata-journal.com/sjpdf.html?articlenum=st0126 )
(3) Ước tính điểm không bao giờ giống nhau (trừ khi bạn đang sử dụng cấu trúc tương quan độc lập), nhưng thường khá gần gũi. Bạn có thể tìm thấy nhiều bài viết so sánh ước tính mô hình hiệu ứng đơn giản / gee / hỗn hợp để cảm nhận về điều này ( https://recherche.univ-lyon2.fr/greps/IMG/pdf/JEBS.pdf ) Hầu hết các sách giáo khoa cũng có bảng hoặc hai cho việc này. Đối với cấu trúc tương quan độc lập, về cơ bản, bạn đang chạy mô hình poisson với các SE mạnh mẽ. Vì vậy, các ước tính sẽ là chính xác như nhau. Các SE thường lớn hơn. Nhưng đôi khi SE mạnh mẽ lại nhỏ hơn (đó là cuộc sống: google cung cấp giải thích không đau nếu quan tâm)
(4) Xem (1) và (2) ở trên.
(5) Không. Hoặc nói rõ hơn, bạn có thể làm bất cứ điều gì nếu bạn nỗ lực hết sức nhưng điều đó rất hiếm khi đáng để nỗ lực.


0

Bạn đang sử dụng sai phương pháp với một người gee để làm những gì bạn đang làm bởi vì bạn không biết cấu trúc và kết quả của bạn sẽ có thể bị nhầm lẫn. Tham khảo Jamie Robinson này. Bạn cần sử dụng lâu dài. TMLE (đánh dấu van der laan) hoặc có lẽ là một gee với trọng lượng iptw. Không tính toán tương quan không đánh giá thấp phương sai. Chỉ cần nghĩ rằng nếu tất cả các biện pháp lặp đi lặp lại tương quan 100%, thì bạn thực sự sẽ có ít quan sát hơn (về cơ bản chỉ n đối với n đối tượng của bạn) và n nhỏ hơn có nghĩa là phương sai cao hơn.


Nếu bạn có loại kết quả không tồn tại, bạn có thể sử dụng phương pháp gee với cấu trúc chính xác độc lập và trọng số iptw như đề xuất cho các ước tính không thiên vị, giả sử bạn có được điểm số đúng. TMLE tốt nhất là khá nhiều trong mọi trường hợp, tồn tại hay không bởi vì bạn có thể sử dụng học tập đồng bộ để dự đoán điểm số xu hướng và hồi quy tuần tự mà vẫn có được suy luận hiệu quả. Cách tiếp cận của bạn chắc chắn sẽ bị sai lệch và đưa ra suy luận không chính xác và kích thước mẫu của bạn càng lớn, nếu không có hiệu lực, bạn có thể sẽ xác định được một hiệu ứng đáng kể sai !!
Jonathan Levy

Điều này có thể sử dụng chi tiết hơn. Janie Robinson là gì? Giấy nào của van der Laan?
mdewey

@mdewey xin lỗi, lỗi đánh máy, có nghĩa là Jamie Robins. Hãy thử Robins, hernan, Babette 2000 mô hình cấu trúc cận biên và suy luận nguyên nhân - phương pháp tuyệt vời trong đó cho kết quả không tồn tại bao gồm cả cách làm msm với bộ điều chỉnh hiệu ứng. Đối với laan, tham khảo các cuốn sách, mục tiêu học tập. Như tôi đã nói, laan có lẽ là tốt nhất nhưng cần nhiều hơn để hiểu. Gói R Ltmle thực hiện phương pháp này nhưng mất một chút thời gian để tìm hiểu.
Jonathan Levy
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.