Ví dụ dữ liệu tốt cần thiết với covariate bị ảnh hưởng bởi phương pháp điều trị


19

Tôi đã xem xét rất nhiều bộ dữ liệu R, bài đăng trong DASL và các nơi khác, và tôi không tìm thấy nhiều ví dụ hay về bộ dữ liệu thú vị minh họa phân tích hiệp phương sai cho dữ liệu thử nghiệm. Có rất nhiều bộ dữ liệu "đồ chơi" với dữ liệu được lập trong sách giáo khoa.

Tôi muốn có một ví dụ trong đó:

  • Dữ liệu là có thật, với một câu chuyện thú vị
  • Có ít nhất một yếu tố điều trị và hai hiệp phương sai
  • Ít nhất một đồng biến bị ảnh hưởng bởi một hoặc nhiều yếu tố điều trị và một không bị ảnh hưởng bởi các phương pháp điều trị.
  • Thử nghiệm hơn là quan sát, tốt nhất là

Lý lịch

Mục tiêu thực sự của tôi là tìm một ví dụ tốt để đặt họa tiết cho gói R của tôi. Nhưng một mục tiêu lớn hơn là mọi người cần xem các ví dụ tốt để minh họa một số mối quan tâm quan trọng trong phân tích hiệp phương sai. Hãy xem xét kịch bản trang điểm sau đây (và xin vui lòng hiểu rằng kiến ​​thức về nông nghiệp của tôi là tốt nhất).

  • Chúng tôi làm một thí nghiệm trong đó phân bón được phân ngẫu nhiên thành các ô, và một vụ mùa được trồng. Sau một thời gian sinh trưởng thích hợp, chúng tôi thu hoạch vụ mùa và đo lường một số đặc tính chất lượng - đó là biến phản ứng. Nhưng chúng tôi cũng ghi lại tổng lượng mưa trong thời kỳ sinh trưởng và độ chua của đất tại thời điểm thu hoạch - và, tất nhiên, phân bón nào đã được sử dụng. Vì vậy, chúng tôi có hai hiệp phương sai và điều trị.

Cách thông thường để phân tích dữ liệu kết quả sẽ phù hợp với một mô hình tuyến tính với việc xử lý như là một yếu tố và các hiệu ứng cộng cho các hiệp phương sai. Sau đó, để tóm tắt kết quả, người ta tính toán "phương tiện điều chỉnh" (phương pháp bình phương nhỏ nhất của AKA), đó là những dự đoán từ mô hình cho mỗi loại phân bón, với lượng mưa trung bình và độ axit trung bình của đất 3. Điều này đặt mọi thứ lên một mức bằng nhau, bởi vì sau đó khi chúng ta so sánh các kết quả này, chúng ta đang giữ lượng mưa và độ axit không đổi.

Nhưng đây có lẽ là điều sai lầm - vì phân bón có thể ảnh hưởng đến độ chua của đất cũng như phản ứng. Điều này làm cho điều chỉnh có nghĩa là sai lệch, bởi vì hiệu quả điều trị bao gồm ảnh hưởng của nó đối với tính axit. Một cách để xử lý vấn đề này là loại bỏ tính axit ra khỏi mô hình, sau đó các phương tiện điều chỉnh lượng mưa sẽ cung cấp một so sánh công bằng. Nhưng nếu tính axit là quan trọng, sự công bằng này có chi phí lớn, trong sự gia tăng biến đổi dư.

Có nhiều cách để khắc phục điều này bằng cách sử dụng phiên bản điều chỉnh độ axit trong mô hình thay vì giá trị ban đầu của nó. Bản cập nhật sắp tới cho các lsmeans gói R của tôi sẽ giúp việc này hoàn toàn dễ dàng. Nhưng tôi muốn có một ví dụ tốt để minh họa nó. Tôi sẽ rất biết ơn và sẽ thừa nhận, bất cứ ai có thể chỉ cho tôi một số bộ dữ liệu minh họa tốt.


1
Mặc dù đây không phải là một câu hỏi quan trọng và thú vị, nhưng dường như nó có thể vi phạm các quy tắc về chủ đề : " Các câu hỏi về việc lấy các bộ dữ liệu cụ thể là ngoài chủ đề (chúng quá chuyên biệt). "
Glen_b -Reinstate Monica


1
Ấn tượng của tôi về các câu trả lời cho đến nay là chúng tôi thận trọng đưa ra các câu hỏi khác như kiểm tra trống bằng cách phán quyết chắc chắn có lợi cho nó, nhưng chúng tôi chủ yếu ủng hộ câu hỏi đặc biệt này và thậm chí có chút háo hức muốn xem loại câu trả lời bạn có thể nhận được (có thể bit đó chỉ là tôi). Những gì chúng tôi sẽ không muốn là những câu trả lời bằng văn bản của câu hỏi này yêu cầu các bộ dữ liệu để chứng minh điểm với số liệu thống kê nhưng không phải về số liệu thống kê. Tức là, đó là một điều để yêu cầu trợ giúp trong việc thể hiện một nguyên tắc thống kê, nhưng sẽ là một yêu cầu khác đối với các bộ dữ liệu dành riêng cho tên miền ...
Nick Stauner

3
OK, nghe có vẻ là một ý tưởng tốt. Tôi đã làm những điều tồi tệ hơn trong quá khứ để hạ thấp danh tiếng của mình ...
rvl

2
@SteveS Tôi đồng ý rằng đó là một ứng cử viên tốt cho tiền thưởng; thực sự tôi chỉ đến đây để đặt một cái lên nó , chỉ để khám phá ra rằng Nga đã làm như vậy rồi. Nếu không có câu trả lời hay trong một tuần, tôi có thể xem xét đưa tiền thưởng thứ hai vào đó. Russ: tiền thưởng cho những câu hỏi thú vị có xu hướng thu hút đủ sự chú ý rằng những người ủng hộ tiếp theo thường gần như trả tiền cho họ, vì vậy, sự mất mát danh tiếng thường ít dốc hơn rất nhiều so với cái nhìn đầu tiên.
Glen_b -Reinstate Monica

Câu trả lời:


6

Bạn có thể muốn kiểm tra mediationgói R. Nó bao gồm dữ liệu thực nghiệm như jobsframingnơi mà biến điều trị ảnh hưởng đến cả biến phản ứng và biến số (nghĩa là các trung gian của hiệu quả điều trị), cùng với các biến số không bị ảnh hưởng bởi điều trị.

Tôi đã xem xét tài liệu hòa giải bởi vì mặc dù bạn đã mô tả chính xác một nghiên cứu hòa giải: hiệu quả phân bón đối với chất lượng cây trồng được trung gian thông qua ảnh hưởng của nó đối với độ chua của đất. Ngay cả khi các bộ dữ liệu trong mediationgói không làm bạn hài lòng, bạn có thể tìm thấy một bộ nếu bạn xem xét tài liệu hòa giải.


Cảm ơn. Tôi đã cài đặt gói và sẽ xem xét nó. Và một cơ hội để học hỏi một cái gì đó mới.
rvl

Điều thú vị là dữ liệu việc làm đã được đề cập trong hai trong số ba cuộc nói chuyện trong một phiên JSM mà tôi vừa tham dự ...
rvl

1
Chà, tôi ước tôi có thể chia tiền thưởng bằng cách nào đó. Nhưng gói này có các bộ dữ liệu sẵn sàng rất phù hợp với những gì tôi yêu cầu, vì vậy @MasatoNakazawa nhận được tiền thưởng. Cám ơn rất nhiều. Sử dụng framingdữ liệu, các sơ đồ tương tác của LSmeans (dựa trên mô hình logistic) khi biến trung gian được giữ cố định khác biệt đáng kể so với biến được đặt thành các giá trị được dự đoán bởi các phương pháp điều trị và các hiệp phương sai khác, do đó cho thấy tầm quan trọng của việc lấy trung gian biến thành tài khoản.
rvl

1
Cảm ơn bác sĩ Lenth. Thật ra tôi đã trích dẫn bài viết của bạn trong luận án của tôi. Tôi rất vinh dự tôi bằng mọi cách có thể giúp đỡ cho một nhà thống kê thành lập như bạn.
Masato Nakazawa

4

Tôi nghĩ rằng tôi sẽ cho thấy cách phân tích được đưa ra với một trong các bộ dữ liệu trong gói hòa giải . Trong đó framing, một thí nghiệm được thực hiện khi các đối tượng có cơ hội gửi thông điệp tới Quốc hội về vấn đề nhập cư. Tuy nhiên, một số đối tượng ( treat=1) lần đầu tiên được hiển thị một câu chuyện tin tức miêu tả tiếng Latin theo cách tiêu cực. Bên cạnh phản hồi nhị phân (dù họ có gửi tin nhắn hay không), chúng tôi cũng đo lường emp, trạng thái cảm xúc của các đối tượng sau khi điều trị được áp dụng. Có nhiều biến số nhân khẩu học là tốt.

Trước tiên, hãy tải các gói cần thiết trong R và thay đổi nhãn cho educchuỗi ngắn hơn.

> library("lsmeans")
> library("mediation")
> levels(framing$educ) = c("NA","Ref","< HS", "HS", "> HS","Coll +")

Bây giờ phù hợp với một mô hình hồi quy logistic

> framing.glm = glm(cong_mesg ~ age + income + educ + emo + gender * factor(treat),
+                   family = binomial, data = framing)

Dưới đây là một màn hình trong những phương tiện điều chỉnh thông thường, nơi dự đoán được thực hiện với sự đồng biến age, incomeemođặt ở giá trị trung bình của chúng:

> lsmip(framing.glm, treat ~ educ | gender, type = "response")

(Biểu đồ tương tác của "phương tiện điều chỉnh" thông thường, được chuyển đổi sang thang đo đáp ứng)

Đây là một kết quả gây tò mò bởi vì hiệu quả điều trị được hiển thị ngược lại với nữ giới so với nam giới và hiệu quả của giáo dục không đơn điệu như người ta tưởng.

Lưu ý, tuy nhiên, emolà một phép đo sau điều trị. Điều này có nghĩa là việc điều trị có thể đã ảnh hưởng đến nó, tức emolà một hiệp phương pháp trung gian; và do đó, có thể không có ý nghĩa khi so sánh các dự đoán của biến trả lời trong khi giữ emohằng số. Thay vào đó, hãy xem xét các dự đoán emođược đặt ở các giá trị dự đoán được đưa ra treatvà các biến nhân khẩu học.

> lsmip(framing.glm, treat ~ educ | gender, type = "response",
+       cov.reduce = emo ~ treat*gender + age + educ + income)

(Biểu đồ tương tác của các dự đoán có hiệu lực trung gian)

Kết quả này khá khác nhau, cho thấy emođóng vai trò trung gian mạnh mẽ. ( Gói hòa giải có chức năng ước tính sức mạnh của các hiệu ứng này.) Các dự đoán trên cho thấy rằng, tính đến phản ứng cảm xúc, các đối tượng nam tiếp xúc với câu chuyện tin tức tiêu cực có nhiều khả năng gửi tin nhắn hơn là nữ giới hoặc những người không nhìn thấy tin tức tiêu cực. Ngoài ra, hiệu ứng của educ(gần như) đơn điệu.

Một lần nữa xin cảm ơn @MasatoNakagawa đã chỉ cho tôi ví dụ thú vị này và làm tôi hài lòng với một số nghiên cứu gần đây về quan hệ nhân quả.


3

Tra cứu tương tác gen - môi trường nghiên cứu GWAS. Phân tích thống kê họ thực hiện về bản chất là những gì bạn đã mô tả. Câu hỏi đặt ra là môi trường của bạn có quan trọng đối với kiểu hình (tính năng quan sát được) không? Một trường phái suy nghĩ thường bỏ qua tất cả các thông tin môi trường và nói rằng trang điểm di truyền của bạn mô tả kiểu hình của bạn. Điều này trái ngược hoàn toàn với các nghiên cứu sinh thái nơi câu chuyện là môi trường là tất cả mọi thứ và họ bỏ qua các gen. Vì cả hai bên đang cố gắng hiểu cùng một vấn đề, gần đây đã có những nỗ lực hợp nhất hai bên.

Nói rằng chúng tôi đang nghiên cứu BMI. Chúng tôi lấy một vài thành phần chính đầu tiên của ma trận di truyền làm các hiệu ứng cố định do gen. Chúng tôi phù hợp với giáo dục với chỉ số 1 cho giáo dục tốt và 0 cho giáo dục kém là một hiệu ứng cố định. Có một mối tương quan hợp lý mạnh mẽ giữa chỉ số giáo dục và sự giàu có của cộng đồng mà người đó đến từ. Vì vậy, người ta sẽ tranh luận rằng các cộng đồng thu nhập thấp có nhiều khả năng có nhiều nhà hàng thức ăn nhanh hơn. Thức ăn nhanh hoạt động như một tác nhân gây béo phì .. "Kích hoạt một cái gì đó trong thiết lập di truyền của bạn khuyến khích sự tích tụ chất béo" vì vậy nó sẽ xuất hiện trong cấu trúc di truyền dưới một hình thức nào đó.

Mô phỏng dữ liệu như vậy không phải là một vấn đề. Tra cứu

http://pngu.mgh.harvard.edu/~purcell/plink/simulation.shtml

Điều này cho phép bạn mô phỏng dữ liệu GWAS (nghĩ về điều này như các đơn vị di truyền) chịu trách nhiệm về một triệu chứng. Nếu không được hướng dẫn nếu không nó sẽ tạo ra 1000 với triệu chứng và 1000 điều khiển. Định mức trong các mô phỏng mà tôi sử dụng là 9990 SNP không gây ra triệu chứng và 10 SNP làm. Đọc hướng dẫn về cách chúng được mô phỏng.

Đầu ra sẽ là 1 nếu người béo phì và 0 nếu không. Mô phỏng các yếu tố giáo dục (giáo dục đại học đã hoàn thành / chưa hoàn thành giáo dục đại học) dựa trên một số mối tương quan hợp lý với mức độ béo phì.

Hi vọng điêu nay co ich!!!


Cảm ơn. Vẫn đang giữ một số dữ liệu thực tế ... Ngoài ra, tôi không chắc nghiên cứu của GWAS là gì. DUH, chỉ cần tìm ra bằng cách theo liên kết.
rvl

Mặc dù tôi đã đưa tiền thưởng cho một người trả lời khác, tôi đánh giá cao đề xuất này và có ý định làm theo nó. Cảm ơn.
rvl

1

Tôi khuyên bạn nên đọc Freakonomics, và tìm các bài báo mà công việc của họ dựa trên, và xem liệu bạn có thể lấy dữ liệu đó không. Họ có một số công việc thực sự thú vị trên các bộ dữ liệu thực sự thú vị, và trong một số trường hợp, họ tìm ra những cách rất thông minh để kiểm tra các giả thuyết mặc dù có những hạn chế trong dữ liệu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.