Mô hình hóa dữ liệu theo chiều dọc trong đó ảnh hưởng của thời gian thay đổi ở dạng chức năng giữa các cá nhân


32

Bối cảnh :

Hãy tưởng tượng bạn đã có một nghiên cứu theo chiều dọc, đo lường một biến phụ thuộc (DV) mỗi tuần một lần trong 20 tuần trên 200 người tham gia. Mặc dù tôi quan tâm đến chung, các DV điển hình mà tôi nghĩ đến bao gồm hiệu suất công việc sau khi thuê hoặc các biện pháp hạnh phúc khác nhau sau can thiệp tâm lý lâm sàng.

Tôi biết rằng mô hình đa cấp có thể được sử dụng để mô hình hóa mối quan hệ giữa thời gian và DV. Bạn cũng có thể cho phép các hệ số (ví dụ: chặn, độ dốc, v.v.) thay đổi giữa các cá nhân và ước tính các giá trị cụ thể cho người tham gia. Nhưng điều gì sẽ xảy ra nếu khi kiểm tra trực quan dữ liệu bạn thấy rằng mối quan hệ giữa thời gian và DV là bất kỳ một trong những điều sau đây:

  • khác nhau ở dạng chức năng (có lẽ một số là tuyến tính và một số khác là hàm mũ hoặc một số có sự gián đoạn)
  • khác nhau về phương sai lỗi (một số cá nhân có nhiều biến động từ điểm này sang điểm khác)

Câu hỏi :

  • Điều gì sẽ là một cách tốt để tiếp cận mô hình dữ liệu như thế này?
  • Cụ thể, cách tiếp cận nào là tốt trong việc xác định các loại mối quan hệ khác nhau và phân loại các cá nhân liên quan đến loại của họ?
  • Những triển khai nào tồn tại trong R cho các phân tích như vậy?
  • Có bất kỳ tài liệu tham khảo về cách làm điều này: sách giáo khoa hoặc ứng dụng thực tế?

Câu trả lời:


20

Tôi sẽ đề nghị xem xét ba hướng sau:

  • Phân cụm theo chiều dọc : điều này không được giám sát, nhưng bạn sử dụng phương pháp k-mean dựa trên tiêu chí Calinsky để đánh giá chất lượng của phân vùng (gói kml và các tài liệu tham khảo có trong trợ giúp trực tuyến); về cơ bản, nó sẽ không giúp xác định hình dạng cụ thể cho khóa học thời gian cá nhân, mà chỉ tách riêng hồ sơ tiến hóa đồng nhất
  • một số loại đường cong tăng trưởng tiềm ẩn chiếm tỷ lệ không đồng nhất: dự đoán tốt nhất của tôi sẽ là xem xét các tài liệu tham khảo rộng rãi xung quanh phần mềm MPlus , đặc biệt là Câu hỏi thường gặp và gửi thư. Tôi cũng đã nghe nói về mô hình dị vòng nhân hiệu ứng ngẫu nhiên (thử tìm hiểu về các từ khóa đó). Tôi thấy những giấy tờ này ( 1 , 2 ) thú vị, nhưng tôi đã không xem xét chúng một cách chi tiết. Tôi sẽ cập nhật với các tài liệu tham khảo về đánh giá tâm thần kinh một lần trở lại văn phòng của tôi.
  • PCA chức năng ( gói fpca ) nhưng có thể đáng để xem xét phân tích dữ liệu chức năng

Các tài liệu tham khảo khác (chỉ cần duyệt khi đang bay):


1
Cảm ơn. Ý tưởng sử dụng một thủ tục phân cụm đã xảy ra với tôi. Tôi tưởng tượng thách thức sẽ là nắm bắt đầy đủ và cân nhắc các đặc điểm đường cong cấp độ cá nhân có thể theo một cách có ý nghĩa về mặt lý thuyết. Tôi sẽ xem thử cách nó hoạt động trong kml.
Jeromy Anglim

1
Chà, nó hoạt động khá tốt mặc dù giao diện rất tệ (và tôi biết anh chàng xây dựng nó :) - Tôi đã sử dụng nó hai tháng trước để tách các nhóm lâm sàng dựa trên hồ sơ cá nhân trên các phép đo phát triển (Brunet-Lézine).
chl

1
Đây là một tài liệu tham khảo chính khác cho FDA: psych.mcgill.ca/misc/fda
Mike Lawrence

1
Tôi tìm thấy phần giới thiệu này về liên kết của FDA bởi Ramsay (2008), đặc biệt có thể truy cập gbi.agrsci.dk/~shd/public/FDA2008/FDA_Sage.pdf
Jeromy Anglim

8

Tôi khuyên bạn nên xem qua một vài bài báo của Heping Zhang bằng cách sử dụng các spline thích ứng để mô hình hóa dữ liệu theo chiều dọc:

Ngoài ra, xem trang MASAL để biết phần mềm bao gồm gói R.


6

Đối với tôi, có vẻ như Mô hình Hỗn hợp Tăng trưởng có thể có tiềm năng cho phép bạn kiểm tra phương sai lỗi của mình. ( PDF tại đây). (Tôi không chắc mô hình dị thể nhân là gì, nhưng tôi chắc chắn sẽ phải kiểm tra chúng).

Các mô hình quỹ đạo dựa trên nhóm tiềm ẩn đã trở nên thực sự phổ biến gần đây trong tội phạm học. Nhưng nhiều người chỉ đơn giản chấp nhận rằng các nhóm thực sự tồn tại và một số nghiên cứu sắc sảo đã chỉ ra rằng bạn sẽ tìm thấy các nhóm ngay cả trong dữ liệu ngẫu nhiên. Ngoài ra, cần lưu ý phương pháp mô hình hóa dựa trên nhóm của Nagin không cho phép bạn đánh giá lỗi của mình (và thành thật mà nói tôi chưa bao giờ thấy một mô hình nào trông giống như sự gián đoạn).

Mặc dù sẽ khó khăn với 20 điểm thời gian, nhưng với mục đích khám phá, việc tạo ra các phương pháp phỏng đoán đơn giản để xác định các mẫu có thể hữu ích (ví dụ: luôn luôn thấp hoặc luôn luôn cao, hệ số biến thiên). Tôi đang hình dung các biểu đồ thu nhỏ trong một bảng tính hoặc các ô tọa độ song song nhưng tôi nghi ngờ chúng sẽ hữu ích (tôi thực sự chưa từng thấy một âm mưu tọa độ song song nào rất sáng sủa).

Chúc may mắn


@chl, Không vấn đề gì, Cảm ơn bạn vì tất cả các tài nguyên bạn đã liệt kê ở đây.
Andy W

Điểm tốt về các nhóm tiềm ẩn. Tôi đã thấy một số ứng dụng của phân tích lớp và phân tích cụm tiềm ẩn trong đó dường như chỉ khắc lên một biến int liên tục như loại thấp & cao ( jeromyanglim.blogspot.com/2009/09/ế ). Tuy nhiên, tôi có một số dữ liệu theo chiều dọc ở cấp độ cá nhân trông giống như chúng đến từ các quy trình tạo dữ liệu khác biệt về mặt phân loại (ví dụ: luôn luôn cao, luôn thấp, tăng dần, tăng đột ngột, v.v.) và trong các danh mục có sự thay đổi liên tục hơn của các tham số.
Jeromy Anglim

@Jeromy, tôi không nghĩ rằng công việc tôi đã trích dẫn sẽ không khuyến khích mọi người sử dụng các phương pháp đó để xác định các nhóm tiềm ẩn. Tôi muốn nói rằng vấn đề của công việc là bạn không thể sử dụng các phương pháp như vậy để chỉ suy ra sự tồn tại của các nhóm, bởi vì bạn sẽ luôn tìm thấy các nhóm, ngay cả trong dữ liệu ngẫu nhiên. Nó tùy thuộc vào sự giải thích chủ quan hơn cho dù những nhóm bạn tìm thấy là có thật hay chỉ đơn giản là tạo tác của phương pháp. Bạn có thể xác định một số lý thuyết logic tạo ra các quy trình như vậy và sau đó xem liệu các nhóm được xác định có phù hợp với các lý thuyết đó không.
Andy W

5

Bốn năm sau khi hỏi câu hỏi này, tôi đã học được một vài điều, vì vậy có lẽ tôi nên thêm một vài ý tưởng.

Tôi nghĩ mô hình phân cấp Bayes cung cấp một cách tiếp cận linh hoạt cho vấn đề này.

Phần mềm : Các công cụ như jags, stan, WinBugs, v.v. có khả năng kết hợp với các gói giao diện R tương ứng của chúng (ví dụ: rjags, rstan) giúp dễ dàng xác định các mô hình như vậy.

Thay đổi lỗi bên trong người: Các mô hình Bayes giúp dễ dàng xác định phương sai lỗi bên trong là một yếu tố ngẫu nhiên khác nhau giữa mọi người.

yi=1,...,nj=1,...J

yijN(μi,σi2)
μi=γ
γN(μγ,σγ2)
σiGamma(α,β)

Do đó, độ lệch chuẩn của mỗi người có thể được mô hình hóa như một phân phối gamma. Tôi đã thấy đây là một thông số quan trọng trong nhiều lĩnh vực tâm lý, nơi mọi người thay đổi mức độ thay đổi theo thời gian.

Các lớp đường cong tiềm ẩn: Tôi chưa khám phá ý tưởng này nhiều, nhưng việc xác định hai hoặc nhiều hàm tạo dữ liệu có thể cho mỗi cá nhân và sau đó để mô hình Bayes chọn mô hình có khả năng nhất cho một cá nhân cụ thể. Do đó, thông thường bạn sẽ nhận được xác suất sau cho mỗi cá nhân về hình thức chức năng nào mô tả dữ liệu cá nhân.

Như một bản phác thảo ý tưởng cho một mô hình, bạn có thể có một cái gì đó như sau:

yijN(μij,σ2)
μij=γiλij(1)+(1γi)λij(2)
λij(1)=θ1i(1)+θ2i(1)exp(θ3i(1))
λij(2)=θ1i(2)+θ2i(2)xij+θ3i(2)xij2
γi=Bernoulli(πi)

Where xij is time and λij(1) represents expected values for a three parameter exponential model and λij(2) represents expected values for a quadratic model. πi represents the probability that model will choose λij(1).


I've also been moving to the Bayesian framework, and have been reading on using Gaussian Processes for time series analysis of uncertain function forms. Still unclear how it can be applied to the case of hierarchical data (see my unanswered query here: groups.google.com/d/msg/stan-users/yjDWtMhxQQE/2TiYevy0ZwUJ)
Mike Lawrence

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.