Chỉ định cấu trúc hiệp phương sai: ưu và nhược điểm


15

Những lợi ích của việc chỉ định cấu trúc hiệp phương sai trong GLM (thay vì xử lý tất cả các mục ngoài đường chéo trong ma trận hiệp phương sai là 0) là gì? Ngoài việc phản ánh những gì người ta biết về dữ liệu, nó còn

  1. cải thiện lòng tốt của phù hợp?
  2. cải thiện độ chính xác dự đoán trên dữ liệu tổ chức?
  3. cho phép chúng tôi ước tính mức độ hiệp phương sai?

Các chi phí của việc áp đặt một cấu trúc hiệp phương sai là gì? Phải không

  1. thêm các biến chứng tính toán cho các thuật toán ước lượng?
  2. tăng số lượng tham số ước tính, cũng tăng AIC, BIC, DIC?

Có thể xác định cấu trúc hiệp phương sai đúng theo kinh nghiệm, hay đây là một cái gì đó phụ thuộc vào kiến ​​thức của bạn về quá trình tạo dữ liệu?

Bất kỳ chi phí / lợi ích tôi đã không đề cập?


5
Về cơ bản, bạn phải chỉ định cấu trúc hiệp phương sai trong GLM. Nếu bằng cách "giả sử không có hiệp phương sai", bạn có nghĩa là "tất cả các mục ngoài đường chéo trong ma trận hiệp phương sai đều bằng 0", thì tất cả những gì bạn đã làm là giả định một cấu trúc hiệp phương sai rất cụ thể. (Bạn có thể thậm chí cụ thể hơn, ví dụ, bằng cách giả sử rằng tất cả các phương sai đều bằng nhau.) Dòng dưới: Tôi không chắc liệu câu hỏi có ý nghĩa ở dạng hiện tại không. (Dù sao tôi cũng ủng hộ, vì tôi nghĩ rằng tôi sẽ học được rất nhiều khi các bậc thầy bắt đầu nói chuyện.) Hay tôi đang hiểu lầm bạn?
S. Kolassa - Tái lập Monica

Bạn đang đề cập đến cấu trúc hiệp phương sai trong GLM với phân phối hỗn hợp thông thường đa biến hoặc phân tích cấu trúc hiệp phương sai của ma trận hiệp phương sai, hay cái gì khác?
Tim

1
@StephanKolassa bạn có muốn sao chép nhận xét của mình vào câu trả lời không? Nó dường như trả lời câu hỏi tốt như nó sẽ nhận được.
Corone

@Corone: điểm tốt, cảm ơn đã nhắc nhở. Tôi đã đi và đăng một câu trả lời. Có lẽ ai đó sẽ hòa nhập và đưa ra một điều tốt hơn ...
S. Kolassa - Tái lập Monica

Câu trả lời:


13

Về cơ bản, bạn phải chỉ định cấu trúc hiệp phương sai trong GLM. Nếu bằng cách "giả sử không có hiệp phương sai", bạn có nghĩa là "tất cả các mục ngoài đường chéo trong ma trận hiệp phương sai đều bằng 0", thì tất cả những gì bạn đã làm là giả định một cấu trúc hiệp phương sai rất cụ thể. (Bạn có thể thậm chí cụ thể hơn, ví dụ, bằng cách giả sử rằng tất cả các phương sai đều bằng nhau.)

Đây thực sự là một biến thể của "Tôi không đăng ký bất kỳ triết lý nào; Tôi là người thực dụng." - "Bạn vừa mô tả triết lý mà bạn đăng ký."

Như vậy, tôi sẽ nói rằng lợi thế của việc suy nghĩ về cấu trúc hiệp phương sai là cơ hội sử dụng một mô hình phù hợp hơn với dữ liệu của bạn. Giống như bạn nên bao gồm các mối quan hệ chức năng đã biết cho giá trị mong đợi (hoặc giá trị trung bình) của các quan sát của bạn, bạn nên tính đến bất kỳ cấu trúc nào bạn biết trong hiệp phương sai.

Và tất nhiên, "nhược điểm" là bạn cần thực sự nghĩ về tất cả những điều này. Dễ dàng hơn nhiều để chỉ sử dụng cài đặt mặc định của phần mềm của bạn. Nhưng đây là loại giống như luôn luôn lái xe trong thiết bị đầu tiên bởi vì chiếc xe của bạn là thiết bị đầu tiên khi bạn mua nó và hiểu sự thay đổi thiết bị cần nỗ lực. Không được khuyến khích.


2
+1 Tôi đồng ý với mọi từ bạn đã viết, nhưng tôi không nghĩ rằng điều này giải quyết đầy đủ câu hỏi. Ví dụ, việc chỉ định cấu trúc hiệp phương sai phù hợp hơn có làm giảm dư lượng mô hình không?
Jack Tanner

1
@JackTanner: cảm ơn! Và bạn đã đúng khi tôi không trả lời đầy đủ câu hỏi của bạn, đó là lý do tại sao ban đầu tôi chỉ đăng bài này dưới dạng một bình luận. Sự thật mà nói: chẳng hạn, tôi không biết liệu việc chỉ định cấu trúc hiệp phương sai chính xác có nhất thiết sẽ giảm phần dư hay không. Tôi tưởng tượng rằng việc áp đặt cấu trúc bổ sung trên (hiệp phương sai) thậm chí có thể làm tăng nó - nhưng nó có thể tiết kiệm các tham số. Hãy nghĩ về cấu trúc AR (1) thay vì ma trận hiệp phương sai không cấu trúc. Tương tự cho các câu hỏi khác trong bài viết của bạn. Tôi chắc chắn sẽ quan tâm đến quan điểm của người khác về điều này.
S. Kolassa - Tái lập Monica

1
+1; Đó là một câu trả lời hữu ích, hơn nữa, simile là tuyệt vời.
russellpierce

2

Đây là một câu trả lời chưa hoàn chỉnh khác thậm chí không trực tiếp về GLM ... Theo kinh nghiệm rất hạn chế của tôi với mô hình phương trình cấu trúc (SEM), tôi đã chọn ra một vài ý tưởng mà tôi hy vọng có thể thêm điều gì đó vào cuộc thảo luận. Xin lưu ý rằng tôi đang nói về trải nghiệm (có giới hạn) với SEM, chứ không phải GLM mỗi lần , và tôi khá thờ ơ về việc liệu sự khác biệt này có thể trở nên quan trọng hay không. Tôi là người dùng thống kê nhiều hơn là một nhà thống kê, vì vậy tôi cũng không chắc chắn rằng những ý tưởng này sẽ áp dụng cho tất cả hoặc thậm chí hầu hết dữ liệu; Tôi chỉ thấy rằng họ đã áp dụng cho hầu hết của riêng tôi.

Đầu tiên, tôi nhấn mạnh sự nhấn mạnh của @ StephanKolassa về tầm quan trọng của việc mô hình hóa những gì bạn đã biết. Bạn thừa nhận điều này là một bên, nhưng tôi nghĩ những lợi ích mà bạn đang hỏi là lợi ích của việc mô hình hóa những gì bạn biết. Như vậy, chúng phản ánh một cách có ý nghĩa rằng mô hình kết quả của bạn sở hữu thông tin về cấu trúc hiệp phương sai mà bạn đã thêm.

Trong SEM , tôi đã tìm thấy (thông qua kinh nghiệm hạn chế, không phải qua nghiên cứu lý thuyết):

Những lợi ích

  1. Mô hình hóa cấu trúc hiệp phương sai sẽ cải thiện mức độ phù hợp (GoF) nếu hiệp phương sai mạnh hơn nhiều so với sai số chuẩn của nó (nghĩa là, nếu đường đối xứng là đáng kể). Điều này có nghĩa là bạn thường sẽ không cải thiện GoF bằng cách mô hình hóa các mối tương quan gần như bằng không và tính đa hình có thể gây ra vấn đề cho GoF vì nó làm tăng các lỗi tiêu chuẩn.

  2. Chưa thử đưa ra dữ liệu để dự đoán, nhưng trực giác của tôi là việc sửa các hiệp phương sai về 0 trong mô hình của bạn tương tự như dự đoán DV bằng cách kết hợp một tập hợp các phương trình hồi quy tuyến tính, đơn IV, riêng biệt. Không giống như phương pháp này, nhiều hồi quy chiếm tỷ lệ hiệp phương sai trong IV khi tạo ra một mô hình phương trình để dự đoán DV. Điều này chắc chắn cải thiện khả năng diễn giải bằng cách tách các hiệu ứng trực tiếp khỏi các tác động gián tiếp xảy ra hoàn toàn trong bộ IV được bao gồm. Thành thật mà nói, tôi không chắc liệu điều này có nhất thiết cải thiện dự đoán về DV hay không. Là người sử dụng thống kê và không phải là nhà thống kê, tôi đã kết hợp chức năng kiểm tra mô phỏng sau đây để đưa ra câu trả lời chưa đầy đủ (rõ ràng, "Có, độ chính xác dự đoán sẽ cải thiện khi mô hình kết hợp hiệp phương sai IV") trong trường hợp tương tự hy vọng này ...

    simtestit=function(Sample.Size=100,Iterations=1000,IV.r=.3,DV.x.r=.4,DV.z.r=.4) {
    require(psych); output=matrix(NA,nrow=Iterations,ncol=6); for(i in 1:Iterations) {
    x=rnorm(Sample.Size); z=rnorm(Sample.Size)+x*IV.r
    y=rnorm(Sample.Size)+x*DV.x.r+z*DV.z.r
    y.predicted=x*lm(y~x+z)$coefficients[2]+z*lm(y~x+z)$coefficients[3]
    bizarro.y.predicted=x*lm(y~x)$coefficients[2]+z*lm(y~z)$coefficients[2]
    output[i,]=c(cor(y.predicted,y)^2,cor(bizarro.y.predicted,y)^2,
    cor(y.predicted,y)^2>cor(bizarro.y.predicted,y)^2,cor(x,z),cor(x,y),cor(y,z))}
    list(output=output,percent.of.predictions.improved=100*sum(output[,3])/Iterations,
    mean.improvement=fisherz2r(mean(fisherz(output[,1])-fisherz(output[,2]))))}
    
    # Wrapping the function in str( ) gives you the gist without filling your whole screen
    str(simtestit())
    

    N= = IterationsnSample.Sizez = = x +y = = x + z +yxz

    1y.predicted

    2bizarro.y.predicted

    outputIterationsR2121>2rxyzoutputsimtestit()str( )R21rpsych

    R2R2IV.r) lớn hơn. Vì bạn có thể quen thuộc với chức năng GLM của bạn hơn tôi (hoàn toàn không phải vậy), nên bạn có thể thay đổi chức năng này hoặc sử dụng ý tưởng cơ bản để so sánh các dự đoán GLM qua nhiều IV mà bạn muốn mà không gặp quá nhiều khó khăn. Giả sử rằng điều đó sẽ (hoặc không) diễn ra theo cùng một cách, có vẻ như câu trả lời cơ bản cho câu hỏi thứ hai của bạn có lẽ là có, nhưng mức độ phụ thuộc vào mức độ mạnh mẽ của IVs. Sự khác nhau về lỗi lấy mẫu giữa dữ liệu được giữ và dữ liệu được sử dụng để phù hợp với mô hình có thể lấn át sự cải thiện về độ chính xác dự đoán của nó trong tập dữ liệu sau, bởi vì một lần nữa, sự cải thiện dường như nhỏ trừ khi tương quan IV mạnh (ít nhất là trong trường hợp cơ bản tối đa chỉ có hai IV).

  3. Chỉ định đường dẫn miễn phí cho hiệp phương sai giữa các IV trong mô hình có nghĩa là yêu cầu chức năng khớp mô hình để ước tính hệ số của đường dẫn này, biểu thị mức độ hiệp phương sai giữa các IV. Nếu chức năng GLM của bạn cho phép bạn chỉ định một mô hình trong đó hiệp phương sai giữa các IV được ước tính tự do thay vì cố định bằng 0, thì vấn đề của bạn là hy vọng đơn giản là tìm ra cách thực hiện điều này và làm thế nào để chức năng của bạn xuất ra ước tính đó. Nếu hàm của bạn ước tính hiệp phương sai IV theo mặc định, vấn đề của bạn sẽ đơn giản hóa hơn nữa cho vấn đề thứ hai (như trường hợp với lm( )).

Chi phí

  1. Có, ước tính hiệp phương sai giữa các IV có nghĩa là thuật toán phù hợp mô hình phải thực hiện một số công việc để ước tính hệ số của con đường đó. Không chỉ định rằng con đường trong mô hình thường có nghĩa là cố định hệ số về 0, có nghĩa là thuật toán phù hợp mô hình không cần ước tính hệ số. Ước tính các tham số hiệp phương sai bổ sung có nghĩa là mô hình tổng thể sẽ cần nhiều thời gian hơn để phù hợp. Trong các mô hình đã mất nhiều thời gian để ước tính, thời gian thêm có thể là đáng kể, đặc biệt là nếu bạn có nhiều IV.

  2. Có, một cấu trúc hiệp phương sai ước tính tự do ngụ ý ước tính tham số. Các quần thể có các tham số hiệp phương sai, vì vậy nếu bạn ước tính hiệp phương sai dân số, bạn đang ước tính các tham số. Tuy nhiên, nếu mô hình của bạn phù hợp hơn nhiều vì bạn chọn ước tính một mối tương quan không tầm thường thay vì sửa nó thành 0, bạn có thể mong đợi các tiêu chí thông tin của Akaike và Bayesian được cải thiện, giống như các tiêu chí khác kết hợp GoF. Tôi không quen với tiêu chí thông tin lệch lạc ( DIC mà bạn đang đề cập, phải không?), Nhưng đánh giá từ trang Wikipedia của nó , nó dường như cũng kết hợp GoF và hình phạt cho sự phức tạp của mô hình.

    Do đó, GoF chỉ cần cải thiện tỷ lệ nhiều hơn mức tăng độ phức tạp của mô hình để cải thiện DIC. Nếu điều này không xảy ra một cách tổng thể, các tiêu chí như những điều này bị phạt vì độ phức tạp của mô hình sẽ trở nên tồi tệ hơn khi bạn ước tính nhiều hiệp phương IV. Ví dụ, đây có thể là một vấn đề nếu IV của bạn không tương quan, nhưng cấu trúc hiệp phương sai được ước tính tự do dù sao vì bạn nghĩ IV có thể tương quan hoặc vì đó là cài đặt mặc định của chức năng của bạn. Nếu bạn có lý do lý thuyết trước đây để cho rằng mối tương quan là 0 và bạn không muốn mô hình của mình kiểm tra giả định này, thì đây là một trường hợp mà bạn có thể được biện minh trong việc sửa đường dẫn về 0. Nếu lý thuyết trước của bạn là gần đúng,

Bạn không làm việc với chức năng nào, nhưng một lần nữa, tôi chắc chắn tôi không quen với nó, vì vậy tôi chắc chắn câu trả lời này có thể được cải thiện, đặc biệt là câu trả lời của tôi cho câu hỏi lợi ích thứ hai (đối với một điều, toán học bằng chứng về những gì tôi đang trả lời bằng cách mô phỏng về hồi quy bội có lẽ có sẵn ở đâu đó ngoài kia). Tôi thậm chí không quen thuộc với GLM nói chung (giả sử bạn có ý khái quát hóa , không phải mô hình tuyến tính chung, như thẻ gợi ý), vì vậy tôi hy vọng ai đó sẽ nhận xét hoặc chỉnh sửa câu trả lời này nếu sự khác biệt từ SEM làm mất hiệu lực câu trả lời của tôi cho câu hỏi của bạn ở tất cả.

Tuy nhiên, có vẻ như chúng tôi đã chờ đợi mười tháng để các bậc thầy lên tiếng, vì vậy nếu điều này không khiến họ làm điều đó, tôi sẽ phải tự làm điều đó. Hãy cho tôi biết nếu bạn có một chức năng GLM cụ thể trong tâm trí rằng bạn muốn tôi gặp rắc rối trong R mặc dù. Tôi có thể tìm ra cách trả lời trực tiếp số 3 cho ứng dụng của bạn nếu bạn có thể chỉ định chức năng GLM quan tâm trong R. Tôi cũng không phải là chuyên gia về thử nghiệm mô phỏng, nhưng tôi nghĩ bốn câu hỏi khác của bạn có thể được kiểm tra bằng sim (trực tiếp hơn) quá.


2
+1 Một phản ứng chu đáo ấn tượng. Chào mừng đến với CV, Nick!
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.