Cho thấy 100 phép đo cho 5 đối tượng cung cấp thông tin ít hơn nhiều so với 5 phép đo cho 100 đối tượng


21

Tại một hội nghị, tôi tình cờ nghe được tuyên bố sau:

100 phép đo cho 5 đối tượng cung cấp thông tin ít hơn nhiều so với 5 phép đo cho 100 đối tượng.

Rõ ràng là điều này là đúng, nhưng tôi đã tự hỏi làm thế nào người ta có thể chứng minh nó bằng toán học ... Tôi nghĩ rằng một mô hình hỗn hợp tuyến tính có thể được sử dụng. Tuy nhiên, tôi không biết nhiều về toán học được sử dụng để ước tính chúng (Tôi chỉ chạy lmer4cho LMM và bmrscho GLMM :) Bạn có thể chỉ cho tôi một ví dụ về điều này là đúng không? Tôi muốn có một câu trả lời với một số công thức, hơn là chỉ một số mã trong R. Hãy thoải mái giả sử một cài đặt đơn giản, ví dụ như mô hình hỗn hợp tuyến tính với các đường và ngẫu nhiên được phân phối ngẫu nhiên.

PS một câu trả lời dựa trên toán học không liên quan đến LMM cũng sẽ ổn thôi. Tôi nghĩ về LMM vì dường như chúng là công cụ tự nhiên để giải thích tại sao các biện pháp ít hơn từ nhiều đối tượng lại tốt hơn nhiều biện pháp từ một số đối tượng, nhưng tôi có thể sai.


3
+1. Tôi đoán cài đặt đơn giản nhất sẽ là xem xét nhiệm vụ ước tính dân số có nghĩa là trong đó mỗi đối tượng có ý nghĩa riêng là và mỗi phép đo của đối tượng này được phân phối là . Nếu chúng ta lấy đo từ mỗi đối tượng, sau đó là cách tối ưu để thiết lập những gì và cho sản phẩm liên tục . μaN(μ,σa2)xN(a,σ2)nmnmnm=N
amip nói rằng Phục hồi Monica

"Tối ưu" theo nghĩa giảm thiểu phương sai của giá trị trung bình mẫu của thu được. N
amip nói rằng Phục hồi lại

1
Vâng. Nhưng đối với câu hỏi của bạn, chúng tôi không cần quan tâm đến cách ước tính phương sai; câu hỏi của bạn (tức là trích dẫn trong câu hỏi của bạn) tôi chỉ tin vào việc ước tính trung bình toàn cầu và rõ ràng là công cụ ước tính tốt nhất được đưa ra bởi ý nghĩa lớn của tất cả các điểm trong mẫu. Câu hỏi sau đó là: đưa ra , , , và , phương sai của gì? Nếu chúng ta biết điều đó, chúng ta sẽ có thể giảm thiểu nó theo với ràng buộcˉ xμx¯μ σ 2 σ 2 a n m ˉ x n n m = NN=nmμσ2σa2nmx¯nnm=N
amip nói phục hồi Monica

1
Tôi không biết làm thế nào để rút ra bất kỳ điều nào trong số đó, nhưng tôi đồng ý rằng điều đó có vẻ hiển nhiên: ước tính phương sai lỗi, tốt nhất là nên thực hiện tất cả các phép đo từ một chủ đề duy nhất; và để ước tính phương sai đối tượng, có lẽ tốt nhất là có đối tượng khác nhau với 1 phép đo mỗi đối tượng. Mặc dù không rõ ràng về ý nghĩa của nó, nhưng trực giác của tôi cho tôi biết rằng có đối tượng với 1 lần đo cũng sẽ tốt nhất. Tôi tự hỏi liệu điều đó có đúng không ...N NNNN
amip nói Phục hồi lại

2
Có thể có một cái gì đó tương tự: Phương sai của phương tiện theo từng đối tượng mẫu phải là , trong đó thuật ngữ đầu tiên là phương sai của chủ đề và thứ hai là phương sai của ước tính của từng đối tượng. Khi đó, phương sai của các chủ thể quá mức (nghĩa là ý nghĩa lớn) sẽ là mà được giảm thiểu khi . ( σ 2 một + σ 2 / n ) / m = σ 2 một / m + σ 2 / ( n m ) = σ 2 một / m + σ 2 / N = σ 2 một / m + c o n s t , m = Nσa2+σ2/n
(σa2+σ2/n)/m=σa2/m+σ2/(nm)=σa2/m+σ2/N=σa2/m+const,
m=N
amip nói phục hồi Monica

Câu trả lời:


25

Câu trả lời ngắn gọn là phỏng đoán của bạn là đúng khi và chỉ khi có mối tương quan giữa các lớp tích cực trong dữ liệu . Nói theo kinh nghiệm, hầu hết các bộ dữ liệu được phân cụm hầu hết thời gian cho thấy mối tương quan giữa các lớp tích cực, điều đó có nghĩa là trong thực tế phỏng đoán của bạn thường đúng. Nhưng nếu tương quan giữa các lớp là 0, thì hai trường hợp bạn đề cập đều có nhiều thông tin như nhau. Và nếu mối tương quan giữa các lớp là âm tính , thì thực tế sẽ ít thông tin hơn để thực hiện ít phép đo hơn đối với nhiều đối tượng hơn; chúng tôi thực sự muốn (liên quan đến việc giảm phương sai của ước tính tham số) để thực hiện tất cả các phép đo của chúng tôi trên một chủ đề.

Theo thống kê, có hai quan điểm mà chúng ta có thể nghĩ về điều này: một mô hình hiệu ứng ngẫu nhiên (hoặc hỗn hợp ) , mà bạn đề cập trong câu hỏi của bạn, hoặc một mô hình cận biên , cuối cùng có nhiều thông tin hơn ở đây.

Mô hình hiệu ứng ngẫu nhiên (hỗn hợp)

Giả sử chúng tôi có một bộ đối tượng mà chúng tôi đã thực hiện mỗi lần đo . Sau đó, một mô hình hiệu ứng ngẫu nhiên đơn giản của phép đo thứ từ đối tượng thứ có thể là trong đó là giao cố định, là hiệu ứng chủ thể ngẫu nhiên (với variance ), là thuật ngữ lỗi mức độ quan sát (với phương sai ) và hai thuật ngữ ngẫu nhiên sau là độc lập.m j i y i j = β + u i + e i j , β u i σ 2 u e i j σ 2 enmji

yij=β+ui+eij,
βuiσu2eijσe2

Trong mô hình này đại diện cho trung bình dân số và với một tập dữ liệu cân bằng (nghĩa là số lượng đo bằng nhau từ mỗi đối tượng), ước tính tốt nhất của chúng tôi chỉ đơn giản là trung bình mẫu. Vì vậy, nếu chúng ta lấy "nhiều thông tin hơn" có nghĩa là phương sai nhỏ hơn cho ước tính này, thì về cơ bản chúng ta muốn biết phương sai của mẫu có nghĩa như thế nào phụ thuộc vào và . Với một chút đại số, chúng ta có thể tìm ra n m var ( 1βnmσ2u>0nm

var(1nmijyij)=var(1nmijβ+ui+eij)=1n2m2var(ijui+ijeij)=1n2m2(m2ivar(ui)+ijvar(eij))=1n2m2(nm2σu2+nmσe2)= =σbạn2n+σe2nm.
Kiểm tra biểu thức này, chúng ta có thể thấy rằng bất cứ khi nào có bất kỳ phương sai chủ đề nào (nghĩa là ), việc tăng số lượng đối tượng ( ) sẽ làm cho cả hai thuật ngữ này nhỏ hơn, trong khi tăng số lượng số đo cho mỗi đối tượng (σbạn2>0nm) sẽ chỉ làm cho thuật ngữ thứ hai nhỏ hơn. (Để biết ý nghĩa thực tế của việc này đối với việc thiết kế các dự án nhân rộng nhiều trang web, hãy xem bài đăng trên blog này tôi đã viết cách đây một thời gian .)

Bây giờ bạn muốn biết điều gì xảy ra khi chúng ta tăng hoặc giảm hoặc trong khi giữ không đổi tổng số quan sát. Vì vậy, chúng tôi coi là một hằng số, sao cho toàn bộ biểu thức phương sai trông giống như càng nhỏ càng tốt khi càng lớn càng tốt có thể (tối đa , trong trường hợp , nghĩa là chúng tôi thực hiện một phép đo duy nhất từ ​​mỗi đối tượng).n n m σ 2 umnnmnn=nmm=1

σbạn2n+không thay đổi,
nn= =nmm= =1

Câu trả lời ngắn gọn của tôi đề cập đến mối tương quan giữa các lớp, vậy nó phù hợp ở đâu? Trong mô hình hiệu ứng ngẫu nhiên đơn giản này, mối tương quan giữa lớp là (phác họa một đạo hàm ở đây ). Vì vậy, chúng ta có thể viết phương trình phương sai ở trên dưới dạng Điều này không thực sự thêm bất kỳ cái nhìn sâu sắc về những gì chúng ta đã thấy ở trên, nhưng nó làm cho chúng ta tự hỏi: vì mối tương quan giữa các lớp là một hệ số tương quan trung thực và các hệ số tương quan có thể âm, điều gì sẽ xảy ra (và nó có nghĩa là gì) nếu trong lớp tương quan là tiêu cực? var(1

ρ= =σbạn2σbạn2+σe2
var(1nmΣtôiΣjytôij)= =σbạn2n+σe2nm= =(ρn+1-ρnm)(σbạn2+σe2)

Trong ngữ cảnh của mô hình hiệu ứng ngẫu nhiên, một mối tương quan giữa các lớp âm không thực sự có ý nghĩa, bởi vì nó ngụ ý rằng phương sai chủ thể bằng cách nào đó âm tính (như chúng ta có thể thấy từ phương trình ở trên và như được giải thích ở đâyở đây ) ... nhưng phương sai không thể âm! Nhưng điều này không có nghĩa là khái niệm về tương quan nội bộ tiêu cực không có ý nghĩa; nó chỉ có nghĩa là mô hình hiệu ứng ngẫu nhiên không có cách nào để diễn tả khái niệm này, đó là một thất bại của mô hình, không phải của khái niệm. Để thể hiện khái niệm này đầy đủ, chúng ta cần xem xét mô hình cận biên.σbạn2ρ

Mô hình cận biên

Đối với cùng một bộ dữ liệu này, chúng tôi có thể xem xét một mô hình được gọi là mô hình cận biên của , trong đó về cơ bản chúng tôi đã đẩy hiệu ứng chủ đề ngẫu nhiên từ trước vào thuật ngữ lỗi để chúng tôi có . Trong mô hình hiệu ứng ngẫu nhiên, chúng tôi coi hai thuật ngữ ngẫu nhiên và là iid , nhưng trong mô hình cận biên, chúng tôi thay vào đó xem xét để theo ma trận hiệp phương sai đường chéo như ytôij

yij=β+eij,
uieijeij=ui+eijuieijeijC
C=σ2[R000R000R],R=[1ρρρ1ρρρ1]
Nói cách khác, điều này có nghĩa là theo mô hình cận biên, chúng ta chỉ cần xem xét là mối tương quan dự kiến ​​giữa hai s từ cùng một chủ đề (chúng tôi giả sử mối tương quan giữa các chủ thể là 0). Khiρe*ρlà tích cực, trung bình hai quan sát được rút ra từ cùng một chủ đề có xu hướng giống nhau hơn (gần nhau hơn), trung bình hơn hai quan sát được rút ngẫu nhiên từ bộ dữ liệu trong khi bỏ qua phân cụm do các đối tượng. Khi là tiêu cực , hai nhận xét rút ra từ cùng một chủ đề có xu hướng ít tương tự (xa nhau), trung bình hơn hai quan sát rút ra hoàn toàn ngẫu nhiên. (Thông tin thêm về cách giải thích này trong câu hỏi / câu trả lời ở đây .)ρ

Vì vậy, bây giờ khi chúng ta xem xét phương trình của phương sai của mẫu trung bình theo mô hình cận biên, chúng ta có là biểu thức phương sai tương tự mà chúng tôi đã nhận được ở trên cho mô hình hiệu ứng ngẫu nhiên, chỉ với , phù hợp với ghi chú của chúng tôi ở trên rằng

var(1nmΣtôiΣjytôij)= =var(1nmΣtôiΣjβ+etôij*)= =1n2m2var(ΣtôiΣjetôij*)= =1n2m2(n(mσ2+(m2-m)ρσ2))= =σ2(1+(m-1)ρ)nm= =(ρn+1-ρnm)σ2,
σe2+σbạn2= =σ2etôij*= =bạntôi+etôij. Ưu điểm của quan điểm (tương đương thống kê) này là ở đây chúng ta có thể nghĩ về mối tương quan giữa các lớp tiêu cực mà không cần phải gọi bất kỳ khái niệm kỳ lạ nào như phương sai chủ đề tiêu cực. Tương quan nội bộ tiêu cực chỉ phù hợp tự nhiên trong khung này.

(BTW, chỉ là một cách nhanh chóng để chỉ ra rằng dòng thứ hai đến cuối cùng của đạo hàm ở trên ngụ ý rằng chúng ta phải có , nếu không thì toàn bộ phương trình là âm, nhưng phương sai Không thể âm tính! Vì vậy, có một giới hạn thấp hơn về tương quan giữa các lớp phụ thuộc vào số lượng phép đo chúng ta có trên mỗi cụm. Với (nghĩa là chúng ta đo từng đối tượng hai lần), mối tương quan giữa các lớp có thể đi tất cả các đường dẫn xuống ; với nó chỉ có thể đi xuống ; v.v. Sự thật thú vị!)ρ-1/(m-1)m= =2ρ= =-1m= =3ρ= =-1/2

Vì vậy, cuối cùng, một lần nữa xem xét tổng số quan sát là một hằng số, chúng ta thấy rằng dòng thứ hai-to-cuối cùng của nguồn gốc trên chỉ trông giống như Vì vậy, khi , có càng nhỏ càng tốt (để chúng tôi thực hiện ít phép đo của nhiều đối tượng hơn - trong giới hạn, 1 phép đo của mỗi đối tượng) làm cho phương sai của ước tính càng nhỏ càng tốt. Nhưng khi , chúng tôi thực sự muốn càng lớn càng tốt (để trong giới hạn, chúng tôi thực hiện tất cả các phép đo từ một đối tượng) để làm cho phương sai càng nhỏ càng tốt. Và khinm

(1+(m-1)ρ)×hằng số dương.
ρ>0mρ<0mnmρ= =0 , phương sai của ước tính chỉ là một hằng số, vì vậy việc phân bổ và chúng tôi không thành vấn đề.mn

3
+1. Câu trả lời chính xác. Tôi phải thừa nhận rằng phần thứ hai, khoảng , là khá unintuitive: ngay cả với một khổng lồ (hoặc vô hạn) tổng số quan sát tốt nhất chúng ta có thể làm là để phân bổ tất cả các quan sát về một chủ đề duy nhất, có nghĩa là lỗi tiêu chuẩn của giá trị trung bình sẽ là và về nguyên tắc không thể giảm thêm nữa. Điều này thật kỳ lạ! True vẫn không thể biết được, bất cứ tài nguyên nào người ta đưa vào để đo lường nó. Giải thích này có đúng không? ρ<0nmσbạnβ
amip nói rằng Phục hồi lại

3
À, không. Điều trên không đúng vì khi tăng lên vô cùng, không thể giữ âm và phải tiến gần đến 0 (tương ứng với phương sai của chủ thể bằng 0). Hừm. Mối tương quan tiêu cực này là một điều buồn cười: nó không thực sự là một tham số của mô hình thế hệ vì nó bị ràng buộc bởi kích thước mẫu (trong khi người ta thường mong đợi một mô hình thế hệ có thể tạo ra bất kỳ số lượng quan sát nào, bất kể tham số là gì). Tôi không chắc chắn đâu là cách thích hợp để nghĩ về nó. mρ
amip nói phục hồi Monica

1
@DeltaIV "Ma trận hiệp phương sai của các hiệu ứng ngẫu nhiên" trong trường hợp này là gì? Trong mô hình hỗn hợp được viết bởi Jake ở trên, chỉ có một hiệu ứng ngẫu nhiên và do đó không có "ma trận hiệp phương sai" thực sự, mà chỉ có một số: . Có gì bạn đang đề cập đến? σbạn2Σ
amip nói phục hồi Monica

2
@DeltaIV Vâng, nguyên tắc chung là en.wikipedia.org/wiki/Inverse-variance_ weighting , và phương sai của ý nghĩa mẫu của từng đối tượng được đưa ra bởi (đó là lý do Jake viết ở trên các trọng số phải phụ thuộc vào ước tính của phương sai giữa các chủ thể). Ước tính phương sai bên trong chủ thể được đưa ra bởi phương sai của độ lệch bên trong chủ thể, ước tính phương sai giữa chủ thể là phương sai của phương tiện và sử dụng tất cả những gì người ta có thể tính toán trọng số. (Nhưng tôi không chắc liệu điều này có tương đương 100% với những gì người làm sẽ làm không.)σbạn2+σe2/mtôi
amip nói rằng Rebstate Monica

1
Jake, vâng, nó là chính xác này cứng mã hóa của đang làm phiền tôi. Nếu đây là "cỡ mẫu" thì nó không thể là một tham số của hệ thống cơ bản. Suy nghĩ hiện tại của tôi là tiêu cực thực sự chỉ ra rằng có một yếu tố bên trong chủ đề khác bị bỏ qua / không biết đối với chúng tôi. Ví dụ, nó có thể là trước & sau của một số can thiệp và sự khác biệt giữa chúng lớn đến mức các phép đo có tương quan nghịch. Nhưng điều này có nghĩa là thực sự không phải là cỡ mẫu, mà là số cấp của yếu tố không xác định này, và điều đó chắc chắn có thể được mã hóa cứng ...mρm
amip nói rằng Rebstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.