Câu trả lời ngắn gọn là phỏng đoán của bạn là đúng khi và chỉ khi có mối tương quan giữa các lớp tích cực trong dữ liệu . Nói theo kinh nghiệm, hầu hết các bộ dữ liệu được phân cụm hầu hết thời gian cho thấy mối tương quan giữa các lớp tích cực, điều đó có nghĩa là trong thực tế phỏng đoán của bạn thường đúng. Nhưng nếu tương quan giữa các lớp là 0, thì hai trường hợp bạn đề cập đều có nhiều thông tin như nhau. Và nếu mối tương quan giữa các lớp là âm tính , thì thực tế sẽ ít thông tin hơn để thực hiện ít phép đo hơn đối với nhiều đối tượng hơn; chúng tôi thực sự muốn (liên quan đến việc giảm phương sai của ước tính tham số) để thực hiện tất cả các phép đo của chúng tôi trên một chủ đề.
Theo thống kê, có hai quan điểm mà chúng ta có thể nghĩ về điều này: một mô hình hiệu ứng ngẫu nhiên (hoặc hỗn hợp ) , mà bạn đề cập trong câu hỏi của bạn, hoặc một mô hình cận biên , cuối cùng có nhiều thông tin hơn ở đây.
Mô hình hiệu ứng ngẫu nhiên (hỗn hợp)
Giả sử chúng tôi có một bộ đối tượng mà chúng tôi đã thực hiện mỗi lần đo . Sau đó, một mô hình hiệu ứng ngẫu nhiên đơn giản của phép đo thứ từ đối tượng thứ có thể là
trong đó là giao cố định, là hiệu ứng chủ thể ngẫu nhiên (với variance ), là thuật ngữ lỗi mức độ quan sát (với phương sai ) và hai thuật ngữ ngẫu nhiên sau là độc lập.m j i y i j = β + u i + e i j , β u i σ 2 u e i j σ 2 enmji
yij=β+ui+eij,
βuiσ2ueijσ2e
Trong mô hình này đại diện cho trung bình dân số và với một tập dữ liệu cân bằng (nghĩa là số lượng đo bằng nhau từ mỗi đối tượng), ước tính tốt nhất của chúng tôi chỉ đơn giản là trung bình mẫu. Vì vậy, nếu chúng ta lấy "nhiều thông tin hơn" có nghĩa là phương sai nhỏ hơn cho ước tính này, thì về cơ bản chúng ta muốn biết phương sai của mẫu có nghĩa như thế nào phụ thuộc vào và . Với một chút đại số, chúng ta có thể tìm ra
n m var ( 1βnmσ2u>0nm
var(1nm∑i∑jyij)=var(1nm∑i∑jβ+ui+eij)=1n2m2var(∑i∑jui+∑i∑jeij)=1n2m2(m2∑ivar(ui)+∑i∑jvar(eij))=1n2m2(nm2σ2u+nmσ2e)=σ2un+σ2enm.
Kiểm tra biểu thức này, chúng ta có thể thấy rằng
bất cứ khi nào có bất kỳ phương sai chủ đề nào (nghĩa là ), việc tăng số lượng đối tượng ( ) sẽ làm cho cả hai thuật ngữ này nhỏ hơn, trong khi tăng số lượng số đo cho mỗi đối tượng (
σ2bạn> 0nm) sẽ chỉ làm cho thuật ngữ thứ hai nhỏ hơn. (Để biết ý nghĩa thực tế của việc này đối với việc thiết kế các dự án nhân rộng nhiều trang web, hãy xem
bài đăng trên blog này tôi đã viết cách đây một thời gian .)
Bây giờ bạn muốn biết điều gì xảy ra khi chúng ta tăng hoặc giảm hoặc trong khi giữ không đổi tổng số quan sát. Vì vậy, chúng tôi coi là một hằng số, sao cho toàn bộ biểu thức phương sai trông giống như
càng nhỏ càng tốt khi càng lớn càng tốt có thể (tối đa , trong trường hợp , nghĩa là chúng tôi thực hiện một phép đo duy nhất từ mỗi đối tượng).n n m σ 2 umnn mnn=nmm=1
σ2bạnn+ không đổi ,
nn = n mm = 1
Câu trả lời ngắn gọn của tôi đề cập đến mối tương quan giữa các lớp, vậy nó phù hợp ở đâu? Trong mô hình hiệu ứng ngẫu nhiên đơn giản này, mối tương quan giữa lớp là
(phác họa một đạo hàm ở đây ). Vì vậy, chúng ta có thể viết phương trình phương sai ở trên dưới dạng
Điều này không thực sự thêm bất kỳ cái nhìn sâu sắc về những gì chúng ta đã thấy ở trên, nhưng nó làm cho chúng ta tự hỏi: vì mối tương quan giữa các lớp là một hệ số tương quan trung thực và các hệ số tương quan có thể âm, điều gì sẽ xảy ra (và nó có nghĩa là gì) nếu trong lớp tương quan là tiêu cực? var(1
ρ = σ2bạnσ2bạn+ σ2e
var ( 1n mΣtôiΣjytôi j) = σ2bạnn+ σ2en m= ( ρn+ 1 - ρn m) (σ2bạn+ σ2e)
Trong ngữ cảnh của mô hình hiệu ứng ngẫu nhiên, một mối tương quan giữa các lớp âm không thực sự có ý nghĩa, bởi vì nó ngụ ý rằng phương sai chủ thể bằng cách nào đó âm tính (như chúng ta có thể thấy từ phương trình ở trên và như được giải thích ở đây và ở đây ) ... nhưng phương sai không thể âm! Nhưng điều này không có nghĩa là khái niệm về tương quan nội bộ tiêu cực không có ý nghĩa; nó chỉ có nghĩa là mô hình hiệu ứng ngẫu nhiên không có cách nào để diễn tả khái niệm này, đó là một thất bại của mô hình, không phải của khái niệm. Để thể hiện khái niệm này đầy đủ, chúng ta cần xem xét mô hình cận biên.σ2bạnρ
Mô hình cận biên
Đối với cùng một bộ dữ liệu này, chúng tôi có thể xem xét một mô hình được gọi là mô hình cận biên của ,
trong đó về cơ bản chúng tôi đã đẩy hiệu ứng chủ đề ngẫu nhiên từ trước vào thuật ngữ lỗi để chúng tôi có . Trong mô hình hiệu ứng ngẫu nhiên, chúng tôi coi hai thuật ngữ ngẫu nhiên và là iid , nhưng trong mô hình cận biên, chúng tôi thay vào đó xem xét để theo ma trận hiệp phương sai đường chéo như
ytôi j
ytôi j= β+e∗ij,
uieije∗ij=ui+eijuieije∗ijCC=σ2⎡⎣⎢⎢⎢⎢⎢R0⋮00R⋮0⋯⋯⋱⋯00⋮R⎤⎦⎥⎥⎥⎥⎥,R=⎡⎣⎢⎢⎢⎢⎢1ρ⋮ρρ1⋮ρ⋯⋯⋱⋯ρρ⋮1⎤⎦⎥⎥⎥⎥⎥
Nói cách khác, điều này có nghĩa là theo mô hình cận biên, chúng ta chỉ cần xem xét là mối tương quan dự kiến giữa hai s từ cùng một chủ đề (chúng tôi giả sử mối tương quan giữa các chủ thể là 0). Khi
ρe*ρlà tích cực, trung bình hai quan sát được rút ra từ cùng một chủ đề có xu hướng giống nhau hơn (gần nhau hơn), trung bình hơn hai quan sát được rút ngẫu nhiên từ bộ dữ liệu trong khi bỏ qua phân cụm do các đối tượng. Khi là
tiêu cực , hai nhận xét rút ra từ cùng một chủ đề có xu hướng
ít tương tự (xa nhau), trung bình hơn hai quan sát rút ra hoàn toàn ngẫu nhiên. (Thông tin thêm về cách giải thích này trong
câu hỏi / câu trả lời ở đây .)
ρ
Vì vậy, bây giờ khi chúng ta xem xét phương trình của phương sai của mẫu trung bình theo mô hình cận biên, chúng ta có
là biểu thức phương sai tương tự mà chúng tôi đã nhận được ở trên cho mô hình hiệu ứng ngẫu nhiên, chỉ với , phù hợp với ghi chú của chúng tôi ở trên rằng
var ( 1n mΣtôiΣjytôi j)= var ( 1n mΣtôiΣjβ+ e*tôi j)= 1n2m2var ( ∑tôiΣje*tôi j)= 1n2m2( N ( mσ2+ ( m2- m ) ρ σ2) )= σ2( 1+(m-1)ρ )n m= ( ρn+ 1 - ρn m) σ2,
σ2e+ σ2bạn= σ2e*tôi j= bạntôi+ etôi j. Ưu điểm của quan điểm (tương đương thống kê) này là ở đây chúng ta có thể nghĩ về mối tương quan giữa các lớp tiêu cực mà không cần phải gọi bất kỳ khái niệm kỳ lạ nào như phương sai chủ đề tiêu cực. Tương quan nội bộ tiêu cực chỉ phù hợp tự nhiên trong khung này.
(BTW, chỉ là một cách nhanh chóng để chỉ ra rằng dòng thứ hai đến cuối cùng của đạo hàm ở trên ngụ ý rằng chúng ta phải có , nếu không thì toàn bộ phương trình là âm, nhưng phương sai Không thể âm tính! Vì vậy, có một giới hạn thấp hơn về tương quan giữa các lớp phụ thuộc vào số lượng phép đo chúng ta có trên mỗi cụm. Với (nghĩa là chúng ta đo từng đối tượng hai lần), mối tương quan giữa các lớp có thể đi tất cả các đường dẫn xuống ; với nó chỉ có thể đi xuống ; v.v. Sự thật thú vị!)ρ ≥ - 1 / ( m - 1 )m = 2ρ = - 1m = 3ρ = - 1 / 2
Vì vậy, cuối cùng, một lần nữa xem xét tổng số quan sát là một hằng số, chúng ta thấy rằng dòng thứ hai-to-cuối cùng của nguồn gốc trên chỉ trông giống như
Vì vậy, khi , có càng nhỏ càng tốt (để chúng tôi thực hiện ít phép đo của nhiều đối tượng hơn - trong giới hạn, 1 phép đo của mỗi đối tượng) làm cho phương sai của ước tính càng nhỏ càng tốt. Nhưng khi , chúng tôi thực sự muốn càng lớn càng tốt (để trong giới hạn, chúng tôi thực hiện tất cả các phép đo từ một đối tượng) để làm cho phương sai càng nhỏ càng tốt. Và khin m
( 1+(m-1)ρ ) ×hằng số dương.
ρ > 0mρ < 0mn mρ = 0 , phương sai của ước tính chỉ là một hằng số, vì vậy việc phân bổ và chúng tôi không thành vấn đề.
mn