Ma trận tương phản là gì?


46

Chính xác ma trận tương phản là gì (một thuật ngữ, liên quan đến phân tích với các yếu tố dự đoán phân loại) và chính xác ma trận tương phản được chỉ định như thế nào? Tức là các cột là gì, các hàng là gì, các ràng buộc trên ma trận đó là gì và số trong cột jvà hàng icó nghĩa là gì? Tôi đã cố gắng xem xét các tài liệu và web nhưng dường như mọi người đều sử dụng nó nhưng không có sự thách thức nào cả. Tôi có thể thiết kế ngược các tương phản có sẵn được xác định trước, nhưng tôi nghĩ định nghĩa nên có sẵn mà không cần điều đó.

> contr.treatment(4)
  2 3 4
1 0 0 0
2 1 0 0
3 0 1 0
4 0 0 1
> contr.sum(4)
  [,1] [,2] [,3]
1    1    0    0
2    0    1    0
3    0    0    1
4   -1   -1   -1
> contr.helmert(4)
  [,1] [,2] [,3]
1   -1   -1   -1
2    1   -1   -1
3    0    2   -1
4    0    0    3
> contr.SAS(4)
  1 2 3
1 1 0 0
2 0 1 0
3 0 0 1
4 0 0 0

"Ma trận tương phản" được sử dụng để thể hiện các IV (yếu tố) phân loại trong mô hình hóa. Cụ thể, nó được sử dụng để mã hóa lại một yếu tố thành một tập hợp các "biến tương phản" (các biến giả chỉ là một ví dụ). Mỗi loại biến tương phản có ma trận tương phản riêng. Xem ví dụ câu hỏi liên quan của riêng tôi , chưa trả lời.
ttnphns

5
@ttnphns Xin lỗi nhưng bạn cứ làm những gì tất cả các tài liệu và web làm: bạn giải thích ma trận tương phản được sử dụng để làm gì, mà không giải quyết câu hỏi ma trận tương phản là gì. Đây là mục đích của một định nghĩa .
Tò mò

3
Tất nhiên nó có liên quan, nhưng xuất phát từ "nó là gì" từ "những gì nó cần cho" là một công việc của một thám tử, không cần thiết. Đó là kỹ thuật đảo ngược. Những điều cần được ghi lại.
Tò mò

2
ats.ucla.edu/stat/r/l Library / content_coding.htmlm là một Rtài nguyên được định hướng tốt về các phương pháp mã hóa.
whuber

1
@Cquil, chỉ để cho bạn biết: Tôi đã trao 100 tiền thưởng cho ttnphns, nhưng tôi sẽ bắt đầu một tiền thưởng khác (hoặc yêu cầu người khác làm điều đó) để trao giải cho Gus_est. Tôi cũng đã viết câu trả lời của riêng mình, chỉ trong trường hợp bạn muốn có một câu trả lời ngắn hơn :-)
amip nói rằng Rebstate Monica

Câu trả lời:


31

Trong câu trả lời hay của họ, @Gus_est, đã thực hiện một lời giải thích toán học về bản chất của ma trận hệ số tương phản L (ký hiệu là C ). là công thức cơ bản để kiểm tra các giả thuyết trong mô hình tuyến tính tổng quát đơn biến (trong đó là các tham số và là hàm ước tính đại diện cho một giả thuyết null) và câu trả lời đó cho thấy một số công thức cần thiết được sử dụng trong các chương trình ANOVA hiện đại.b kLb=kbk

Câu trả lời của tôi được tạo kiểu rất khác nhau. Nó dành cho một nhà phân tích dữ liệu tự coi mình là một "kỹ sư" hơn là một "nhà toán học", vì vậy câu trả lời sẽ là một tài khoản "thực tế" hoặc "thực tế" và sẽ tập trung trả lời các chủ đề (1) hệ số tương phản có nghĩa là và (2) làm thế nào chúng có thể giúp thực hiện ANOVA thông qua chương trình hồi quy tuyến tính .

ANOVA như hồi quy với các biến giả: giới thiệu tương phản .

Chúng ta hãy tưởng tượng ANOVA với biến phụ thuộc Y và yếu tố phân loại A có 3 cấp độ (nhóm). Chúng ta hãy lướt qua tại ANOVA từ điểm hồi quy tuyến tính của xem, đó là - qua biến yếu tố vào trong bộ giả (hay còn gọi là chỉ số aka xử lý hay còn gọi là một nóng ) biến nhị phân. Đây là bộ X độc lập của chúng tôi . (Có lẽ mọi người đã nghe nói rằng có thể thực hiện ANOVA theo cách này - như hồi quy tuyến tính với các yếu tố dự đoán giả.)

Vì một trong ba nhóm là dự phòng, chỉ có hai biến giả sẽ vào mô hình tuyến tính. Hãy chỉ định Nhóm 3 là dự phòng hoặc tham khảo. Các yếu tố dự đoán giả tạo X là một ví dụ về các biến tương phản , tức là các biến cơ bản đại diện cho các loại của một yếu tố. Bản thân X thường được gọi là ma trận thiết kế. Bây giờ chúng ta có thể nhập tập dữ liệu vào chương trình hồi quy tuyến tính đa trung tâm dữ liệu và tìm hệ số hồi quy (tham số) , trong đó " + "chỉ định giả.b=(XX)1Xy=X+y

Pass tương đương sẽ không làm trung tâm mà là thêm số hạng không đổi của mô hình làm cột đầu tiên của 1 s trong X , sau đó ước tính các hệ số theo cách tương tự như trên . Càng xa càng tốt.b=(XX)1Xy=X+y

Chúng ta hãy xác định ma trận C là tập hợp (tóm tắt) của các biến độc lập ma trận thiết kế X . Nó chỉ đơn giản cho chúng ta thấy chương trình mã hóa được quan sát ở đó, - các Ngược lại mã ma trận (= ma trận cơ sở): .C=aggrX

C
              Const  A1    A2
Gr1 (A=1)       1     1     0
Gr2 (A=2)       1     0     1
Gr3 (A=3,ref)   1     0     0

Các colums là các biến (cột) của X - các biến tương phản cơ bản A1 A2, giả trong trường hợp này và các hàng là tất cả các nhóm / cấp của yếu tố. Vì vậy, chúng tôi đã mã hóa ma trận C cho chỉ số hoặc tương phản giả chương trình mã hóa.

Bây giờ, được gọi là ma trận hệ số tương phản hoặc ma trận L. Vì C là hình vuông, . Ma trận tương phản, tương ứng với C của chúng tôi - nghĩa là tương phản chỉ báo của ví dụ của chúng tôi - là:L = C + = C - 1C+=LL=C+=C1

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const      0     0     1            => Const = Mean_Gr3
A1         1     0    -1            => Param1 = Mean_Gr1-Mean_Gr3
A2         0     1    -1            => Param2 = Mean_Gr2-Mean_Gr3

Ma trận L là ma trận hiển thị các hệ số tương phản . Lưu ý rằng tổng các hệ số tương phản trong mỗi hàng (trừ hàng không đổi) là . Mỗi hàng như vậy được gọi là một sự tương phản . Hàng tương ứng với các biến tương phản và cột tương ứng với các nhóm, cấp độ yếu tố.0

Tầm quan trọng của các hệ số tương phản là chúng giúp hiểu được mỗi hiệu ứng (mỗi tham số b ước tính trong hồi quy với X của chúng ta , được mã hóa như thế nào) thể hiện theo nghĩa của sự khác biệt (so sánh nhóm). Chúng ta thấy ngay lập tức, theo các hệ số, hằng số ước tính sẽ bằng giá trị trung bình Y trong nhóm tham chiếu; tham số b1 đó (tức là biến giả A1) sẽ bằng hiệu số: Y có nghĩa là trong nhóm1 trừ Y có nghĩa là trong nhóm 3; và tham số b2 là sự khác biệt: trung bình trong nhóm2 trừ trung bình trong nhóm3.

Lưu ý : Nói "có nghĩa" ngay bên trên (và hơn nữa bên dưới), chúng tôi có nghĩa là ước tính (được dự đoán bởi mô hình) có nghĩa là cho một nhóm, không phải là trung bình quan sát được trong một nhóm.

Một nhận xét mang tính hướng dẫn : Khi chúng ta thực hiện hồi quy bằng các biến dự đoán nhị phân , tham số của biến đó nói về sự khác biệt về Y giữa biến = 1 và biến = 0 nhóm. Tuy nhiên, trong trường hợp khi các biến nhị phân là tập hợp các k-1 biến giả đại diện cho một kyếu tố -level, ý nghĩa của tham số sẽ hẹp hơn : nó cho thấy sự khác biệt về Y giữa biến = 1 và (không chỉ biến = 0 mà thậm chí) tham chiếu = 1 nhóm.

Giống như (sau khi nhân với ) mang lại cho chúng ta các giá trị của b , tương tự mang ý nghĩa của b . y ( a g g r X ) +X+y(aggrX)+

OK, chúng tôi đã đưa ra định nghĩa của hệ số tương phản ma trận L . Vì , đối xứng , có nghĩa là nếu bạn được cung cấp hoặc đã xây dựng ma trận tương phản L dựa trên yếu tố phân loại (s) - để kiểm tra L trong phân tích của bạn, sau đó bạn có manh mối về cách mã hóa chính xác các biến dự báo tương phản X của mình để kiểm tra L thông qua một phần mềm hồi quy thông thường (nghĩa là một xử lý chỉ biến "liên tục" biến OLS tiêu chuẩn cách, và không nhận ra các yếu tố phân loại nào cả). Trong ví dụ hiện tại của chúng tôi, mã hóa là - biến loại chỉ báo (giả). C = L + = L - 1L=C+=C1C=L+=L1

ANOVA như hồi quy: các loại tương phản khác .

Chúng ta hãy quan sát một thời gian ngắn các loại tương phản khác (= các chương trình mã hóa, = kiểu tham số hóa) cho một yếu tố phân loại Một .

Độ lệch hoặc hiệu ứng tương phản . Ma trận CL và ý nghĩa tham số:

C
              Const  A1    A2
Gr1 (A=1)       1     1     0
Gr2 (A=2)       1     0     1
Gr3 (A=3,ref)   1    -1    -1

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const     1/3   1/3   1/3      => Const = 1/3Mean_Gr3+1/3Mean_Gr2+1/3Mean_Gr3 = Mean_GU
A1        2/3  -1/3  -1/3      => Param1 = 2/3Mean_Gr1-1/3(Mean_Gr2+Mean_Gr3) = Mean_Gr1-Mean_GU
A2       -1/3   2/3  -1/3      => Param2 = 2/3Mean_Gr2-1/3(Mean_Gr1+Mean_Gr3) = Mean_Gr2-Mean_GU

                                  Parameter for the reference group3 = -(Param1+Param2) = Mean_Gr3-Mean_GU

                                  Mean_GU is grand unweighted mean = 1/3(Mean_Gr1+Mean_Gr2+Mean_Gr3)

Bằng cách mã hóa sai lệch, mỗi nhóm của yếu tố đang được so sánh với giá trị trung bình không trọng số, trong khi Constant là ý nghĩa lớn. Đây là những gì bạn nhận được trong hồi quy với các yếu tố dự đoán tương phản X được mã hóa theo độ lệch hoặc hiệu ứng "cách".

Tương phản đơn giản . Lược đồ tương phản / mã hóa này là sự kết hợp của các loại chỉ báo và độ lệch, nó mang ý nghĩa của Hằng như trong loại sai lệch và ý nghĩa của các tham số khác như trong loại chỉ báo:

C
              Const  A1    A2
Gr1 (A=1)       1   2/3  -1/3
Gr2 (A=2)       1  -1/3   2/3
Gr3 (A=3,ref)   1  -1/3  -1/3

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const     1/3   1/3   1/3        => Const = as in Deviation
A1         1     0    -1         => Param1 = as in Indicator
A2         0     1    -1         => Param2 = as in Indicator

Helmert tương phản . So sánh từng nhóm (trừ tham chiếu) với giá trị trung bình không trọng số của các nhóm tiếp theo và Constant là giá trị trung bình không trọng số. CL mẫu hệ:

C
              Const  A1    A2
Gr1 (A=1)       1   2/3    0
Gr2 (A=2)       1  -1/3   1/2
Gr3 (A=3,ref)   1  -1/3  -1/2

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const     1/3   1/3   1/3        => Const = Mean_GU
A1         1   -1/2  -1/2        => Param1 = Mean_Gr1-1/2(Mean_Gr2+Mean_Gr3)
A2         0     1    -1         => Param2 = Mean_Gr2-Mean_Gr3

Sự khác biệt hoặc ngược lại Helmert tương phản . So sánh từng nhóm (trừ tham chiếu) với giá trị trung bình không có trọng số của các nhóm trước đó và Constant là giá trị trung bình không có trọng số.

C
              Const  A1    A2
Gr1 (A=1)       1  -1/2  -1/3
Gr2 (A=2)       1   1/2  -1/3
Gr3 (A=3,ref)   1    0    2/3

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const     1/3   1/3   1/3        => Const = Mean_GU
A1        -1     1     0         => Param1 = Mean_Gr2-Mean_Gr1
A2       -1/2  -1/2    1         => Param2 = Mean_Gr3-1/2(Mean_Gr2+Mean_Gr1)

Tương phản lặp đi lặp lại . So sánh từng nhóm (trừ tham chiếu) với nhóm tiếp theo và Constant là giá trị trung bình không trọng số.

C
              Const  A1    A2
Gr1 (A=1)       1   2/3   1/3
Gr2 (A=2)       1  -1/3   1/3
Gr3 (A=3,ref)   1  -1/3  -2/3

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const     1/3   1/3   1/3        => Const = Mean_GU
A1         1    -1     0         => Param1 = Mean_Gr1-Mean_Gr2
A2         0     1    -1         => Param2 = Mean_Gr2-Mean_Gr3

Câu hỏi đặt ra: how exactly is contrast matrix specified?Nhìn vào các loại tương phản được phác thảo cho đến nay có thể nắm bắt được như thế nào. Mỗi loại có logic của nó như thế nào để "lấp đầy" các giá trị trong L . Logic phản ánh ý nghĩa của từng tham số - hai tổ hợp nhóm được lên kế hoạch để so sánh là gì.

Tương phản đa thức . Đây là một chút đặc biệt, phi tuyến. Hiệu ứng đầu tiên là một tuyến tính, thứ hai là bậc hai, tiếp theo là khối. Tôi đang rời khỏi đây không trả lời được câu hỏi làm thế nào ma trận CL của chúng được xây dựng và nếu chúng là nghịch đảo của nhau. Vui lòng tham khảo các giải thích sâu sắc của @Antoni Parellada về loại tương phản này: 1 , 2 .

Trong các thiết kế cân bằng, Helmert, Helmert ngược và tương phản đa thức luôn là tương phản trực giao . Các loại khác được xem xét ở trên không phải là tương phản trực giao. Trực giao (dưới sự cân bằng) là độ tương phản trong đó trong ma trận tương phản L tổng trong mỗi hàng (trừ Const) bằng 0 tổng các sản phẩm của các yếu tố tương ứng của mỗi cặp hàng là 0.

Dưới đây là các biện pháp tương tự góc (tương quan cosine và Pearson) dưới các loại tương phản khác nhau, ngoại trừ đa thức mà tôi không kiểm tra. Chúng ta hãy có một yếu tố A duy nhất với kcác mức và sau đó nó được mã hóa thành tập hợp các k-1biến tương phản của một loại cụ thể. Các giá trị trong ma trận tương quan hoặc cosine giữa các biến tương phản này là gì?

                     Balanced (equal size) groups     Unbalanced groups
Contrast type             cos        corr              cos        corr

INDICATOR                  0       -1/(k-1)             0         varied
DEVIATION                 .5          .5              varied      varied
SIMPLE                 -1/(k-1)    -1/(k-1)           varied      varied
HELMERT, REVHELMERT        0           0              varied      varied
REPEATED                varied   =  varied            varied      varied

   "=" means the two matrices are same while elements in matrix vary

Tôi đang đưa ra bảng thông tin và không để lại thông tin. Đó là một số quan trọng cho một cái nhìn sâu hơn vào mô hình tuyến tính nói chung.

Tương phản do người dùng định nghĩa . Đây là những gì chúng tôi soạn thảo để kiểm tra một giả thuyết so sánh tùy chỉnh. Thông thường tổng trong mỗi nhưng hàng đầu tiên của L phải là 0 có nghĩa là hai nhóm hoặc hai thành phần của các nhóm đang được so sánh trong hàng đó (tức là theo tham số đó).

Đâu là thông số mô hình ?

Chúng là hàng hay cột của L ? Xuyên suốt văn bản trên tôi đã nói rằng các tham số tương ứng với các hàng của L , vì các hàng đại diện cho các biến tương phản, các yếu tố dự đoán. Trong khi các cột là cấp độ của một yếu tố, các nhóm. Điều đó có thể rơi vào mâu thuẫn với, ví dụ, khối lý thuyết từ câu trả lời @Gus_est, trong đó rõ ràng các cột tương ứng với các tham số:

H0:[011000011000011][β0β1β2β3β4]=[000]

Trên thực tế, không có mâu thuẫn và câu trả lời cho "vấn đề" là: cả hàng và cột của ma trận hệ số tương phản tương ứng với các tham số! Chỉ cần nhớ lại rằng độ tương phản (các biến tương phản), các hàng, ban đầu được tạo ra để thể hiện không có gì khác ngoài các mức yếu tố: chúng là các mức ngoại trừ tham chiếu bị bỏ qua. So sánh vui lòng hai cách viết tương đương của ma trận L cho độ tương phản đơn giản :

L
          Gr1   Gr2   Gr3
          A=1   A=2   A=3(reference)
Const     1/3   1/3   1/3 
A1         1     0    -1  
A2         0     1    -1   

L
            b0    b1    b2    b3(redundant)
           Const  A=1   A=2   A=3(reference)
b0  Const   1    1/3   1/3   1/3 
b1  A1      0     1     0    -1  
b2  A2      0     0     1    -1   

Cái đầu tiên là những gì tôi đã trình bày trước đây, cái thứ hai là bố cục "lý thuyết" hơn (đối với đại số mô hình tuyến tính nói chung). Đơn giản, một cột tương ứng với thuật ngữ Constant đã được thêm vào. Các hệ số tham số b nhãn các hàng và cột. Tham số b3, là dự phòng, sẽ được đặt thành không. Bạn có thể giả mạo bố cục thứ hai để lấy ma trận mã hóa C , trong đó bên trong phần dưới cùng bên phải, bạn sẽ tìm thấy các mã chính xác cho các biến tương phản A1 và A2. Điều đó sẽ đúng với bất kỳ loại tương phản nào được mô tả (ngoại trừ loại chỉ báo - trong đó giả ngẫu nhiên của bố cục hình chữ nhật đó sẽ không cho kết quả chính xác; đây có thể là lý do tại sao loại tương phản đơn giản được phát minh để thuận tiện: hệ số tương phản giống với loại chỉ báo, nhưng đối với hàng không đổi).

Loại tương phản và kết quả bảng ANOVA .

(μ1=μ2,μ2=μ3)(μ1=μ23,μ2=μ3)(μ1=μ123,μ2=μ123)(μ1=μ3,μ2=μ3)

Các chương trình ANOVA được triển khai thông qua mô hình mô hình tuyến tính chung có thể hiển thị cả bảng ANOVA (hiệu ứng kết hợp: chính, tương tác) và bảng ước tính tham số (hiệu ứng cơ bản b ). Một số chương trình có thể xuất bảng sau tương ứng với loại tương phản dưới dạng giá thầu của người dùng, nhưng hầu hết sẽ xuất ra các tham số tương ứng với một loại - thường là loại chỉ báo, bởi vì các chương trình ANOVA dựa trên mô hình tuyến tính chung tham số hóa các biến giả cụ thể (thuận tiện nhất phải làm) và sau đó chuyển qua các tương phản bằng các công thức "liên kết" đặc biệt diễn giải đầu vào giả cố định thành một tương phản (tùy ý).

Trong khi đó trong câu trả lời của tôi - hiển thị ANOVA là hồi quy - "liên kết" được nhận ra sớm nhất ở cấp độ của đầu vào X , được gọi để đưa ra khái niệm về lược đồ mã hóa thích hợp cho dữ liệu.

Một vài ví dụ cho thấy thử nghiệm ANOVA tương phản thông qua hồi quy thông thường .

Hiển thị trong SPSS yêu cầu một loại tương phản trong ANOVA và nhận được kết quả tương tự thông qua hồi quy tuyến tính. Chúng tôi có một số dữ liệu với Y và các yếu tố A (3 cấp độ, tham chiếu = cuối cùng) và B (4 cấp độ, tham chiếu = cuối cùng); tìm dữ liệu dưới đây sau này

Ví dụ độ lệch tương phản theo mô hình giai thừa đầy đủ (A, B, A * B). Loại sai lệch được yêu cầu cho cả A và B (chúng tôi có thể chọn yêu cầu loại khác nhau cho từng yếu tố, cho thông tin của bạn).

Ma trận hệ số tương phản L cho A và cho B:

            A=1      A=2      A=3
Const     .3333    .3333    .3333 
dev_a1    .6667   -.3333   -.3333
dev_a2   -.3333    .6667   -.3333

            B=1      B=2      B=3      B=4
Const     .2500    .2500    .2500    .2500
dev_b1    .7500   -.2500   -.2500   -.2500 
dev_b2   -.2500    .7500   -.2500   -.2500 
dev_b3   -.2500   -.2500    .7500   -.2500

Yêu cầu chương trình ANOVA ( GLMtrong SPSS) thực hiện phân tích phương sai và đưa ra kết quả rõ ràng cho độ tương phản sai lệch:

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây

Độ tương phản độ lệch so sánh A = 1 so với Grand không có trọng số Trung bình và A = 2 với cùng nghĩa đó. Dấu chấm lửng màu đỏ ước tính sự khác biệt và giá trị p của chúng. Hiệu ứng kết hợp trên yếu tố A được đánh dấu bằng hình chữ nhật màu đỏ. Đối với yếu tố B, everyting được in tương tự màu xanh lam. Hiển thị bảng ANOVA. Lưu ý rằng các hiệu ứng tương phản kết hợp bằng với các hiệu ứng chính trong đó.

nhập mô tả hình ảnh ở đây

Bây giờ chúng ta hãy tạo các biến tương phản vật lý dev_a1, dev_a2, dev_b1, dev_b2, dev_b3 và chạy hồi quy. Đảo ngược các ma trận L để có được ma trận C mã hóa :

      dev_a1   dev_a2
A=1   1.0000    .0000 
A=2    .0000   1.0000 
A=3  -1.0000  -1.0000

      dev_b1   dev_b2   dev_b3
B=1   1.0000    .0000    .0000 
B=2    .0000   1.0000    .0000 
B=3    .0000    .0000   1.0000 
B=4  -1.0000  -1.0000  -1.0000

X=DCDkk

Khi đã tạo các biến tương phản, nhân giữa các biến từ các yếu tố khác nhau để có các biến đại diện cho tương tác (mô hình ANOVA của chúng tôi là giai thừa hoàn toàn): dev_a1b1, dev_a1b2, dev_a1b3, dev_a2b1, dev_a2b2, dev_a2b3, dev_a2b3. Sau đó chạy nhiều hồi quy tuyến tính với tất cả các dự đoán.

nhập mô tả hình ảnh ở đây

Như mong đợi, dev_a1 giống như hiệu ứng tương phản "Cấp 1 so với trung bình"; dev_a2 giống như "Cấp 2 so với trung bình", v.v., - so sánh các phần được in với phân tích tương phản ANOVA ở trên.

Lưu ý rằng nếu chúng tôi không sử dụng các biến tương tác dev_a1b1, dev_a1b2 ... trong hồi quy thì kết quả sẽ trùng với kết quả phân tích tương phản ANOVA chỉ có tác dụng chính.

Ví dụ tương phản đơn giản theo cùng một mô hình giai thừa (A, B, A * B).

Ma trận hệ số tương phản L cho A và cho B:

            A=1      A=2      A=3
Const     .3333    .3333    .3333 
sim_a1   1.0000    .0000  -1.0000
sim_a2    .0000   1.0000  -1.0000

            B=1      B=2      B=3      B=4
Const     .2500    .2500    .2500    .2500
sim_b1   1.0000    .0000    .0000  -1.0000
sim_b2    .0000   1.0000    .0000  -1.0000
sim_b3    .0000    .0000   1.0000  -1.0000

Kết quả ANOVA cho các tương phản đơn giản:

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây

Các kết quả tổng thể (bảng ANOVA) giống như với độ tương phản độ lệch (không hiển thị ngay bây giờ).

Tạo các biến tương phản vật lý sim_a1, sim_a2, sim_b1, sim_b2, sim_b3. Các ma trận mã hóa bằng cách đảo ngược các ma trận L là (cột w / o Const):

      sim_a1   sim_a2
A=1    .6667   -.3333
A=2   -.3333    .6667
A=3   -.3333   -.3333

      sim_b1   sim_b2   sim_b3
B=1    .7500   -.2500   -.2500
B=2   -.2500    .7500   -.2500
B=3   -.2500   -.2500    .7500
B=4   -.2500   -.2500   -.2500

X=DC

nhập mô tả hình ảnh ở đây

Như trước đây, chúng ta thấy rằng kết quả hồi quy và ANOVA khớp. Một tham số hồi quy của một biến tương phản đơn giản là sự khác biệt (và kiểm tra ý nghĩa của nó) giữa mức độ của yếu tố đó và mức tham chiếu (cuối cùng, trong ví dụ của chúng tôi) của nó.

Dữ liệu hai yếu tố được sử dụng trong các ví dụ:

     Y      A      B
 .2260      1      1
 .6836      1      1
-1.772      1      1
-.5085      1      1
1.1836      1      2
 .5633      1      2
 .8709      1      2
 .2858      1      2
 .4057      1      2
-1.156      1      3
1.5199      1      3
-.1388      1      3
 .4865      1      3
-.7653      1      3
 .3418      1      4
-1.273      1      4
1.4042      1      4
-.1622      2      1
 .3347      2      1
-.4576      2      1
 .7585      2      1
 .4084      2      2
1.4165      2      2
-.5138      2      2
 .9725      2      2
 .2373      2      2
-1.562      2      2
1.3985      2      3
 .0397      2      3
-.4689      2      3
-1.499      2      3
-.7654      2      3
 .1442      2      3
-1.404      2      3
-.2201      2      4
-1.166      2      4
 .7282      2      4
 .9524      2      4
-1.462      2      4
-.3478      3      1
 .5679      3      1
 .5608      3      2
1.0338      3      2
-1.161      3      2
-.1037      3      3
2.0470      3      3
2.3613      3      3
 .1222      3      4

Người dùng xác định ví dụ tương phản. Hãy để chúng tôi có yếu tố F duy nhất với 5 cấp độ. Tôi sẽ tạo và kiểm tra một tập hợp các tương phản trực giao tùy chỉnh, trong ANOVA và hồi quy.

nhập mô tả hình ảnh ở đây

LL

Hãy để chúng tôi gửi ma trận cho thủ tục ANOVA của SPSS để kiểm tra độ tương phản. Chà, chúng tôi có thể gửi thậm chí bất kỳ một hàng nào (độ tương phản) từ ma trận, nhưng chúng tôi sẽ gửi toàn bộ ma trận vì - như trong các ví dụ trước - chúng tôi sẽ muốn nhận được kết quả tương tự thông qua hồi quy và chương trình hồi quy sẽ cần hoàn thành tập hợp các biến tương phản (để ý rằng chúng thuộc về một yếu tố!). Chúng tôi sẽ thêm hàng liên tục vào L, giống như chúng tôi đã làm trước đây, mặc dù nếu chúng tôi không cần kiểm tra đánh chặn, chúng tôi có thể bỏ qua nó một cách an toàn.

UNIANOVA Y BY F
  /METHOD=SSTYPE(3)
  /INTERCEPT=INCLUDE
  /CONTRAST (F)= special
       (.2 .2 .2 .2 .2
         3  3 -2 -2 -2
         1 -1  0  0  0
         0  0  2 -1 -1
         0  0  0  1 -1)
  /DESIGN=F.

Equivalently, we might also use this syntax (with a more flexible /LMATRIX subcommand)
if we omit the Constant row from the matrix.
UNIANOVA Y BY F
  /METHOD=SSTYPE(3)
  /INTERCEPT=INCLUDE
  /LMATRIX= "User contrasts"
       F  3  3 -2 -2 -2;
       F  1 -1  0  0  0;
       F  0  0  2 -1 -1;
       F  0  0  0  1 -1
  /DESIGN=F.

nhập mô tả hình ảnh ở đây

Hiệu ứng tương phản tổng thể (ở dưới cùng của pic) không giống với hiệu ứng ANOVA tổng thể dự kiến:

nhập mô tả hình ảnh ở đây

nhưng nó chỉ đơn giản là vật phẩm của việc chèn thuật ngữ Hằng vào ma trận L. Đối với, SPSS đã ngụ ý Hằng khi độ tương phản do người dùng xác định được chỉ định. Xóa hàng không đổi khỏi L và chúng ta sẽ nhận được kết quả tương phản tương tự (ma trận K trên pic ở trên) ngoại trừ độ tương phản L0 sẽ không được hiển thị. Và hiệu ứng tương phản tổng thể sẽ phù hợp với ANOVA tổng thể:

nhập mô tả hình ảnh ở đây

C=L+X=DC

C
      use_f1   use_f2   use_f3   use_f4
F=1    .1000    .5000    .0000    .0000
F=2    .1000   -.5000    .0000    .0000
F=3   -.0667    .0000    .3333    .0000
F=4   -.0667    .0000   -.1667    .5000
F=5   -.0667    .0000   -.1667   -.5000

nhập mô tả hình ảnh ở đây

Quan sát danh tính của kết quả. Dữ liệu được sử dụng trong ví dụ này:

     Y      F
 .2260      1
 .6836      1
-1.772      1
-.5085      1
1.1836      1
 .5633      1
 .8709      1
 .2858      1
 .4057      1
-1.156      1
1.5199      2
-.1388      2
 .4865      2
-.7653      2
 .3418      2
-1.273      2
1.4042      2
-.1622      3
 .3347      3
-.4576      3
 .7585      3
 .4084      3
1.4165      3
-.5138      3
 .9725      3
 .2373      3
-1.562      3
1.3985      3
 .0397      4
-.4689      4
-1.499      4
-.7654      4
 .1442      4
-1.404      4
-.2201      4
-1.166      4
 .7282      4
 .9524      5
-1.462      5
-.3478      5
 .5679      5
 .5608      5
1.0338      5
-1.161      5
-.1037      5
2.0470      5
2.3613      5
 .1222      5

Sự tương phản khác với (M) phân tích ANOVA .

Bất cứ nơi nào dự đoán danh nghĩa xuất hiện, câu hỏi về độ tương phản (loại tương phản để chọn cho dự đoán nào) phát sinh. Một số chương trình giải quyết nó phía sau bối cảnh khi tổng thể, kết quả omnibus sẽ không phụ thuộc vào loại được chọn. Nếu bạn muốn một loại cụ thể để xem kết quả "cơ bản" hơn, bạn phải chọn. Bạn chọn (hoặc, đúng hơn là soạn) một sự tương phản khi bạn đang kiểm tra một giả thuyết so sánh tùy chỉnh.

(M) Phân tích ANOVA và Loglinear, mô hình tuyến tính hỗn hợp và đôi khi tổng quát bao gồm các tùy chọn để xử lý các yếu tố dự đoán thông qua các loại tương phản khác nhau. Nhưng như tôi đã cố gắng thể hiện, có thể tạo ra sự tương phản dưới dạng các biến tương phản một cách rõ ràng và bằng tay. Sau đó, nếu bạn không có gói ANOVA trong tay, bạn có thể làm điều đó - ở nhiều khía cạnh với sự may mắn - với nhiều hồi quy.


1
xin vui lòng không hạn chế câu trả lời này chỉ cho anova nếu có thể. Thẻ [anova] đã được @amoeba thêm vào thời điểm bạn trả lời câu hỏi của tôi, nhưng tôi không muốn câu trả lời chỉ giới hạn ở anova.
Tò mò

CLCL

@amoeba, tôi không quen thuộc với "ma trận tương phản" và gần như chắc chắn nó là viết tắt của "ma trận hệ số tương phản" hoặc ma trận L, là một thuật ngữ trải rộng chính thức hoặc ít nhất là rộng trong (M) ANOVA / GLM. Thuật ngữ "Ma trận mã hóa tương phản" ít được đề cập hơn vì nó chỉ đơn giản là khung nhìn được tích hợp của ma trận thiết kế X; Tôi đã thấy từ "ma trận cơ sở" được sử dụng trong các bài viết của một nhà thống kê cao cấp của SPSS Dave Nichols. Hoàn toàn, ma trận L (nhãn chính thức) và C (nhãn tùy ý?) Có liên quan chặt chẽ đến mức người ta khó có thể thảo luận về cái này với cái kia. Tôi cho rằng "ma trận tương phản" nên được coi là cặp này.
ttnphns

1
Vâng tôi đồng ý. Đến bây giờ tôi tin chắc rằng "ma trận tương phản" là một thuật ngữ chỉ được sử dụng trong cộng đồng R và dùng để chỉ sơ đồ mã hóa. Tôi đã kiểm tra sách giáo khoa mà Gus_est đề cập đến và họ không bao giờ sử dụng thuật ngữ "ma trận tương phản", họ chỉ nói về "độ tương phản" (xem bình luận cuối cùng của tôi dưới câu trả lời của anh ấy). OP rõ ràng đã hỏi về "ma trận tương phản" theo nghĩa R.
amip nói rằng Phục hồi lại

1
That L will determine what are you going to test, you aren't free anymore to choose what to testβi=0β1β2/2β3/2=0

17

Tôi sẽ sử dụng chữ cái viết thường cho vectơ và chữ in hoa cho ma trận.

Trong trường hợp mô hình tuyến tính có dạng:

y=Xβ+ε

trong đó là ma trận có thứ hạng và chúng tôi giả sử .Xn×(k+1)k+1nεN(0,σ2)

Chúng tôi có thể ước tính bằng , kể từ khi nghịch đảo của tồn tại.β^XX(XX)1XyXX

Bây giờ, đối với trường hợp ANOVA, chúng ta có không còn đầy đủ nữa. Hàm ý của điều này là chúng ta không có và chúng ta phải giải quyết cho nghịch đảo tổng quát . ( XX ) - 1 ( XX ) -X(XX)1(XX)

Một trong những vấn đề của việc sử dụng nghịch đảo tổng quát này là nó không phải là duy nhất. Một vấn đề khác là chúng tôi không thể tìm thấy một công cụ ước tính không thiên vị cho , vì beta = ( XX ) - Xyβ

β^=(XX)XyE(β^)=(XX)XXβ.

Vì vậy, chúng tôi không thể ước tính . Nhưng chúng ta có thể ước tính một tổ hợp tuyến tính của không?βββ

Chúng ta có một sự kết hợp tuyến tính của , giả sử , có thể ước tính được nếu tồn tại một vectơ sao cho .βgβaE(ay)=gβ


Sự tương phản là một trường hợp đặc biệt của các hàm ước tính trong đó tổng các hệ số của bằng 0.g

Và, sự tương phản xuất hiện trong bối cảnh của các yếu tố dự đoán phân loại trong một mô hình tuyến tính. (nếu bạn kiểm tra hướng dẫn được liên kết bởi @amoeba, bạn sẽ thấy rằng tất cả mã hóa tương phản của chúng có liên quan đến các biến phân loại). Sau đó, trả lời @Cpered và @amoeba, chúng ta thấy rằng chúng phát sinh trong ANOVA, nhưng không phải trong mô hình hồi quy "thuần túy" chỉ với các yếu tố dự đoán liên tục (chúng ta cũng có thể nói về sự tương phản trong ANCOVA, vì chúng ta có một số biến phân loại trong đó).


Bây giờ, trong mô hình trong đó không phải là toàn hạng và , hàm tuyến tính có thể ước tính iff tồn tại một vectơ sao cho . Nghĩa là, là sự kết hợp tuyến tính của các hàng của . Ngoài ra, có nhiều lựa chọn về vectơ , sao cho , như chúng ta có thể thấy trong ví dụ bên dưới.

y=Xβ+ε
XE(y)=XβgβaaX=ggXaaX=g

ví dụ 1

Hãy xem xét mô hình một chiều:

yij=μ+αi+εij,i=1,2,j=1,2,3.

X=[110110110101101101],β=[μτ1τ2]

Và giả sử , vì vậy chúng tôi muốn ước tính .g=[0,1,1][0,1,1]β=τ1τ2

Chúng ta có thể thấy rằng có nhiều lựa chọn khác nhau về vectơ mang lại : ; hoặc ; hoặc .aaX=ga=[0,0,1,1,0,0]a=[1,0,0,0,0,1]a=[2,1,0,0,1,2]


Ví dụ 2

Lấy mô hình hai chiều: .

yij=μ+αi+βj+εij,i=1,2,j=1,2

X=[11010110011011010101],β=[μα1α2β1β2]

Chúng ta có thể xác định các hàm có thể ước tính bằng cách lấy các tổ hợp tuyến tính của các hàng của .X

Trừ hàng 1 từ hàng 2, 3 và 4 (của ): X

[11010000110110001111]

Và lấy Hàng 2 và 3 từ hàng thứ tư:

[11010000110110000000]

Nhân số này với mang lại: β

g1β=μ+α1+β1g2β=β2β1g3β=α2α1

Vì vậy, chúng ta có ba hàm ước tính độc lập tuyến tính. Bây giờ, chỉ và có thể được coi là tương phản, vì tổng các hệ số của nó (hoặc, hàng tổng của vectơ tương ứng ) bằng 0.g2βg3βg


Quay trở lại mô hình cân bằng một chiều

yij=μ+αi+εij,i=1,2,,k,j=1,2,,n.

Và giả sử chúng tôi muốn kiểm tra giả thuyết .H0:α1==αk

Trong cài đặt này, ma trận không phải là thứ hạng đầy đủ, vì vậy không phải là duy nhất và không thể ước tính được. Để làm cho nó có thể ước tính, chúng ta có thể nhân với , miễn là . Nói cách khác, có thể ước tính iff .Xβ=(μ,α1,,αk)βgigi=0igiαiigi=0

Tại sao điều này là đúng?

Chúng tôi biết rằng có thể ước tính được sao cho . Lấy các hàng riêng biệt của và , sau đó: gβ=(0,g1,,gk)β=igiαiag=aXXa=[a1,,ak]

[0,g1,,gk]=g=aX=(iai,a1,,ak)

Và kết quả như sau.


Nếu chúng tôi muốn kiểm tra độ tương phản cụ thể, giả thuyết của chúng tôi là . Ví dụ: , có thể được viết là , vì vậy chúng tôi đang so sánh với mức trung bình của và .H0:giαi=0H0:2α1=α2+α3H0:α1=α2+α32α1α2α3

Giả thuyết này có thể được biểu thị dưới dạng , trong đó . Trong trường hợp này, và chúng tôi kiểm tra giả thuyết này với thống kê sau: H0:gβ=0g=(0,g1,g2,,gk)q=1

F=[gβ^][g(XX)g]1gβ^SSE/k(n1).

Nếu được biểu thị dưới dạng trong đó các hàng của ma trận tương phản trực giao lẫn nhau ( ), sau đó chúng tôi có thể kiểm tra bằng cách sử dụng thống kê , trong đóH0:α1=α2==αkGβ=0

G=[g1g2gk]
gigj=0H0:Gβ=0F=SSHrank(G)SSEk(n1)SSH=[Gβ^][G(XX)1G]1Gβ^.

Ví dụ 3

Để hiểu rõ hơn về điều này, hãy sử dụng và giả sử chúng tôi muốn kiểm tra có thể được biểu thị là k=4H0:α1=α2=α3=α4,

H0:[α1α2α1α3α1α4]=[000]

Hoặc, như : H0:Gβ=0

H0:[011000101001011]G,our contrast matrix[μα1α2α3α4]=[000]

Vì vậy, chúng ta thấy rằng ba hàng của ma trận tương phản của chúng ta được xác định bởi các hệ số của độ tương phản quan tâm. Và mỗi cột đưa ra mức yếu tố mà chúng tôi đang sử dụng trong so sánh của chúng tôi.


Gần như tất cả những gì tôi đã viết đã được lấy \ sao chép (không biết xấu hổ) từ Rencher & Schaalje, "Mô hình tuyến tính trong thống kê", chương 8 và 13 (ví dụ, từ ngữ của định lý, một số diễn giải), nhưng những thứ khác như thuật ngữ "ma trận tương phản "(Mà, thực sự, không xuất hiện trong cuốn sách này) và định nghĩa của nó được đưa ra ở đây là của riêng tôi.


Liên quan ma trận tương phản của OP với câu trả lời của tôi

Một trong những ma trận của OP (cũng có thể được tìm thấy trong hướng dẫn này ) là:

> contr.treatment(4)
  2 3 4
1 0 0 0
2 1 0 0
3 0 1 0
4 0 0 1

Trong trường hợp này, yếu tố của chúng tôi có 4 cấp độ và chúng tôi có thể viết mô hình như sau: Điều này có thể được viết dưới dạng ma trận như:

[y11y21y31y41]=[μμμμ]+[a1a2a3a4]+[ε11ε21ε31ε41]

Hoặc

[y11y21y31y41]=[11000101001001010001]X[μa1a2a3a4]β+[ε11ε21ε31ε41]

Bây giờ, đối với ví dụ mã hóa giả trên cùng một hướng dẫn, họ sử dụng làm nhóm tham chiếu. Do đó, chúng tôi trừ Hàng 1 khỏi mọi hàng khác trong ma trận , tạo ra :a1XX~

[11000011000101001001]

Nếu bạn quan sát số lượng của các hàng và cột trong ma trận contr.treatment (4), bạn sẽ thấy rằng họ xem xét tất cả các hàng và chỉ các cột liên quan đến các yếu tố 2, 3 và 4. Nếu chúng ta làm tương tự trong ma trận trên mang lại:

[000100010001]

Theo cách này, ma trận contr.treatment (4) đang cho chúng ta biết rằng họ đang so sánh các yếu tố 2, 3 và 4 với yếu tố 1 và so sánh yếu tố 1 với hằng số (đây là cách hiểu của tôi về điều trên).

Và, xác định (nghĩa là chỉ lấy các hàng có tổng bằng 0 trong ma trận trên): G

[011000101001001]

Chúng tôi có thể kiểm tra và tìm ước tính của độ tương phản.H0:Gβ=0

hsb2 = read.table('http://www.ats.ucla.edu/stat/data/hsb2.csv', header=T, sep=",")

y<-hsb2$write

dummies <- model.matrix(~factor(hsb2$race)+0)
X<-cbind(1,dummies)

# Defining G, what I call contrast matrix
G<-matrix(0,3,5)
G[1,]<-c(0,-1,1,0,0)
G[2,]<-c(0,-1,0,1,0)
G[3,]<-c(0,-1,0,0,1)
G
     [,1] [,2] [,3] [,4] [,5]
[1,]    0   -1    1    0    0
[2,]    0   -1    0    1    0
[3,]    0   -1    0    0    1

# Estimating Beta

X.X<-t(X)%*%X
X.y<-t(X)%*%y

library(MASS)
Betas<-ginv(X.X)%*%X.y

# Final estimators:
G%*%Betas
          [,1]
[1,] 11.541667
[2,]  1.741667
[3,]  7.596839

Và các ước tính là như nhau.


Liên quan câu trả lời của @ttnphns với tôi.

Trong ví dụ đầu tiên của họ, thiết lập có yếu tố phân loại A có ba cấp độ. Chúng ta có thể viết mô hình này dưới dạng mô hình (giả sử, vì đơn giản, ): j=1

yij=μ+ai+εij,for i=1,2,3

Và giả sử chúng tôi muốn kiểm tra hoặc , với là nhóm / yếu tố tham chiếu của chúng tôi.H0:a1=a2=a3H0:a1a3=a2a3=0a3

Điều này có thể được viết dưới dạng ma trận như:

[y11y21y31]=[μμμ]+[a1a2a3]+[ε11ε21ε31]

Hoặc

[y11y21y31]=[110010101001]X[μa1a2a3]β+[ε11ε21ε31]

Bây giờ, nếu chúng ta trừ Hàng 3 khỏi Hàng 1 và Hàng 2, chúng ta sẽ có trở thành (tôi sẽ gọi nó là :XX~

X~=[010100111001]

So sánh 3 cột cuối cùng của ma trận trên với ma trận của @ttnphns . Mặc dù có thứ tự, chúng khá giống nhau. Thật vậy, nếu nhân , chúng tôi nhận được:LX~β

[010100111001][μa1a2a3]=[a1a3a2a3μ+a3]

Vì vậy, chúng tôi có các hàm ước tính: ; ; .c1β=a1a3c2β=a2a3c3β=μ+a3

Vì , chúng tôi thấy ở trên chúng tôi đang so sánh hằng số của chúng tôi với hệ số cho nhóm tham chiếu (a_3); hệ số của nhóm1 đến hệ số của nhóm 3; và hệ số của nhóm2 đến nhóm3. Hoặc, như @ttnphns nói: "Chúng tôi thấy ngay lập tức, theo các hệ số, hằng số ước tính sẽ bằng giá trị trung bình Y trong nhóm tham chiếu; tham số b1 (tức là biến giả A1) sẽ bằng hiệu số: Y có nghĩa là trong nhóm1 trừ Y có nghĩa là trong nhóm 3 và tham số b2 là sự khác biệt: trung bình trong nhóm2 trừ trung bình trong nhóm 3. "H0:ciβ=0

Hơn nữa, hãy quan sát rằng (theo định nghĩa về độ tương phản: hàm ước tính + hàng tổng = 0), rằng các vectơ và là tương phản. Và, nếu chúng ta tạo một ma trận của các cách hiểu, chúng ta có:c1c2G

G=[01010011]

Ma trận tương phản của chúng tôi để kiểm traH0:Gβ=0

Thí dụ

Chúng tôi sẽ sử dụng cùng một dữ liệu như "Ví dụ tương phản do người dùng xác định" của @ttnphns (Tôi muốn đề cập rằng lý thuyết mà tôi đã viết ở đây yêu cầu một vài sửa đổi để xem xét các mô hình có tương tác, đó là lý do tại sao tôi chọn ví dụ này. , các định nghĩa về độ tương phản và - cái mà tôi gọi là - ma trận tương phản vẫn giống nhau).

Y<-c(0.226,0.6836,-1.772,-0.5085,1.1836,0.5633,0.8709,0.2858,0.4057,-1.156,1.5199,
     -0.1388,0.4865,-0.7653,0.3418,-1.273,1.4042,-0.1622,0.3347,-0.4576,0.7585,0.4084,
     1.4165,-0.5138,0.9725,0.2373,-1.562,1.3985,0.0397,-0.4689,-1.499,-0.7654,0.1442,
     -1.404,-0.2201,-1.166,0.7282,0.9524,-1.462,-0.3478,0.5679,0.5608,1.0338,-1.161,
     -0.1037,2.047,2.3613,0.1222)

F_<-c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,
    5,5,5,5,5,5,5,5,5,5,5)

dummies.F<-model.matrix(~as.factor(F_)+0)

X_F<-cbind(1,dummies.F)

G_F<-matrix(0,4,6)
G_F[1,]<-c(0,3,3,-2,-2,-2)
G_F[2,]<-c(0,1,-1,0,0,0)
G_F[3,]<-c(0,0,0,2,-1,-1)
G_F[4,]<-c(0,0,0,0,1,-1)

 G 
 [,1] [,2] [,3] [,4] [,5] [,6]
[1,]    0    3    3   -2   -2   -2
[2,]    0    1   -1    0    0    0
[3,]    0    0    0    2   -1   -1
[4,]    0    0    0    0    1   -1

# Estimating Beta 

X_F.X_F<-t(X_F)%*%X_F
X_F.Y<-t(X_F)%*%Y

Betas_F<-ginv(X_F.X_F)%*%X_F.Y

# Final estimators:
G_F%*%Betas_F
           [,1]
[1,]  0.5888183
[2,] -0.1468029
[3,]  0.6115212
[4,] -0.9279030

Vì vậy, chúng tôi có kết quả tương tự.


Phần kết luận

Dường như với tôi rằng không có một khái niệm xác định nào về ma trận tương phản là gì.

Nếu bạn lấy định nghĩa về độ tương phản, được đưa ra bởi Scheffe ("Phân tích phương sai", trang 66), bạn sẽ thấy đó là một hàm ước tính có hệ số tổng bằng không. Vì vậy, nếu chúng tôi muốn kiểm tra các kết hợp tuyến tính khác nhau của các hệ số của các biến phân loại, chúng tôi sử dụng ma trận . Đây là một ma trận trong đó các hàng tổng bằng 0, chúng tôi sử dụng để nhân ma trận hệ số của chúng tôi để làm cho các hệ số đó có thể ước tính được. Các hàng của nó chỉ ra các kết hợp tuyến tính tương phản khác nhau mà chúng tôi đang thử nghiệm và các cột của nó cho biết các yếu tố (hệ số) nào đang được so sánh.G

Vì ma trận ở trên được xây dựng theo cách mà mỗi hàng của nó được tạo bởi một vectơ tương phản (tổng bằng 0), nên đối với tôi, gọi là "ma trận tương phản" ( Monahan - "Một mồi trên các mô hình tuyến tính" - cũng sử dụng thuật ngữ này).GG

Tuy nhiên, như được giải thích tuyệt vời bởi @ttnphns, phần mềm đang gọi một thứ khác là "ma trận tương phản" và tôi không thể tìm thấy mối quan hệ trực tiếp giữa ma trận và các lệnh / ma trận tích hợp từ SPSS (@ttnphns ) hoặc R (câu hỏi của OP), chỉ những điểm tương đồng. Nhưng tôi tin rằng các cuộc thảo luận / hợp tác tốt đẹp được trình bày ở đây sẽ giúp làm rõ các khái niệm và định nghĩa như vậy.G


xin vui lòng không hạn chế câu trả lời này chỉ cho anova nếu có thể. Thẻ [anova] đã được @amoeba thêm vào thời điểm bạn trả lời câu hỏi của tôi, nhưng tôi không muốn câu trả lời chỉ giới hạn ở anova.
Tò mò

Cảm ơn rất nhiều cho một bản cập nhật lớn như vậy. Bây giờ tôi đã xóa một số nhận xét của tôi đã lỗi thời (bạn có thể xóa một số nhận xét của mình, ví dụ như nhận xét đầu tiên). Tuy nhiên, cho đến giờ tôi đã rõ ràng rằng "ma trận tương phản" theo nghĩa của bạn (và của Monahan) là một cái gì đó hoàn toàn khác với "ma trận tương phản" theo nghĩa nó được sử dụng trong sách hướng dẫn R này và cả trong câu hỏi ban đầu ở đây (những gì ttnphns gọi Ma trận C). Tôi nghĩ sẽ có ý nghĩa nếu bạn ghi chú ở đâu đó trong câu trả lời của bạn về sự khác biệt này.
amip nói rằng Phục hồi lại

Tôi đang gặp rắc rối với sự hiểu biết bắt đầu ngay từ Ví dụ1. Là những gì một trong ký hiệu của bạn ? là gì và các cột od đại diện cho cái gì? Đó có phải là thuật ngữ không đổi (cột của những cái) và hai biến giả không? ijyijaiX
ttnphns

@ttnphns: là nhóm lập chỉ mục (có hai nhóm trong ví dụ 1), là lập chỉ mục điểm dữ liệu trong mỗi nhóm. là hằng số và là hằng số cho mỗi nhóm sao cho là phương tiện nhóm (vì vậy có thể là tổng trung bình và có thể là độ lệch của nghĩa của nhóm so với tổng trung bình). Cột của là số hạng không đổi và hai hình nộm, vâng. ijμαiμ+αiμαiX
amip nói phục hồi Monica

Cảm ơn bạn vì câu trả lời này, nhưng tôi có lẽ sẽ không bao giờ có thể và cũng không có thời gian để hiểu nó. Và tôi đã học toán :-) Tôi mong đợi một định nghĩa rất đơn giản như một câu trả lời :-)
Tò mò

7

"Ma trận tương phản" không phải là một thuật ngữ tiêu chuẩn trong tài liệu thống kê. Nó có thể có [ít nhất] hai liên quan bởi các ý nghĩa riêng biệt:

  1. Một ma trận chỉ định một giả thuyết null cụ thể trong hồi quy ANOVA (không liên quan đến sơ đồ mã hóa), trong đó mỗi hàng là một sự tương phản . Đây không phải là cách sử dụng tiêu chuẩn của thuật ngữ này. Tôi đã sử dụng tìm kiếm toàn văn bản trong Christensen Máy bay trả lời cho các câu hỏi phức tạp , Rutherford Giới thiệu ANOVA và ANCOVA; Phương pháp tiếp cận GLM , và các mô hình tuyến tính Rencher & Schaalje trong Thống kê . Tất cả họ đều nói rất nhiều về "sự tương phản" nhưng không bao giờ đề cập đến thuật ngữ "ma trận tương phản". Tuy nhiên, như @Gus_est đã tìm thấy, thuật ngữ này được sử dụng trong A Primer trên Mô hình tuyến tính của Monahan .

  2. Một ma trận chỉ định sơ đồ mã hóa cho ma trận thiết kế theo hồi quy ANOVA. Đây là cách thuật ngữ "ma trận tương phản" được sử dụng trong cộng đồng R (xem ví dụ: hướng dẫn này hoặc trang trợ giúp này ).

Câu trả lời của @Gus_est khám phá ý nghĩa đầu tiên. Câu trả lời của @ttnphns khám phá ý nghĩa thứ hai (ông gọi nó là "ma trận mã hóa tương phản" và cũng thảo luận về "ma trận hệ số tương phản" là một thuật ngữ tiêu chuẩn trong tài liệu SPSS).


Hiểu biết của tôi là bạn đã hỏi về ý nghĩa số 2, vì vậy đây là định nghĩa:

"Ma trận Contrast" theo nghĩa R là ma trận nơi là số nhóm, quy định cụ thể như thế nào thành viên nhóm được mã hóa trong thiết kế ma trận . Cụ thể, nếu một quan sát thứ thuộc về nhóm thì .k×kCkXmiXmj=Cij

Lưu ý: thường là cột đầu tiên của là cột của tất cả các cột (tương ứng với cột chặn trong ma trận thiết kế). Khi bạn gọi các lệnh R như thế nào , bạn sẽ nhận được ma trận mà không có cột đầu tiên này.Ccontr.treatment(4)C


Tôi đang lên kế hoạch mở rộng câu trả lời này để đưa ra nhận xét mở rộng về cách các câu trả lời của @ttnphns và @Gus_est khớp với nhau.


The answer by @Gus_est explores the first meaning. The answer by @ttnphns explores the second meaning.Tôi phản đối. (. Và đang ngạc nhiên khi nghe - sau khi cả hai chúng tôi đã có một cuộc trò chuyện dài về các định nghĩa trong các ý kiến để trả lời MTY) Tôi mời hai nhiệm kỳ: Hệ số tương phản ma trận (nơi hàng là tương phản, combibnation tuyến tính của phương tiện) hay còn gọi là L-ma trận, và ma trận lược đồ mã hóa tương phản , còn gọi là ma trận C. Cả hai đều liên quan, tôi đã thảo luận cả.
ttnphns

(tt) Ma trận hệ số L tương phản là một thuật ngữ tiêu chuẩn trong mô hình tuyến tính ANOVA / Tổng quát, được sử dụng trong các văn bản và trong các tài liệu SPSS, ví dụ . Các chương trình mã hóa xem ở đây .
ttnphns

You were asking about meaning #2Chúng tôi thực sự không chắc ý nghĩa của thuật ngữ OP ngụ ý. OP đã hiển thị một số ví dụ về các sơ đồ mã hóa tương phản, - điều đó không nhất thiết có nghĩa là anh ta không quan tâm đến ma trận L.
ttnphns

1
Tôi rất vui vì bây giờ chúng ta nói cùng một ngôn ngữ. Có vẻ như vậy, ít nhất. Sẽ thật tuyệt vời cho tất cả mọi người, đặc biệt là người đọc khách truy cập, nếu bạn hoàn thành câu trả lời của mình, cho thấy các báo cáo của Gus và ttnphns 'chuyển đổi thành cùng một kết quả như thế nào. Nếu bạn muốn thực hiện.
ttnphns

1
(tt) Tất nhiên ma trận L trong cả hai "cách tiếp cận" đều giống nhau (và không cần ma trận G bí ẩn). Chỉ ra rằng hai đường dẫn tương đương (L là tùy ý, X là hình nộm): L -> XC -> regression -> resultX -> [regression -> adjusting to test for L] -> resultđể lại kết quả tương tự. Đường dẫn thứ 2 là cách một chương trình ANOVA sẽ làm (phần được đặt trong ngoặc []); đường dẫn thứ 1 là một minh chứng mô phạm về cách tương phản có thể giải quyết được thông qua chương trình hồi quy.
ttnphns

3

Một sự tương phản so sánh hai nhóm bằng cách so sánh sự khác biệt của chúng với số không. Trong một ma trận tương phản, các hàng là tương phản và phải thêm vào không, các cột là các nhóm. Ví dụ:

Giả sử bạn có 4 nhóm A, B, C, D mà bạn muốn so sánh, thì ma trận tương phản sẽ là:

Nhóm: ABCD
A vs B: 1 -1 0 0
C so với D: 0 0 -1 1
A, B vs D, C: 1 1 -1 -1

Diễn giải từ sự hiểu biết về thí nghiệm công nghiệp :

Nếu có một nhóm k đối tượng được so sánh, với trung bình k nhóm con, độ tương phản được xác định trên tập hợp các đối tượng k này bởi bất kỳ tập hợp k hệ số nào, [c1, c2, c3, ... cj, ..., ck ] tổng đó bằng không.

Đặt C là một sự tương phản sau đó,

C=c1μ1+c2μ2+...cjμj+...ckμk

C=j=1kcjμj

với ràng buộc

j=1kcj=0

Những nhóm con được gán hệ số 0 sẽ bị loại khỏi so sánh. (*)

Đó là dấu hiệu của các hệ số thực sự xác định so sánh, không phải các giá trị được chọn. Các giá trị tuyệt đối của các hệ số có thể là bất cứ thứ gì miễn là tổng các hệ số bằng không.

(*) Mỗi ​​phần mềm thống kê có một cách khác nhau để chỉ ra nhóm con nào sẽ bị loại trừ / bao gồm.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.