Tại sao các giả định ANOVA (bình đẳng về phương sai, tính quy tắc của phần dư) lại quan trọng?


15

Khi chạy ANOVA, chúng tôi được cho biết rằng phải có một số giả định nhất định về thử nghiệm để áp dụng cho dữ liệu. Tôi không bao giờ hiểu lý do là tại sao các giả định sau đây là cần thiết để thử nghiệm hoạt động:

  1. Phương sai của biến phụ thuộc của bạn (phần dư) phải bằng nhau trong mỗi ô của thiết kế

  2. Biến phụ thuộc của bạn (phần dư) phải được phân phối bình thường cho mỗi ô của thiết kế

Tôi hiểu rằng có một chút khu vực màu xám nếu như những giả định này cần phải được đáp ứng, nhưng để tranh luận, nếu những giả định này hoàn toàn không được đáp ứng trong một tập dữ liệu nhất định, thì vấn đề gì khi sử dụng ANOVA ?


mục tiêu học tập của bạn là gì?
Subhash C. Davar

Câu trả lời:


8

Các giả định có vấn đề khi chúng ảnh hưởng đến các thuộc tính của các thử nghiệm giả thuyết (và các khoảng) mà bạn có thể sử dụng có các thuộc tính phân phối theo null được tính dựa trên các giả định đó.

Đặc biệt, đối với các bài kiểm tra giả thuyết, điều chúng ta có thể quan tâm là mức độ ý nghĩa thực sự có thể đến mức nào so với những gì chúng ta muốn, và liệu sức mạnh chống lại các lựa chọn thay thế có tốt hay không.

Liên quan đến các giả định bạn hỏi về:

1. Bình đẳng phương sai

Phương sai của biến phụ thuộc của bạn (phần dư) phải bằng nhau trong mỗi ô của thiết kế

Điều này chắc chắn có thể tác động đến mức ý nghĩa, ít nhất là khi kích thước mẫu không bằng nhau.

(Chỉnh sửa :) Thống kê ANOVA F là tỷ lệ của hai ước tính phương sai (phân vùng và so sánh phương sai là lý do tại sao nó được gọi là phân tích phương sai). Mẫu số là ước tính của phương sai lỗi được cho là phổ biến đối với tất cả các ô (được tính từ phần dư), trong khi tử số, dựa trên sự thay đổi trong nhóm có nghĩa, sẽ có hai thành phần, một từ biến thể trong phương tiện dân số và một do phương sai lỗi. Nếu null là đúng, hai phương sai đang được ước tính sẽ giống nhau (hai ước tính của phương sai lỗi phổ biến); giá trị phổ biến nhưng không xác định này sẽ hủy (vì chúng tôi đã lấy tỷ lệ), để lại một thống kê F chỉ phụ thuộc vào sự phân phối của các lỗi (mà theo giả định chúng tôi có thể hiển thị có phân phối F. (Nhận xét tương tự áp dụng cho t- kiểm tra tôi sử dụng để minh họa.)

[Có một chút chi tiết hơn về một số thông tin trong câu trả lời của tôi ở đây ]

Tuy nhiên, ở đây hai phương sai dân số khác nhau giữa hai mẫu có kích cỡ khác nhau. Hãy xem xét mẫu số (của thống kê F trong ANOVA và của thống kê t trong thử nghiệm t) - nó bao gồm hai ước lượng phương sai khác nhau, không phải là một, vì vậy nó sẽ không có phân phối "đúng" (tỷ lệ chi -Số vuông cho F và căn bậc hai của nó trong trường hợp at - cả hình dạng và tỷ lệ đều là vấn đề).

Do đó, thống kê F hoặc thống kê t sẽ không còn phân phối F hoặc t, nhưng cách thức mà nó bị ảnh hưởng là khác nhau tùy thuộc vào mẫu lớn hay nhỏ hơn được rút ra từ dân số với phương sai lớn hơn. Điều này lần lượt ảnh hưởng đến việc phân phối các giá trị p.

Trong giá trị null (nghĩa là khi dân số có nghĩa là bằng nhau), phân phối giá trị p phải được phân phối đồng đều. Tuy nhiên, nếu phương sai và kích thước mẫu không bằng nhau nhưng phương tiện bằng nhau (vì vậy chúng tôi không muốn từ chối null), giá trị p không được phân phối đồng đều. Tôi đã làm một mô phỏng nhỏ để cho bạn thấy những gì xảy ra. Trong trường hợp này, tôi chỉ sử dụng 2 nhóm để ANOVA tương đương với thử nghiệm t hai mẫu với giả định phương sai bằng nhau. Vì vậy, tôi đã mô phỏng các mẫu từ hai phân phối bình thường, một mẫu có độ lệch chuẩn lớn gấp mười lần so với mẫu kia, nhưng có nghĩa là bằng nhau.

Đối với biểu đồ bên trái, độ lệch chuẩn ( dân số ) lớn hơn là cho n = 5 và độ lệch chuẩn nhỏ hơn là cho n = 30. Đối với biểu đồ bên phải, độ lệch chuẩn lớn hơn đi với n = 30 và nhỏ hơn với n = 5. Tôi đã mô phỏng từng cái 10000 lần và tìm thấy giá trị p mỗi lần. Trong mỗi trường hợp bạn muốn các biểu đồ là hoàn toàn phẳng (hình chữ nhật), vì phương tiện này tất cả các bài kiểm tra được tiến hành tại một số mức ý nghĩa với thực tế nhận được rằng tỷ lệ lỗi loại I. Đặc biệt, điều quan trọng nhất là các phần ngoài cùng của biểu đồ phải nằm sát đường màu xám:α

Biểu đồ giá trị p cho các mẫu mô phỏng

Như chúng ta thấy, biểu đồ bên trái (phương sai lớn hơn trong mẫu nhỏ hơn) các giá trị p có xu hướng rất nhỏ - chúng ta sẽ từ chối giả thuyết null rất thường xuyên (gần một nửa thời gian trong ví dụ này) mặc dù null là đúng . Đó là, mức ý nghĩa của chúng tôi lớn hơn nhiều so với chúng tôi yêu cầu. Trong biểu đồ phía bên phải, chúng ta thấy các giá trị p hầu hết là lớn (và do đó mức ý nghĩa của chúng ta nhỏ hơn nhiều so với chúng ta yêu cầu) - thực tế không phải một lần trong mười nghìn mô phỏng chúng ta đã từ chối ở mức 5% (nhỏ nhất giá trị p ở đây là 0,055). [Điều này có vẻ không phải là một điều tồi tệ như vậy, cho đến khi chúng ta nhớ rằng chúng ta cũng sẽ có sức mạnh rất thấp để đi với mức ý nghĩa rất thấp của chúng ta.]

Đó là một hậu quả. Đây là lý do tại sao nên sử dụng thử nghiệm t loại Welch-Satterthwaite hoặc ANOVA khi chúng ta không có lý do chính đáng để cho rằng các phương sai sẽ gần bằng nhau - bằng cách so sánh nó hầu như không bị ảnh hưởng trong những tình huống này (I cũng mô phỏng trường hợp này, hai phân phối giá trị p mô phỏng - mà tôi chưa thể hiện ở đây - xuất hiện khá gần với căn hộ).

2. Phân phối có điều kiện của phản ứng (DV)

Biến phụ thuộc của bạn (phần dư) phải được phân phối bình thường cho mỗi ô của thiết kế

Điều này có phần ít quan trọng trực tiếp - đối với độ lệch vừa phải so với tính chuẩn, mức ý nghĩa không bị ảnh hưởng nhiều trong các mẫu lớn hơn (mặc dù sức mạnh có thể!).

nn

biểu đồ của giá trị p khi H0 là đúng nhưng phân phối trong mỗi nhóm là theo cấp số nhân

Chúng tôi thấy rằng tại n = 5 có quá ít giá trị p nhỏ (mức ý nghĩa cho thử nghiệm 5% sẽ bằng khoảng một nửa so với mức cần thiết), nhưng tại n = 50, vấn đề đã giảm - với 5% kiểm tra trong trường hợp này mức ý nghĩa thực sự là khoảng 4,5%.

Vì vậy, chúng ta có thể bị cám dỗ để nói "tốt, điều đó tốt, nếu n đủ lớn để có mức ý nghĩa khá gần", nhưng chúng ta cũng có thể đang ném một cách mạnh mẽ. Cụ thể, người ta biết rằng hiệu quả tương đối tiệm cận của thử nghiệm t so với các lựa chọn thay thế được sử dụng rộng rãi có thể lên đến 0. Điều này có nghĩa là các lựa chọn thử nghiệm tốt hơn có thể có cùng công suất với một phần nhỏ của kích thước mẫu cần thiết để có được nó với bài kiểm tra t. Bạn không cần bất cứ điều gì khác thường để tiếp tục cần nhiều hơn gấp đôi số lượng dữ liệu để có cùng sức mạnh với t như bạn cần với một thử nghiệm thay thế - nặng hơn vừa phải so với đuôi bình thường trong phân bố dân số và các mẫu lớn vừa phải có thể đủ để làm điều đó.

(Các lựa chọn phân phối khác có thể làm cho mức ý nghĩa cao hơn mức cần thiết hoặc thấp hơn đáng kể so với mức chúng tôi thấy ở đây.)


Cảm ơn Glen đã trả lời chi tiết. Tôi tò mò về lý do tại sao các lỗi mà bạn đã mô tả sẽ xảy ra nếu các giả định không được đáp ứng Xét về phương sai của phương sai, tôi có đúng khi lấy từ văn bản của bạn không?: Vấn đề phát sinh từ việc có một nhóm kích thước mẫu nhỏ hơn có phương sai lớn hơn là (cũng như số lượng điểm dữ liệu nói chung là nhỏ = n = 5) mà phương sai lớn hơn quan sát được trong mẫu nhỏ hơn đang được tính là đại diện của phương sai ở cấp độ dân số.
PaperRockBazooka

(phần 2) Về cơ bản, đó là sự so sánh không công bằng giữa mẫu đại diện và mẫu dưới đại diện (nói một cách tương đối) có thể dẫn đến lỗi loại 1 do cách xử lý ANOVA.
PaperRockBazooka

@Paper Tôi không nghĩ đó là vấn đề ở đây. Đây không phải là tính đại diện của phương sai mẫu trong mẫu nhỏ hơn (ví dụ: nếu cả hai mẫu đều nhỏ như nhau, bạn sẽ gặp vấn đề gấp đôi về tính đại diện, nhưng vấn đề này sẽ không có). Tôi đã thêm một vài đoạn vào câu trả lời của mình để giải thích vấn đề phát sinh chi tiết hơn như thế nào.
Glen_b -Reinstate Monica

4

Tóm lại, ANOVA đang thêm , bình phươngtrung bình . Phần dư cho bạn biết mô hình của bạn phù hợp với dữ liệu như thế nào. Trong ví dụ này, tôi đã sử dụngPlantGrowth bộ dữ liệu trong R:

Kết quả từ một thí nghiệm để so sánh năng suất (được đo bằng trọng lượng khô của cây) thu được dưới sự kiểm soát và hai điều kiện xử lý khác nhau.

Cốt truyện đầu tiên này cho bạn thấy ý nghĩa to lớn của cả ba cấp độ điều trị:

nhập mô tả hình ảnh ở đây

Các đường màu đỏ là phần dư . Bây giờ bằng cách bình phương và thêm độ dài của các dòng riêng lẻ đó, bạn sẽ nhận được một giá trị cho bạn biết mức độ trung bình (mô hình của chúng tôi) mô tả dữ liệu. Một số nhỏ, cho bạn biết giá trị trung bình mô tả điểm dữ liệu của bạn tốt, số lớn hơn cho bạn biết giá trị trung bình mô tả dữ liệu của bạn không tốt lắm. Con số này được gọi là Tổng số bình phương :

SStotal=(xix¯grand)2xix¯grand giá trị trung bình lớn trên tập dữ liệu.

Bây giờ bạn làm điều tương tự đối với phần dư trong điều trị của bạn (Số dư của bình phương , còn được gọi là tiếng ồn trong các mức điều trị):

nhập mô tả hình ảnh ở đây

Và công thức:

SSresiduals=(xikx¯k)2xikikx¯k

Cuối cùng, chúng ta cần xác định tín hiệu trong dữ liệu, được gọi là Mô hình tổng bình phương , sau này sẽ được sử dụng để tính toán xem phương tiện xử lý có khác với nghĩa trung bình hay không:

nhập mô tả hình ảnh ở đây

Và công thức:

SSmodel=nk(x¯kx¯grand)2nknkx¯kx¯grand

Bây giờ nhược điểm với tổng bình phương là chúng lớn hơn khi kích thước mẫu tăng. Để biểu thị các tổng bình phương đó so với số lượng quan sát trong tập dữ liệu, bạn chia chúng theo mức độ tự do của chúng biến chúng thành phương sai. Vì vậy, sau khi bình phươngthêm các điểm dữ liệu của bạn, giờ đây bạn đang tính trung bình cho chúng bằng cách sử dụng mức độ tự do của chúng:

dftotal=(n1)

dfresidual=(nk)

dfmodel=(k1)

nk

Điều này dẫn đến Quảng trường trung bình mô hìnhQuảng trường trung bình (cả hai đều là phương sai) hoặc tỷ lệ tín hiệu / nhiễu, được gọi là giá trị F:

MSmodel=SSmodeldfmodel

MSreSTôidbạnmộttôi= =SSreSTôidbạnmộttôidfreSTôidbạnmộttôi

F= =MSmodetôiMSreSTôidbạnmộttôi

Giá trị F mô tả tỷ lệ tín hiệu / nhiễu hoặc liệu phương tiện xử lý có khác với giá trị trung bình không. Giá trị F hiện được sử dụng để tính giá trị p và chúng sẽ quyết định liệu ít nhất một trong các phương tiện xử lý có khác biệt đáng kể so với giá trị trung bình hay không.

Bây giờ tôi hy vọng bạn có thể thấy rằng các giả định được dựa trên các tính toán với số dư và tại sao chúng lại quan trọng. Vì chúng ta thêm , bình phươngtrung bình dư, chúng ta nên đảm bảo rằng trước khi thực hiện việc này, dữ liệu trong các nhóm xử lý này hoạt động tương tự , nếu không, giá trị F có thể bị sai lệch ở một mức độ nào đó và suy luận được rút ra từ giá trị F này có thể không có giá trị

Chỉnh sửa: Tôi đã thêm hai đoạn để giải quyết câu hỏi 2 và 1 của OP cụ thể hơn .

Giả định về tính quy phạm : Giá trị trung bình (hoặc giá trị dự kiến) thường được sử dụng trong thống kê để mô tả trung tâm của phân phối, tuy nhiên nó không mạnh mẽ và dễ bị ảnh hưởng bởi các ngoại lệ. Giá trị trung bình là mô hình đơn giản nhất chúng ta có thể phù hợp với dữ liệu. Vì trong ANOVA, chúng tôi đang sử dụng giá trị trung bình để tính phần dư và tổng bình phương (xem công thức ở trên), dữ liệu nên được phân phối một cách bình thường (giả định quy tắc). Nếu đây không phải là trường hợp, giá trị trung bình có thể không phải là mô hình phù hợp cho dữ liệu vì nó sẽ không cung cấp cho chúng ta vị trí chính xác của trung tâm phân phối mẫu. Thay vào đó một lần có thể sử dụng trung bình chẳng hạn (xem quy trình kiểm tra không tham số).

Tính đồng nhất của giả định phương sai : Sau này khi chúng ta tính toán bình phương trung bình (mô hình và số dư), chúng ta sẽ gộp các tổng bình phương riêng lẻ từ các mức xử lý và tính trung bình cho chúng (xem các công thức ở trên). Bằng cách gộp và lấy trung bình, chúng ta đang mất thông tin về phương sai mức độ điều trị riêng lẻ và đóng góp của chúng vào bình phương trung bình. Do đó, chúng ta nên có sự chênh lệch gần như nhau giữa tất cả các mức điều trị để đóng góp cho bình phương trung bình là tương tự nhau. Nếu phương sai giữa các mức xử lý đó khác nhau, thì bình phương trung bình và giá trị F sẽ bị sai lệch và sẽ ảnh hưởng đến việc tính toán các giá trị p được rút ra từ các giá trị p này (xem thêm nhận xét của @whuber và Câu trả lời của @Glen_b).

Đây là cách tôi nhìn thấy nó cho bản thân mình. Nó có thể không chính xác 100% (tôi không phải là một nhà thống kê) nhưng nó giúp tôi hiểu tại sao việc thỏa mãn các giả định cho ANOVA lại quan trọng.


Tài khoản của bạn là tốt, nhưng bạn đã dừng lại chỉ để trả lời câu hỏi! CácFthống kê là một mô tả hữu ích của ANOVA không có vấn đề gì. Các giả định về tính đồng nhất và tính chuẩn tắc là cần thiết đểF thống kê sẽ thực sự có một Fphân phối tỷ lệ; hơn nữa, các vi phạm tương đối nhỏ của một trong hai giả định có xu hướng gây raF phân phối thống kê để khởi hành đáng chú ý từ Fphân phối tỷ lệ, nghi ngờ đúc trên bất kỳ giá trị p được tính toán từ nó. Đó là lý do tại sao các câu trả lời khác, chẳng hạn như bởi @Glen_b, tập trung vào phân phối này.
whuber

@whuber Tôi đánh giá cao nhận xét của bạn, nó giúp tôi tìm hiểu. Tôi sẽ phải để cái này chìm vào và dành thời gian nhìn vàoF tỷ lệ so với Fphân phối thống kê và cách chúng ảnh hưởng đến việc tính toán các giá trị p.
Stefan

Cảm ơn Stefan. Tôi muốn xem nếu tôi hiểu bạn chính xác. ANOVA về cơ bản tạo ra một ý nghĩa lớn trong số tất cả các điểm dữ liệu của tập hợp và so sánh mỗi nhóm khác nhau bao xa so với ý nghĩa lớn này để hiểu nếu chúng là một sự khác biệt có ý nghĩa thống kê giữa chúng. Nếu các giả định được thảo luận không được đáp ứng, ý nghĩa lớn không phản ánh đúng các nhóm được so sánh và nó dẫn đến một khó khăn để so sánh
PaperRockBazooka

@PaperRockBazooka Trong ANOVA bạn đang so sánh tín hiệu với nhiễu. Nếu bạn không thể phát hiện tín hiệu, nghĩa là ảnh hưởng của việc điều trị đến kết quả, bạn cũng có thể lấy ý nghĩa lớn làm mô hình để mô tả dữ liệu. Chúng tôi đang sử dụng sự khác biệt của các điểm dữ liệu với giá trị trung bình (SStotmộttôi), sự khác biệt của các điểm dữ liệu với phương tiện điều trị (SSreSTôidbạnmộttôi) và sự khác biệt của phương pháp điều trị có nghĩa là lớn (SSmodetôi) để xác định tín hiệu tỷ lệ nhiễu. Cố gắng tính toán ANOVA một chiều đơn giản bằng tay. Điều đó giúp tôi hiểu nó hơn.
Stefan

0

ANOVA chỉ là một phương pháp, nó tính toán kiểm tra F từ các mẫu của bạn và so sánh nó với phân phối F. Bạn cần một số giả định để quyết định những gì bạn muốn so sánh và tính toán các giá trị p.

Nếu bạn không đáp ứng các giả định đó, bạn có thể tính toán những thứ khác nhưng nó sẽ không phải là ANOVA.

Phân phối hữu ích nhất là phân phối bình thường (vì CLT), đó là lý do tại sao nó được sử dụng phổ biến nhất. Nếu dữ liệu của bạn không được phân phối bình thường, ít nhất bạn cần biết phân phối của nó để tính toán cái gì.

Homoscedasticity là một giả định phổ biến cũng trong phân tích hồi quy, nó chỉ làm cho mọi thứ dễ dàng hơn. Chúng ta cần một số giả định để bắt đầu.

Nếu bạn không có tính đồng nhất, bạn có thể thử chuyển đổi dữ liệu của mình để đạt được nó.

Thử nghiệm F ANOVA được biết là gần như tối ưu theo nghĩa giảm thiểu các lỗi âm tính giả cho một tỷ lệ cố định sai dương tính giả


"ANOVA" đề cập đến quá trình phân tách các tổng bình phương thành các thành phần có thể hiểu được. Bất kể các giả định phân phối, sau đó, ANOVA là ANOVA.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.