Đọc các ô hình hộp và râu ria: có thể thu được sự khác biệt đáng kể giữa các nhóm?


11

Giả sử chúng ta đang xem xét âm mưu hộp và râu ria này:

âm mưu

Giữa thứ năm và thứ sáu, tôi nghĩ hầu hết sẽ đồng ý rằng dường như có một sự khác biệt đáng kể về thời gian ngủ. Đó có phải là một phỏng đoán hợp lệ, mặc dù? Chúng ta có thể nhận ra sự khác biệt đáng kể do thực tế không phải là phạm vi tứ phân vị bên trong trùng lặp giữa Thứ Năm và Thứ Sáu? Thế còn thực tế là râu trên và dưới của Thứ Năm và Thứ Sáu, tương ứng trùng nhau thì sao? Điều đó có ảnh hưởng đến phân tích của chúng tôi?

Thông thường đi kèm với một biểu đồ như thế này sẽ là một loại ANOVA, nhưng tôi chỉ tò mò chúng ta có thể nói bao nhiêu về sự khác biệt giữa các nhóm chỉ bằng cách nhìn vào một ô vuông .


Các vòng tròn đại diện cho các ngoại lệ.
Michael R. Chernick

3
Miễn là cốt truyện bỏ lỡ bất kỳ dấu hiệu nào về kích thước mẫu, điều đó thật khó khăn. Nhưng nếu bạn bao gồm các khoảng tin cậy cốt truyện cho các trung vị, bạn sẽ so sánh các khoảng tin cậy đó. Họ dường như không có mặt trong cốt truyện của bạn.
kjetil b halvorsen 17/2/2017

@kjetilbhalvorsen đây chỉ là một âm mưu tôi lấy từ Google :) ... Tôi đã đưa vào, trên cốt truyện của chính tôi, chính xác những gì bạn đã mô tả, như một phần của bài kiểm tra HSD của Tukey
blacksite

2
Không có TCTD, bạn không thể nói về sự khác biệt "đáng kể". Tuy nhiên, tôi sẽ nói có một sự khác biệt "đáng chú ý" giữa Thứ Năm và Thứ Sáu. Hoặc thậm chí sự khác biệt "đáng chú ý nhất" xảy ra giữa Thứ Năm và Thứ Sáu ..
Ashe

1
Các vòng tròn là điểm hơn 1,5 IQR từ phần tư gần hơn. Họ không vượt trội một cách dứt khoát và khách quan. Điều đó cho thứ Năm không có vẻ bất thường so với phần còn lại của phân phối. Điều đó cho thứ Sáu thực sự làm; và một nhà nghiên cứu hoặc nhà phân tích nên muốn kiểm tra xem nếu có thể và xem có câu chuyện nào để giải thích không. Có lẽ ai đó thực sự không ngủ! Đánh dấu các điểm dữ liệu theo cách này là gắn cờ chúng để kiểm tra và suy nghĩ. Đây không phải là một phương pháp thống kê để xác định quỷ sẽ bị trừ tà.
Nick Cox

Câu trả lời:


4

Không, bạn không thể. Nếu bạn có kích thước mẫu và nhiều kinh nghiệm bạn có thể đoán - và độ chính xác của dự đoán của bạn sẽ phụ thuộc vào (ngoài kích thước hiệu ứng) kích thước mẫu. Nếu N = 1.000.000 mỗi nhóm, rất nhiều ý nghĩa. Nếu N = 10 mỗi nhóm, không quá nhiều. Ở mức 100 mỗi nhóm, điều đó khó đoán hơn.

Tôi cho rằng đó là một điều tốt . Điều cần làm với một âm mưu hộp không phải là cố gắng đoán ý nghĩa thống kê mà là xem xét những gì đang diễn ra và cố gắng suy luận về nó. Hừm. Ngủ nhiều vào cuối tuần. Điều đó thật thú vị nhưng không thực sự đáng ngạc nhiên. Chúng ta có thể mô hình giờ ngủ như một chức năng của cuối tuần chứ không phải. Hoặc chúng ta có thể thử xem mẫu này có đa dạng không. Có lẽ những người về hưu không có mô hình này? Còn nhân viên làm ca thì sao? Những người làm việc vào cuối tuần? Những người làm việc 7 ngày một tuần?

Như giáo sư yêu thích của tôi ở trường học (Herman Friedman) đã từng nói: "Dừng p-ing vào nghiên cứu!"


1
N<5

8

Vâng, bạn có thể. Ít nhất là trong một ý nghĩa gần đúng.

Tôi phác thảo cách bên dưới (và thực sự có mối quan hệ với "hộp chồng chéo" như bạn đề xuất) cùng với một số hạn chế và hạn chế. Nhưng trước tiên hãy thảo luận về một vài sơ bộ cho một số bối cảnh và bối cảnh. (Tôi nghĩ rằng một câu trả lời thích hợp ở đây không nên tập trung vào các chi tiết của ví dụ - mặc dù điều đó có lẽ đáng được nhắc đến như một bên - nhưng về vấn đề trung tâm của việc sử dụng boxplots để đánh giá xem sự khác biệt rõ ràng có thể dễ dàng được giải thích như là sự thay đổi ngẫu nhiên hay không .)

Nếu bạn có quyền truy cập vào dữ liệu, bạn có thể vẽ các ô vuông được thiết kế cho loại so sánh trực quan này.

Hình ảnh hiển thị các ô vuông được ghi chú trong R

Có một cuộc thảo luận về tính toán boxplot ở đây . Nếu các khoảng thời gian không trùng nhau, hai nhóm được so sánh sẽ khác nhau ở mức 5%; các tính toán dựa trên các tính toán ở mức bình thường, nhưng chúng khá mạnh mẽ và hoạt động khá tốt trên một loạt các bản phân phối. (Nếu nó được coi là một thử nghiệm chính thức, sức mạnh không quá cao so với bình thường nhưng nó sẽ hoạt động khá tốt đối với nhiều trường hợp nặng hơn hoặc ít hơn "điển hình".

Xem xét cách thức hoạt động của các ô vuông, bạn có thể nhận ra một quy tắc nhanh sẽ hoạt động khi bạn chỉ có một màn hình giống như trong câu hỏi. Khi kích thước mẫu là 10 và trung vị được đặt gần giữa hộp, các rãnh trong một ô vuông có chiều rộng bằng chiều rộng của hộp, do đó, các đầu khía và hộp nằm ở cùng một vị trí.

n=10

n=10

n=9n=10

n=10n=10,10n=9,9n=8,8

nnn=40

Nhìn vào cốt truyện của bạn:

Lưu ý rằng chúng ta có thể biết từ sự xuất hiện của âm mưu trong câu hỏi rằng kích thước mẫu phải ít nhất là 5; nếu chúng nhỏ hơn 5, các ô vuông mẫu riêng lẻ sẽ có manh mối riêng biệt rằng chúng có kích thước mẫu thấp hơn (chẳng hạn như trung bình là trung tâm chết của mỗi hộp hoặc ria có độ dài 0 khi có ngoại lệ).

Ngoài ra, nếu các hộp (đánh dấu các phần tư) không trùng nhau và kích thước mẫu ít nhất là 10, thì hai nhóm được so sánh sẽ có các giá trị trung bình khác nhau ở mức 5% (được coi là so sánh từng cặp).

nn=5

[Lưu ý, điều này không tính đến số lượng so sánh, vì vậy nếu bạn thực hiện nhiều so sánh, lỗi loại I chung của bạn sẽ lớn hơn. Nó có nghĩa là để kiểm tra trực quan hơn là thử nghiệm chính thức; tuy nhiên các ý tưởng liên quan có thể được điều chỉnh theo cách tiếp cận chính thức hơn, bao gồm điều chỉnh cho nhiều so sánh.]

Đã giải quyết cho dù bạn có thể , sẽ là hợp lý để xem xét liệu bạn nên . Có lẽ không; vấn đề hack p tiềm năng là có thật, nhưng nếu bạn đang sử dụng điều này để tìm hiểu xem, ví dụ, để theo đuổi việc thu thập dữ liệu mới về vấn đề nghiên cứu và tất cả những gì bạn có là một hộp trong một tờ giấy - có thể là khá hữu ích để có thể đưa ra một số đánh giá về việc liệu có nhiều hơn có thể dễ dàng được giải thích bằng sự thay đổi do tiếng ồn hay không. Nhưng để xem xét vấn đề đó một cách sâu sắc sẽ thực sự trả lời một câu hỏi khác.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.