Tại sao thành phố có ý nghĩa thống kê là không đủ?


46

Tôi đã hoàn thành phân tích dữ liệu của mình và nhận được "kết quả có ý nghĩa thống kê" phù hợp với giả thuyết của tôi. Tuy nhiên, một sinh viên thống kê nói với tôi đây là một kết luận sớm. Tại sao? Có bất cứ điều gì khác cần thiết để được đưa vào báo cáo của tôi?


4
Nó phụ thuộc rất nhiều vào ý của bạn bởi "có kết quả có ý nghĩa thống kê phù hợp với giả thuyết". Nếu giả thuyết của bạn là gió được tạo ra bởi cây cối và thí nghiệm của bạn cho thấy rằng trong 100% các quan sát khi cây di chuyển cành cây, có gió, bạn sẽ thấy nó có ý nghĩa thống kê và kết luận của bạn đã được chứng minh. Điều này rõ ràng là sai. Vì vậy, đây có thể là một trong những trường hợp đó.
sashkello

1
Bạn thực sự sẽ cần một nghiên cứu tiếp theo để tuyên bố một cách an toàn một "phát hiện quan trọng" với độ tin cậy - sử dụng một bộ sưu tập dữ liệu được thiết kế tốt, cùng một mô hình và kiểm tra giả thuyết tương tự. Ngoài ra, bạn cần đảm bảo rằng tập dữ liệu hiện tại của bạn đại diện cho "dân số chung" mà bạn đang đưa ra yêu cầu với một phát hiện quan trọng (đây là vấn đề chính để suy luận với "dữ liệu lớn")
xác suất

1
Chắc chắn câu trả lời đơn giản như 'tương quan không phải là nhân quả'?
Phân số

1
Đây là điều tôi thích nhất: Những người ăn nhiều cơm hãy quên nhiều trẻ em hơn. Kiểm tra toàn bộ dân số thế giới, bạn sẽ nhận được kết quả có ý nghĩa thống kê ...
Karoly Horvath

4
Câu trả lời tuyệt vời, nhưng tôi ngạc nhiên không ai đề xuất giải pháp rõ ràng: Hỏi anh ấy / cô ấy. Bất cứ khi nào ai đó nói với bạn rằng bạn sai về công việc của bạn hoặc điều gì khác mà bạn quan tâm, chỉ cần hỏi. Nói với ai đó anh ta sai vì X, y và Z rất tuyệt - đó là một cơ hội học tập. Nhưng chỉ cần nói với ai đó rằng anh ta sai và lao ra là một động thái tinh ranh.
Sylverdrag

Câu trả lời:


53

Kiểm định giả thuyết so với ước lượng tham số

Thông thường, các giả thuyết được đóng khung theo cách nhị phân. Tôi sẽ đặt các giả thuyết định hướng sang một bên, vì chúng không thay đổi vấn đề nhiều. Thông thường, ít nhất là trong tâm lý học, để nói về các giả thuyết như: sự khác biệt giữa các phương tiện nhóm là hoặc không bằng không; tương quan là hoặc không bằng không; hệ số hồi quy bằng hoặc không bằng 0; bình phương r là hoặc không bằng không. Trong tất cả các trường hợp này, có một giả thuyết không có tác dụng, và một giả thuyết khác về hiệu ứng.

Suy nghĩ nhị phân này thường không phải là điều chúng ta quan tâm nhất. Một khi bạn nghĩ về câu hỏi nghiên cứu của mình, bạn sẽ hầu như luôn thấy rằng bạn thực sự quan tâm đến việc ước tính các tham số. Bạn quan tâm đến sự khác biệt thực tế giữa các phương tiện nhóm, hoặc kích thước của mối tương quan, hoặc kích thước của hệ số hồi quy, hoặc lượng phương sai được giải thích.

Tất nhiên, khi chúng ta lấy một mẫu dữ liệu, ước tính mẫu của một tham số không giống với tham số dân số. Vì vậy, chúng ta cần một cách định lượng sự không chắc chắn của chúng ta về giá trị của tham số có thể là gì. Từ quan điểm thường xuyên, khoảng tin cậy cung cấp một phương tiện để làm, mặc dù những người theo chủ nghĩa thuần túy Bayes có thể lập luận rằng họ không cho phép nghiêm ngặt suy luận mà bạn có thể muốn thực hiện. Từ quan điểm của Bayes, các khoảng tin cậy về mật độ sau cung cấp một phương tiện trực tiếp hơn để định lượng sự không chắc chắn của bạn về giá trị của một tham số dân số.

Thông số / kích thước hiệu ứng

Di chuyển ra khỏi phương pháp kiểm tra giả thuyết nhị phân buộc bạn phải suy nghĩ một cách liên tục. Ví dụ, sự khác biệt kích thước trong nhóm có nghĩa là lý thuyết sẽ thú vị? Làm thế nào bạn có thể ánh xạ sự khác biệt giữa các nhóm có nghĩa là ngôn ngữ chủ quan hoặc ý nghĩa thực tế? Các biện pháp hiệu ứng được tiêu chuẩn hóa cùng với các tiêu chuẩn theo ngữ cảnh là một cách để xây dựng một ngôn ngữ để định lượng ý nghĩa của các giá trị tham số khác nhau. Các biện pháp như vậy thường được dán nhãn "kích thước hiệu ứng" (ví dụ: Cohen's d, r, , v.v.). Tuy nhiên, điều hoàn toàn hợp lý và thường được ưu tiên hơn là nói về tầm quan trọng của hiệu ứng bằng các biện pháp không đạt tiêu chuẩn (ví dụ, sự khác biệt trong nhóm có nghĩa là các biến số không đạt tiêu chuẩn có ý nghĩa như mức thu nhập, tuổi thọ, v.v.).R2

Có một tài liệu khổng lồ về tâm lý học (và các lĩnh vực khác) chỉ trích sự tập trung vào giá trị p, thử nghiệm ý nghĩa giả thuyết null, v.v. (xem tìm kiếm Google Scholar này ). Tài liệu này thường khuyến nghị kích thước hiệu ứng báo cáo với các khoảng tin cậy dưới dạng độ phân giải (ví dụ: Lực lượng đặc nhiệm APA của Wilkinson, 1999).

Các bước để di chuyển khỏi thử nghiệm giả thuyết nhị phân

Nếu bạn đang nghĩ về việc áp dụng suy nghĩ này, tôi nghĩ có những cách tiếp cận tinh vi hơn mà bạn có thể thực hiện:

  • Cách tiếp cận 1a. Báo cáo ước tính điểm của hiệu ứng mẫu của bạn (ví dụ: sự khác biệt trung bình của nhóm) theo cả hai thuật ngữ thô và chuẩn. Khi bạn báo cáo kết quả của bạn thảo luận về cường độ như vậy có ý nghĩa gì đối với lý thuyết và thực hành.
  • Cách tiếp cận 1b. Thêm vào 1a, ít nhất là ở mức rất cơ bản, một số ý nghĩa về sự không chắc chắn xung quanh ước tính tham số của bạn dựa trên kích thước mẫu của bạn.
  • Cách tiếp cận 2. Cũng báo cáo khoảng tin cậy về kích thước hiệu ứng và kết hợp sự không chắc chắn này vào suy nghĩ của bạn về các giá trị hợp lý của tham số quan tâm.
  • Cách tiếp cận 3. Báo cáo các khoảng tin cậy Bayes và kiểm tra ý nghĩa của các giả định khác nhau về khoảng tin cậy đó, chẳng hạn như lựa chọn trước, quy trình tạo dữ liệu được mô tả theo mô hình của bạn, v.v.

Trong số nhiều tài liệu tham khảo có thể, bạn sẽ thấy Andrew Gelman nói rất nhiều về những vấn đề này trên blog và trong nghiên cứu của mình.

Người giới thiệu

  • Nickerson, RS (2000). Kiểm tra ý nghĩa giả thuyết Null: đánh giá về một cuộc tranh cãi cũ và tiếp tục. Phương pháp tâm lý, 5 (2), 241.
  • Wilkinson, L. (1999). Phương pháp thống kê trong các tạp chí tâm lý học: hướng dẫn và giải thích. Nhà tâm lý học người Mỹ, 54 (8), 594. PDF

12
Nói thêm về nhận xét của Jeromy, tôi có thể khuyên bạn nên đọc bài tiểu luận của Ziliac và McCloskey về việc sùng bái ý nghĩa thống kê. Đây không phải là số liệu thống kê gây chú ý nhất, nhưng nó cung cấp sự thảo luận chu đáo - và giải trí - về lý do tại sao kích thước hiệu ứng, ý nghĩa thực tế và chức năng mất là cực kỳ quan trọng. deirdremccloskey.com/docs/jsm.pdf
Jim

Tôi nghĩ có lẽ đôi khi p nên được đặt thấp hơn 0,05. Cảm ơn tất cả các bạn: gung, Jeromy và Jim
Jim Von

1
Trên Ziliak [NB] và McCloskey: Nếu bạn bận, hãy đọc phil.vt.edu/dmayo/personal_website/ nam trước. Nếu bạn không bận, vẫn đọc nó trước.
Nick Cox

Không có gì đâu, @JimVon. FWIW, đôi khi tôi nghĩ p nên được đặt cao hơn 0,05. Nó chỉ phụ thuộc.
gung - Phục hồi Monica

1
Vui mừng khi thấy Tiến sĩ Gelman được đặt tên ở đây. Rõ ràng anh ta thậm chí không thích báo cáo giá trị p, chứ đừng nói đến việc sử dụng chúng cho suy luận nghiêm túc. Anh ấy cũng là một trường hợp tốt để chuẩn hóa tất cả các biến của bạn như một vấn đề tất nhiên.
Shadowtalker

26

Chỉ để thêm vào các câu trả lời hiện có (rất hay, nhân tiện). Điều quan trọng cần biết là ý nghĩa thống kê là một chức năng của cỡ mẫu .

Khi bạn nhận được càng nhiều dữ liệu, bạn có thể tìm thấy sự khác biệt có ý nghĩa thống kê ở bất cứ đâu bạn nhìn. Khi lượng dữ liệu rất lớn, ngay cả những hiệu ứng nhỏ nhất cũng có thể dẫn đến ý nghĩa thống kê. Điều này không ngụ ý rằng các hiệu ứng có ý nghĩa trong bất kỳ cách thực tế nào.

Khi kiểm tra sự khác biệt, giá trị đơn thuần là không đủ vì kích thước hiệu ứng cần thiết để tạo ra kết quả có ý nghĩa thống kê giảm khi tăng kích thước mẫu . Trong thực tế, câu hỏi thực tế thường là liệu có ảnh hưởng của một kích thước tối thiểu nhất định (có liên quan) hay không. Khi các mẫu trở nên rất lớn, giá trị trở nên gần như vô nghĩa khi trả lời câu hỏi thực tế .ppp


Đây là điểm được quảng cáo trong slide 13 của tôi :)
Stéphane Laurent

6
+1 cho điều này. Mọi người không nhận ra ý nghĩa là một chức năng của kích thước mẫu thúc đẩy tôi.
Fomite

12

Nếu có cơ sở hợp lý để nghi ngờ giả thuyết của bạn có thể đúng trước khi bạn tiến hành nghiên cứu; và bạn đã thực hiện một nghiên cứu tốt (ví dụ, bạn đã không gây ra bất kỳ giới hạn nào); và kết quả của bạn phù hợp với giả thuyết của bạn và có ý nghĩa thống kê; sau đó tôi nghĩ rằng bạn ổn, cho đến khi đi.

Tuy nhiên, bạn không nên nghĩ rằng ý nghĩa đó là tất cả những gì quan trọng trong kết quả của bạn. Trước tiên, bạn cũng nên xem kích thước hiệu ứng (xem câu trả lời của tôi ở đây: Kích thước hiệu ứng là giả thuyết để thử nghiệm ý nghĩa ). Bạn cũng có thể muốn khám phá dữ liệu của mình một chút và xem liệu bạn có thể tìm thấy bất kỳ sự ngạc nhiên thú vị nào có thể đáng để theo dõi không.


Ý bạn là giả thuyết nên hợp lý? Và làm thế nào để đánh giá liệu giả thuyết của tôi sẽ dẫn đến phân tích dữ liệu vô nghĩa? Có thể bất ngờ thú vị tiềm năng
Jim Von

Ý tôi là, có lẽ có một số lý do chính đáng để thực hiện nghiên cứu ở vị trí số 1. Kiến thức lý thuyết hiện tại & / hoặc các nghiên cứu gần đây cho thấy giả thuyết của bạn có thể đúng. Giả thuyết của bạn không có khả năng "dẫn đến phân tích dữ liệu vô nghĩa" trừ khi nó không mạch lạc. Những bất ngờ / tính năng thú vị của dữ liệu của bạn rất có thể được phát hiện sau khi học; thực tế là chúng là những điều ngạc nhiên ngụ ý rằng bạn không biết chúng sẽ xảy ra khi bạn lên kế hoạch nghiên cứu. Vấn đề liên quan đến "hậu hoc" là liệu có nên tin vào những điều bất ngờ hay không - chúng cần được xác nhận bởi nghiên cứu trong tương lai.
gung - Phục hồi Monica

7

Trước khi báo cáo cái này và cái này và cái này và cái này, hãy bắt đầu bằng cách hình thành những gì bạn muốn học từ dữ liệu thử nghiệm của bạn. Vấn đề chính với các bài kiểm tra giả thuyết thông thường (những bài kiểm tra này chúng tôi học ở trường ...) không phải là sự bất chính: vấn đề chính là đây là những bài kiểm tra cho những giả thuyết không phải là giả thuyết được quan tâm. Xem slide 13 tại đây (tải về bản pdf để đánh giá cao hình ảnh động). Về kích thước hiệu ứng, không có định nghĩa chung về khái niệm này . Thành thật mà nói tôi không khuyến khích sử dụng nó cho các nhà thống kê không phải là chuyên gia, đây là những biện pháp kỹ thuật, không tự nhiên, "hiệu quả". Giả thuyết về sự quan tâm của bạn nên được các giáo dân đưa ra một cách dễ hiểu.


1
Một bổ sung nhỏ - giả thuyết null thực sự có nghĩa là một cái gì đó bên ngoài bối cảnh phân tích dữ liệu hiện tại để áp dụng HT tiêu chuẩn. Nó không nên được "phát minh" để bạn có thứ gì đó để từ chối ủng hộ lý thuyết / tìm kiếm của bạn.
xác suất

2

Tôi không phải là một chuyên gia về thống kê, nhưng một điều được nhấn mạnh trong các khóa học thống kê mà tôi đã làm cho đến nay là vấn đề "ý nghĩa thực tiễn". Tôi tin điều này ám chỉ những gì Jeromy và gung đang nói đến khi đề cập đến "kích thước hiệu ứng".

Chúng tôi đã có một ví dụ trong lớp về chế độ ăn kiêng 12 tuần có kết quả giảm cân đáng kể về mặt thống kê, nhưng khoảng tin cậy 95% cho thấy giảm cân trung bình từ 0,2 đến 1,2 kg (OK, dữ liệu có thể được tạo ra nhưng nó minh họa một điểm) . Mặc dù "có ý nghĩa thống kê" "khác 0", nhưng việc giảm cân 200 gram trong 12 tuần có phải là kết quả "thực tế có ý nghĩa" đối với một người thừa cân đang cố gắng để có được sức khỏe?


Đây là điểm sau slide 13 của tôi :)
Stéphane Laurent

2
Đây cũng là một ví dụ về việc kiểm tra giả thuyết null "sai". Đó không phải là kết luận mà bạn quan tâm. Một thử nghiệm giả thuyết tốt hơn sẽ là giảm cân dưới 5kg so với lớn hơn 5kg.
xác suất

1

Điều này là không thể trả lời chính xác mà không biết thêm chi tiết về nghiên cứu của bạn và những lời chỉ trích của người đó. Nhưng đây là một khả năng: nếu bạn đã chạy nhiều bài kiểm tra và bạn chọn tập trung vào bài kiểm tra xuất hiện p<0.05và bỏ qua những bài kiểm tra khác, thì "ý nghĩa" đó đã bị pha loãng bởi sự chú ý có chọn lọc của bạn đối với nó. Là một máy bơm trực giác cho điều này, hãy nhớ điều đó p=0.05có nghĩa là "kết quả này sẽ xảy ra tình cờ (chỉ) 5% thời gian ngay cả khi giả thuyết null là đúng". Vì vậy, bạn càng chạy nhiều bài kiểm tra, càng có nhiều khả năng ít nhất một trong số chúng sẽ là kết quả "đáng kể" chỉ bằng cơ hội, ngay cả khi không có hiệu lực ở đó. Xem http://en.wikipedia.org/wiki/Mult Môn_comparisonshttp://en.wikipedia.org/wiki/Post-hoc_analysis


0

Tôi đề nghị bạn đọc như sau:

Anderson, DR, Burnham, KP, Thompson, WL, 2000. Thử nghiệm giả thuyết Null: Các vấn đề, tỷ lệ lưu hành và một giải pháp thay thế. J. Wildl. Quản lý. 64, 912-923. Gigerenzer, G., 2004. Thống kê không suy nghĩ. Tạp chí kinh tế xã hội 33, 587-606. Johnson, DH, 1999. Tầm quan trọng của kiểm tra ý nghĩa thống kê. Tạp chí Quản lý động vật hoang dã 63, 763-772.

Các giả thuyết Null hiếm khi thú vị theo nghĩa, từ bất kỳ thí nghiệm hoặc tập hợp quan sát nào, có hai kết quả: từ chối chính xác null hoặc tạo ra lỗi Loại II. Kích thước hiệu ứng là những gì bạn có thể thú vị trong việc xác định và sau khi hoàn thành, bạn nên tạo khoảng tin cậy cho kích thước hiệu ứng đó.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.