Những tội lỗi thống kê phổ biến là gì?


227

Tôi là một sinh viên tốt nghiệp ngành tâm lý học, và khi tôi theo đuổi ngày càng nhiều nghiên cứu độc lập về thống kê, tôi ngày càng ngạc nhiên bởi sự không phù hợp trong đào tạo chính thức của mình. Cả kinh nghiệm cá nhân và cũ đều cho thấy rằng sự ít ỏi của sự nghiêm ngặt về thống kê trong đào tạo đại học và sau đại học là khá phổ biến trong tâm lý học. Do đó, tôi nghĩ rằng sẽ hữu ích cho những người học độc lập như tôi khi tạo ra một danh sách "Các tội thống kê", lập bảng thực hành thống kê được dạy cho học sinh tốt nghiệp như là một thực hành tiêu chuẩn thực sự được thay thế bởi cấp trên (mạnh hơn, hoặc linh hoạt hơn, hoặc mạnh mẽ, v.v.) phương pháp hiện đại hoặc được chứng minh là không hợp lệ. Dự đoán rằng các lĩnh vực khác cũng có thể gặp phải tình trạng tương tự, tôi đề xuất một wiki cộng đồng nơi chúng tôi có thể thu thập danh sách các tội lỗi thống kê qua các nguyên tắc.


5
Tôi biết rằng "tội lỗi" có thể bị viêm và một số khía cạnh của phân tích thống kê không phải là đen trắng. Ý định của tôi là thu hút các trường hợp trong đó một thực tiễn thường được dạy là khá rõ ràng không phù hợp.
Mike Lawrence

5
Bạn cũng có thể thêm sinh viên khoa học sinh học / khoa học đời sống vào hỗn hợp nếu bạn thích;)
nico

1
có thể đặt lại tên cho tội lỗi thống kê khoa học đời sống? ... hoặc một cái gì đó cụ thể hơn ...
John

1
@whuber Có một số câu trả lời hay, vì vậy tôi đã hợp nhất cả hai.

1
Xin chào @Amanda, bạn có thể đưa ra một số dấu hiệu ở đây về những gì trong cuộc nói chuyện không? Không ai thích khả năng bị rick-roll.
ness101

Câu trả lời:



115

Hầu hết các giải thích về giá trị p là tội lỗi! Việc sử dụng thông thường của các giá trị p là thiếu sót; một thực tế rằng, theo tôi, đặt câu hỏi về các phương pháp tiếp cận tiêu chuẩn cho việc giảng dạy các bài kiểm tra giả thuyết và các bài kiểm tra có ý nghĩa.

Haller và Krause đã phát hiện ra rằng các giảng viên thống kê gần như có khả năng như các sinh viên giải thích sai các giá trị p. (Làm bài kiểm tra trong bài báo của họ và xem bạn làm như thế nào.) Steve Goodman là một trường hợp tốt để loại bỏ việc sử dụng (giá trị) thông thường của giá trị p có lợi cho khả năng. Bài báo Hubbard cũng đáng xem.

Haller và Krauss. Giải thích sai về ý nghĩa: Một vấn đề sinh viên chia sẻ với giáo viên của họ . Phương pháp nghiên cứu tâm lý học (2002) tập. 7 (1) trang 1-20 ( PDF )

Hubbard và Bayarri. Nhầm lẫn về các biện pháp bằng chứng (p)) so với lỗi (α's) trong kiểm tra thống kê cổ điển . Thống kê người Mỹ (2003) tập. 57 (3)

Người đàn ông tốt. Hướng tới thống kê y tế dựa trên bằng chứng. 1: Sai lầm giá trị P. Ann Intern Med (1999) tập. 130 (12) trang 995-1004 ( PDF )

Cũng thấy:

Wagenmakers, EJ. Một giải pháp thực tế cho các vấn đề phổ biến của các giá trị p. Bản tin & Đánh giá tâm lý, 14 (5), 779-804.

đối với một số trường hợp cắt rõ ràng trong đó ngay cả cách giải thích "chính xác" về giá trị p đã được đưa ra không chính xác do các lựa chọn của người thực nghiệm.

Cập nhật (2016) : Năm 2016, Hiệp hội Thống kê Hoa Kỳ đã ban hành một tuyên bố về giá trị p, xem tại đây . Theo một cách nào đó, đây là một phản ứng đối với "lệnh cấm giá trị p" do một tạp chí tâm lý học đưa ra khoảng một năm trước đó.


2
@Michael (+1) Tôi đã thêm các liên kết đến tóm tắt và các tệp PDF chưa được chỉnh sửa. Hy vọng bạn không phiền.
chl

7
+1, nhưng tôi muốn đưa ra một số nhận xét quan trọng. Về dòng mở đầu, người ta cũng có thể nói rằng "gần như tất cả" (theo nghĩa lý thuyết đo lường) của bất kỳ khái niệm được xác định rõ là không chính xác, bởi vì chỉ có một là đúng. Thứ hai, bạn muốn nói gì khi bạn nói "cách sử dụng thông thường" và "cách tiếp cận tiêu chuẩn"? Những tài liệu tham khảo mơ hồ nghe như một người rơm. Họ không phù hợp với những gì người ta có thể tìm thấy trong các tài liệu về giáo dục thống kê, ví dụ.
whuber

4
@Whuber Hãy xem bài báo Goodman. Nó phù hợp với kinh nghiệm của tôi trong lĩnh vực dược lý. Các phương pháp cho biết "Kết quả trong đó P <0,05 được lấy là có ý nghĩa thống kê" và sau đó kết quả được trình bày với + cho p <0,05, ++ cho p <0,01 và +++ cho p <0,0001. Tuyên bố ngụ ý kiểm soát tỷ lệ lỗi a la Neyman và Pearson, nhưng việc sử dụng các cấp độ khác nhau của p gợi ý cách tiếp cận của Fisher trong đó giá trị p là một chỉ số về sức mạnh của bằng chứng chống lại giả thuyết khống. Như Goodman chỉ ra, bạn không thể đồng thời kiểm soát tỷ lệ lỗi và đánh giá sức mạnh của bằng chứng.
Michael Lew

8
@Michael Có những cách giải thích khác, hào phóng hơn về loại báo cáo đó. Ví dụ, tác giả có thể nhận thấy rằng người đọc có thể muốn áp dụng các ngưỡng có ý nghĩa của riêng họ và do đó thực hiện việc gắn cờ các giá trị p để giúp họ thoát ra. Ngoài ra, tác giả có thể nhận thức được các vấn đề đa so sánh có thể xảy ra và sử dụng các mức khác nhau trong một điều chỉnh giống như Bonferroni. Có lẽ một phần của sự đổ lỗi cho việc lạm dụng các giá trị p nên được đặt dưới chân người đọc, chứ không phải tác giả.
whuber

4
@Whuber Tôi hoàn toàn đồng ý, nhưng chỉ có điều những gì bạn đề xuất là đúng trong một số phần nhỏ các trường hợp (phiên bản giới hạn của 'hoàn toàn'). Có một số tạp chí chỉ định rằng giá trị p phải được báo cáo ở một, hai hoặc ba cấp sao chứ không phải giá trị chính xác, vì vậy những tạp chí đó chia sẻ một số trách nhiệm về kết quả. Tuy nhiên, cả yêu cầu không được xem xét và việc sử dụng giá trị p rõ ràng ngây thơ có thể là kết quả của việc thiếu giải thích rõ ràng về sự khác biệt giữa tỷ lệ lỗi và bằng chứng trong một số văn bản thống kê giới thiệu trên kệ của tôi.
Michael Lew

73

Cái bẫy nguy hiểm nhất mà tôi gặp phải khi làm việc trên một mô hình dự đoán là không đặt trước một bộ dữ liệu thử nghiệm để dành nó cho việc đánh giá hiệu suất "cuối cùng".

Thật sự dễ dàng để đánh giá quá cao độ chính xác dự đoán của mô hình của bạn nếu bạn có cơ hội sử dụng dữ liệu thử nghiệm bằng cách nào đó khi điều chỉnh các tham số, chọn trước, chọn tiêu chí dừng thuật toán học tập ...

Để tránh vấn đề này, trước khi bắt đầu công việc của bạn trên một tập dữ liệu mới, bạn nên chia dữ liệu của mình thành:

  • bộ phát triển
  • bộ đánh giá

Sau đó phân chia bộ phát triển của bạn thành "bộ phát triển đào tạo" và "bộ phát triển thử nghiệm" nơi bạn sử dụng bộ phát triển đào tạo để đào tạo các mô hình khác nhau với các tham số khác nhau và chọn hiệu suất tốt nhất theo hiệu suất trên bộ phát triển thử nghiệm. Bạn cũng có thể thực hiện tìm kiếm lưới với xác thực chéo nhưng chỉ trên bộ phát triển. Không bao giờ sử dụng bộ đánh giá trong khi lựa chọn mô hình không được thực hiện 100%.

Khi bạn tự tin với lựa chọn mô hình và tham số, hãy thực hiện xác thực chéo 10 lần trên bộ đánh giá để có ý tưởng về độ chính xác dự đoán "thực" của mô hình đã chọn.

Ngoài ra, nếu dữ liệu của bạn là tạm thời, tốt nhất là chọn phân chia phát triển / đánh giá theo mã thời gian: "Thật khó để đưa ra dự đoán - đặc biệt là về tương lai."


5
Tôi đồng ý với nguyên tắc này nhưng trong trường hợp một tập dữ liệu nhỏ (tôi thường chỉ có 20 - 40 trường hợp) việc sử dụng một bộ đánh giá riêng là không thực tế. Xác thực chéo lồng nhau có thể khắc phục điều này nhưng có thể dẫn đến ước tính bi quan về các tập dữ liệu nhỏ
BGreene

11
Nói chung, cần một bộ dữ liệu khổng lồ để phân chia dữ liệu là đáng tin cậy. Đó là lý do tại sao xác nhận nội bộ nghiêm ngặt với bootstrap rất hấp dẫn.
Frank Harrell

Đặc biệt là khi bộ phát triển là dữ liệu quá khứ và bộ đánh giá dữ liệu trong tương lai. Tại sao không, sau khi tất cả điều chỉnh mô hình, huấn luyện mô hình cuối cùng với các tham số cố định trên toàn bộ tập phát triển và dự đoán toàn bộ tập đánh giá với nó. Trong một kịch bản thực tế, bạn không thể xác thực chéo thông qua dữ liệu trong tương lai theo cách bạn mô tả bằng mọi cách, vì vậy bạn sẽ sử dụng tất cả dữ liệu trong quá khứ có liên quan.
David Ernst

64

Báo cáo giá trị p khi bạn thực hiện khai thác dữ liệu (phát hiện giả thuyết) thay vì thống kê (kiểm tra giả thuyết).


2
Bạn có thể (hoặc ai đó) xây dựng?
antoine-sac


Điều gì về giá trị p được hiệu chỉnh cho nhiều thử nghiệm giả thuyết (với một số hương vị của phương pháp Bonferroni hoặc một hiệu chỉnh nâng cao hơn)? Tôi có xu hướng nghĩ rằng nó là tốt, ngay cả trong bối cảnh khai thác dữ liệu?
antoine-sac

Tôi thích ý tưởng chung, nhưng đó là một sự biến dạng để đánh đồng các số liệu thống kê với kiểm tra giả thuyết khi cái sau là một tập hợp con của cái trước.
rolando2

46

Thử nghiệm các giả thuyết so với H 1 : μ 0 (ví dụ trong một khung cảnh Gaussian)H0:μ=0H1:μ0

để biện minh rằng trong một mô hình (tức là trộn " H 0 không bị từ chối" và " H 0 là true").μ=0H0H0

Một ví dụ rất hay về kiểu suy luận (rất xấu) đó là khi bạn kiểm tra xem phương sai của hai Gaussian có bằng nhau (hoặc không) trước khi kiểm tra xem giá trị trung bình của chúng có bằng nhau hay không với giả định phương sai bằng nhau.

Một ví dụ khác xảy ra khi bạn kiểm tra tính quy tắc (so với tính không quy tắc) để biện minh cho tính quy tắc. Mỗi thống kê đã làm điều đó trong cuộc sống là gì? đó là baaad :) (và nên thúc đẩy mọi người kiểm tra độ mạnh mẽ để không Gaussianity)


6
Logic tương tự (lấy "sự vắng mặt của bằng chứng ủng hộ H1" là "bằng chứng vắng mặt của H1") về cơ bản làm cơ sở cho tất cả các thử nghiệm về độ phù hợp. Lý do cũng thường tăng lên khi mọi người nói rằng "thử nghiệm là không đáng kể, do đó chúng tôi có thể kết luận rằng không có ảnh hưởng của yếu tố X / không có ảnh hưởng của biến Y". Tôi đoán tội lỗi sẽ ít nghiêm trọng hơn nếu đi kèm với lý luận về sức mạnh của thử nghiệm (ví dụ: ước tính kích thước mẫu để đạt đến một công suất nhất định với kích thước hiệu ứng có liên quan nhất định).
caracal

Nếu bạn không đưa ra bất kỳ sự đồng tình nào về sức mạnh, tôi sẽ nói rằng việc sao chép là đúng khi nó không bị từ chối là rất rất tệ trong khi việc sao chép H 1 là đúng trong khi H 0 bị từ chối chỉ là một chút sai :). H0H1H0
cướp girard

Tuyệt quá!! Vâng, điều này làm tôi phát điên ..
jpfl

3
Tôi cố gắng để được thống kê biết chữ và thỉnh thoảng vẫn rơi cho cái này. Các lựa chọn thay thế là gì? Thay đổi mô hình của bạn để null cũ trở thành ? Lựa chọn duy nhất khác mà tôi có thể nghĩ đến là cung cấp năng lượng cho nghiên cứu của bạn đủ để việc không từ chối null là trong thực tế đủ gần để xác nhận null. Ví dụ: nếu bạn muốn đảm bảo rằng việc thêm thuốc thử vào các tế bào của bạn sẽ không giết chết hơn 2% trong số chúng, mang lại tỷ lệ âm tính giả thỏa đáng. H1
DocBuckets

Thử nghiệm tương đương @DocBuckets với hai thử nghiệm một phía nghiêm ngặt hơn so với phương pháp dựa trên sức mạnh. Nhưng bạn cần đặt kích thước hiệu ứng tối thiểu có liên quan dưới đây mà bạn có thể nói về sự tương đương thực tế.
David Ernst

46

Một vài sai lầm làm phiền tôi:

  1. Giả sử các công cụ ước tính không thiên vị luôn tốt hơn các công cụ ước tính sai lệch.

  2. Giả sử rằng ngụ ý một mô hình tốt, R 2 thấp ngụ ý một mô hình xấu.R2R2

  3. Giải thích / áp dụng tương quan không chính xác.

  4. Báo cáo ước tính điểm mà không có lỗi tiêu chuẩn.

  5. Sử dụng các phương pháp giả định một số loại Định mức đa biến (như Phân tích phân biệt tuyến tính) khi có sẵn các phương pháp mạnh hơn, hiệu suất tốt hơn, không bán được.

  6. Sử dụng p-giá trị như một biện pháp của sức mạnh giữa một yếu tố dự báo và phản ứng, chứ không phải là một biện pháp có bao nhiêu bằng chứng có của một số mối quan hệ.


5
Bạn sẽ chia chúng ra thành các lựa chọn riêng biệt?
russellpierce

41

Sự lưỡng phân của một biến dự báo liên tục để phân tích "đơn giản hóa" hoặc để giải quyết "vấn đề" phi tuyến tính trong tác động của yếu tố dự báo liên tục.


18
Tôi không nghĩ rằng đây thực sự là một "tội lỗi" vì kết quả thu được không sai. Tuy nhiên, nó vứt đi rất nhiều thông tin hữu ích vì vậy không phải là thực hành tốt.
Rob Hyndman

2
Dọc theo các dòng này, sử dụng các nhóm cực đoan thiết kế các kích thước hiệu ứng ước tính quá mức trong khi sử dụng phân chia hiệu ứng trung bình hoặc trung bình chia theo kích thước ước tính.
russellpierce

2
Điều này thậm chí không phải là một tội lỗi nếu có hai hoặc nhiều quần thể khác biệt. Giả sử bạn có các lớp hoặc quần thể phụ tách biệt, thì nó có thể có ý nghĩa để phân biệt. Một ví dụ rất nhỏ: Tôi muốn sử dụng các chỉ số cho trang web / vị trí / thành phố / quốc gia hoặc lat / long?
Lặp lại

3
+1 và nó trở thành một tội lỗi nghiêm trọng khi họ bắt đầu chọn ngưỡng phân đôi để nó tối ưu hóa một số loại khác biệt sau đó được kiểm tra.
Erik

5
@Iterator bạn bắt đầu có được lý do thực sự để tổng hợp (thành hai hoặc nhiều loại), đó là bởi vì người ta có một lý do lý thuyết tiên nghiệm để tin rằng phương sai được sắp xếp một cách có ý nghĩa vào các loại đó . Ví dụ, chúng tôi làm điều này mọi lúc bằng cách giả sử rằng các bộ sưu tập của một nghìn tỷ tế bào bao gồm một cá nhân hoặc khoảng thời gian 24 giờ liền kề ở đây trên Trái đất được hiểu là một đơn vị. Nhưng việc tổng hợp một cách tùy tiện không chỉ "vứt bỏ" thông tin (ví dụ như sức mạnh thống kê), mà có thể dẫn đến sự thiên vị (nghiêm trọng) về mối quan hệ giữa các hiện tượng.
Alexis

41

Không thực sự trả lời câu hỏi, nhưng có toàn bộ cuốn sách về chủ đề này:

Phillip I. Tốt, James William Hardin (2003). Các lỗi thường gặp trong thống kê (và cách tránh chúng). Wiley. ISBN YAM471460688


6
+1 Tôi chắc chắn đã đọc cuốn sách này ngay sau khi nó ra mắt. Tôi có rất nhiều cơ hội để phạm sai lầm thống kê vì vậy tôi luôn biết ơn khi chỉ ra chúng trước khi tôi mắc lỗi !
whuber


41

Thống kê nghi thức.

"Tội lỗi" này là khi bạn áp dụng bất cứ điều gì bạn được dạy, bất kể sự phù hợp của nó, bởi vì đó là cách mọi thứ được thực hiện. Đó là số liệu thống kê theo danh sách, một cấp trên cho phép máy chọn số liệu thống kê cho bạn.

Ví dụ là Giới thiệu cho sinh viên cấp Thống kê đang cố gắng làm cho mọi thứ phù hợp với bộ công cụ kiểm tra t và kiểm tra ANOVA khiêm tốn của họ, hoặc bất cứ khi nào người ta thấy mình sẽ "Ồ, tôi có dữ liệu phân loại, tôi nên sử dụng X" mà không cần dừng lại để xem dữ liệu, hoặc xem xét câu hỏi đang được hỏi.

Một biến thể của tội lỗi này liên quan đến việc sử dụng mã mà bạn không hiểu để tạo ra kết quả đầu ra mà bạn chỉ hiểu, nhưng biết "cột thứ năm, khoảng 8 hàng xuống" hoặc bất cứ câu trả lời nào bạn cần tìm.


6
Thật không may, nếu bạn không quan tâm đến suy luận thống kê, hoặc khan hiếm về thời gian và / hoặc tài nguyên, thì nghi thức có vẻ rất hấp dẫn ...
xác suất

Đối với tôi, mô tả của Epigrad là về một người quan tâm một cách bất nhất về suy luận và bỏ bê những thứ như suy tư, khám phá và xem xét quan hệ nhân quả.
rolando2

35

Có thể hồi quy từng bước và các hình thức kiểm tra khác sau khi lựa chọn mô hình.

Chọn các biến độc lập để lập mô hình mà không có bất kỳ ưu tiên nào giả thuyết đằng sau các mối quan hệ hiện có có thể dẫn đến sai lầm logic hoặc tương quan giả, trong số các sai lầm khác.

Tài liệu tham khảo hữu ích (từ góc độ sinh học / thống kê sinh học):

  1. Kozak, M., & Azevedo, R. (2011). Việc sử dụng lựa chọn biến từng bước để xây dựng các mô hình phân tích đường dẫn liên tiếp có ý nghĩa không? Sinh lý học plantarum, 141 (3), 197 Từ200. doi: 10.111 / j.1399-3054.2010.01431.x

  2. Whmitham, MJ, Stephens, P., Bradbury, RB, & Freckleton, RP (2006). Tại sao chúng ta vẫn sử dụng mô hình hóa từng bước trong sinh thái và hành vi? Tạp chí sinh thái động vật, 75 (5), 1182 Lỗi9. doi: 10.111 / j.1365-2656.2006.01141.x

  3. Frank Harrell, Chiến lược mô hình hồi quy , Springer 2001.


32

Một cái gì đó tôi thấy một số lượng đáng ngạc nhiên trong các tài liệu hội nghị và thậm chí các tạp chí đang đưa ra nhiều so sánh (ví dụ như các mối tương quan bivariate) và sau đó báo cáo tất cả các p <0,05 là "đáng kể" (bỏ qua tính đúng hoặc sai của thời điểm đó).

Tôi cũng biết ý của bạn về sinh viên tốt nghiệp ngành tâm lý học - Tôi đã hoàn thành bằng tiến sĩ tâm lý học và tôi vẫn chỉ học thực sự. Điều đó khá tệ, tôi nghĩ rằng tâm lý học cần phải phân tích dữ liệu định lượng nghiêm túc hơn nếu chúng ta sẽ sử dụng nó (mà rõ ràng là chúng ta nên)


9
Điều này đặc biệt quan trọng. Tôi nhớ đã đọc một nghiên cứu về việc Ramadan có hại cho những đứa trẻ có mẹ ăn chay không. Nó trông có vẻ hợp lý (ít thức ăn, trọng lượng sơ sinh thấp hơn), nhưng sau đó tôi nhìn vào ruột thừa. Hàng ngàn giả thuyết, và một vài phần trăm trong số đó nằm trong phạm vi "đáng kể". Bạn nhận được những "kết luận" kỳ lạ như "thật tệ cho đứa trẻ nếu Ramadan là tháng thứ 2, 4 hoặc 6".
Carlos

29

Đang thăm dò nhưng giả vờ là người xác nhận. Điều này có thể xảy ra khi một người đang sửa đổi chiến lược phân tích (nghĩa là phù hợp mô hình, lựa chọn biến, v.v.) điều khiển dữ liệu hoặc điều khiển kết quả nhưng không nêu rõ điều này và sau đó chỉ báo cáo kết quả "tốt nhất" (nghĩa là có giá trị p nhỏ nhất) như thể đó là phân tích duy nhất Điều này cũng liên quan đến điểm nếu nhiều thử nghiệm mà Chris Beeley thực hiện và dẫn đến tỷ lệ dương tính giả cao trong các báo cáo khoa học.


26

Cái mà tôi thấy khá thường xuyên và luôn nghiến răng là giả định rằng hiệu ứng chính có ý nghĩa thống kê trong một nhóm và hiệu ứng chính không có ý nghĩa thống kê trong một nhóm khác ngụ ý tác động đáng kể của nhóm x.


24

Đặc biệt là trong dịch tễ học và y tế công cộng - sử dụng số học thay vì thang đo logarit khi báo cáo biểu đồ về các biện pháp liên quan tương đối (tỷ lệ nguy hiểm, tỷ lệ chênh lệch hoặc tỷ lệ rủi ro).

Thêm thông tin ở đây .


5
Chưa kể đến việc không dán nhãn cho chúng ở tất cả xkcd.com/833
radek

23

Tương quan hàm ý nhân quả, điều này không tệ như chấp nhận Giả thuyết Null.


nhưng đôi khi ... đôi khi các hướng nhân quả tiềm tàng có xác suất rất khác nhau. Tôi chắc chắn sẽ không nghĩ rằng một mối tương quan giữa tuổi và chiều cao có thể được gây ra bởi chiều cao ... hoặc một số biến số can thiệp. Ngoài ra, tôi nghĩ rằng đây là một điều mà đào tạo khoa học hành vi thường khá nhạy cảm.
Giăng

thật vậy, suy ra một cái gì đó A and B are correlatedthường chỉ nhìn thấy A causes Bnhưng không B causes A... (và quên đi Cnguyên nhân nào AB)
Andre Holzner

12
google kiếm được 65 tỷ đô la một năm không quan tâm đến sự khác biệt ...
Neil McGuigan

5
Tôi đồng ý với quan điểm của bạn và tất cả đều hợp lệ. Nhưng lợi nhuận của Google có ngụ ý: tương quan => quan hệ nhân quả không?
suncoolsu

3
Google làm cho tất cả số tiền đó không quan tâm đến quan hệ nhân quả cả. Thật vậy, tại sao nó? Dự đoán là điều ...
liên hợp

23

Phân tích dữ liệu tốc độ (độ chính xác, v.v.) bằng ANOVA, do đó giả sử rằng dữ liệu tốc độ có lỗi phân phối Gaussian khi nó thực sự được phân phối nhị phân. Dixon (2008) cung cấp một cuộc thảo luận về hậu quả của tội lỗi này và khám phá các phương pháp phân tích phù hợp hơn.


4
Làm thế nào nhiều điều này làm giảm sức mạnh của phân tích? Trong những điều kiện nào là vấn đề nhất? Trong nhiều trường hợp, sai lệch so với các giả định của ANOVA không ảnh hưởng đáng kể đến kết quả đến một mức độ quan trọng.
Michael Lew

Các thay thế làm thủ tục ANOVA là gì?
Henrik

@Michael Lew & Henrik: Tôi vừa cập nhật mục này để bao gồm một liên kết đến Dixon (2008)
Mike Lawrence

2
Nhưng tóm lại, vấn đề là khó khăn nhất khi xác suất quan sát thấp hoặc cao vì phạm vi của các giá trị bị hạn chế và không thể đáp ứng các giả định của Gaussian.
russellpierce

Điều này chỉ tệ như xấp xỉ bình thường với nhị thức - nên ổn, với điều kiện mỗi trường hợp được tính theo mẫu số được sử dụng để tính tỷ lệ. Sẽ mong đợi nó hoạt động kém cho tỷ lệ dưới 10% và trên 90%.
xác suất

18

Một phổ biến hiện nay đang vẽ khoảng tin cậy 95% xung quanh các giá trị hiệu suất thô trong các thiết kế đo lường lặp đi lặp lại khi chúng chỉ liên quan đến phương sai của hiệu ứng. Ví dụ, một biểu đồ thời gian phản ứng trong thiết kế các biện pháp lặp lại với các khoảng tin cậy trong đó thuật ngữ lỗi được lấy từ MSE của một biện pháp lặp lại ANOVA. Những khoảng tin cậy này không đại diện cho bất cứ điều gì hợp lý. Họ chắc chắn không đại diện cho bất cứ điều gì về thời gian phản ứng tuyệt đối. Bạn có thể sử dụng thuật ngữ lỗi để tạo khoảng tin cậy xung quanh hiệu ứng nhưng điều đó hiếm khi được thực hiện.


Có một bài viết tiêu chuẩn có thể được trích dẫn để can ngăn người đánh giá yêu cầu thực hành quá phổ biến này?
russellpierce

Bài phê bình duy nhất tôi biết là Blouin & Riopelle (2005) nhưng họ không đi vào trọng tâm của vấn đề. Nói chung, tôi không khăng khăng không hiển thị chúng nhưng làm điều gì đó chính xác như trong biểu đồ hiệu ứng của Masson & Loftus (2003, xem hình 4, bảng bên phải ... nếu chúng bị xóa khỏi bên trái, bạn đã thực hiện đúng ).
Giăng

Rõ ràng, vấn đề với các CI đó là chúng hoàn toàn được sử dụng vì những lý do vô sinh liên quan đến sự khác biệt giữa các điều kiện và do đó còn tệ hơn cả PLSD ... thực tế tôi thích chúng hơn. Ít nhất là họ trung thực.
Giăng

17

Mặc dù tôi có thể liên quan đến phần lớn những gì Michael Lew nói, việc từ bỏ các giá trị p theo tỷ lệ khả năng vẫn bỏ lỡ một vấn đề chung hơn - đó là quá coi trọng kết quả xác suất so với kích thước hiệu ứng, được yêu cầu để mang lại kết quả rõ ràng. Loại lỗi này có ở tất cả các hình dạng và kích cỡ và tôi thấy đó là lỗi thống kê xảo quyệt nhất. Vẽ về J. Cohen và M. Oakes và những người khác, tôi đã viết một đoạn về điều này tại http://integrativestatistic.com/insidious.htmlm .


3
Tôi thực sự không rõ làm thế nào một tỷ lệ khả năng (LR) không đạt được mọi thứ mà kích thước hiệu ứng đạt được, trong khi cũng sử dụng thang đo dễ hiểu (dữ liệu chứa nhiều bằng chứng X cho Y so với Z). Một kích thước hiệu ứng thường chỉ là một số dạng tỷ lệ được giải thích cho tính biến thiên không giải thích được và (trong trường hợp lồng nhau), LR là tỷ lệ biến thiên không giải thích được giữa một mô hình có hiệu ứng và một biến không có. Ít nhất không nên có một mối tương quan mạnh mẽ giữa kích thước hiệu ứng và LR, và nếu vậy, điều gì đã mất khi chuyển sang thang tỷ lệ khả năng?
Mike Lawrence

Mike - Bạn đã khiến tôi quan tâm, nhưng điểm của bạn có mở rộng đến kích thước hiệu ứng đơn giản như sự khác biệt trung bình giữa các nhóm không? Những điều này có thể dễ dàng được giải thích bởi một giáo dân và cũng có thể được chỉ định khoảng tin cậy.
rolando2

À, theo kích thước hiệu ứng, bạn có nghĩa là kích thước hiệu ứng tuyệt đối, một giá trị vô nghĩa đối với chính nó, nhưng điều đó có thể có ý nghĩa bằng cách chuyển đổi thành kích thước hiệu ứng tương đối (bằng cách chia cho một số đo lường thay đổi, như tôi đã đề cập) hoặc bằng máy tính một khoảng tin cậy cho kích thước hiệu ứng tuyệt đối. Đối số của tôi ở trên áp dụng cho giá trị của LR so với kích thước hiệu ứng tương đối. Có thể có ích cho việc tính toán các TCTD hiệu quả trong trường hợp giá trị thực của hiệu ứng được quan tâm (ví dụ: dự đoán), nhưng tôi vẫn đứng bên cạnh LR như một thang đo trực quan hơn để nói về bằng chứng cho / chống lại hiệu ứng.
Mike Lawrence

Tôi đoán việc sử dụng các LR so với các TCTD có thể sẽ thay đổi tùy theo bối cảnh, có thể được tóm tắt một cách hữu ích như sau: Các giai đoạn khám phá khác của khoa học, trong đó các lý thuyết được đặc trưng bởi sự tồn tại / vắng mặt của các hiện tượng, có thể thích các LR để định lượng bằng chứng. Mặt khác, các TCTD có thể được ưu tiên trong các giai đoạn khoa học tiên tiến hơn, trong đó các lý thuyết được tinh chỉnh đủ để cho phép dự đoán sắc thái bao gồm các phạm vi hiệu ứng dự kiến ​​hoặc ngược lại, khi các phạm vi hiệu ứng khác nhau hỗ trợ các lý thuyết khác nhau. Cuối cùng, các dự đoán được tạo từ bất kỳ mô hình nào cũng cần các TCTD.
Mike Lawrence

0|β|=1|β|>1|β|1β=0β0

15

Không kiểm tra giả định rằng lỗi thường được phân phối và có phương sai không đổi giữa các phương pháp điều trị. Những giả định này không phải lúc nào cũng được kiểm tra, do đó sự phù hợp mô hình bình phương nhỏ nhất có lẽ thường được sử dụng khi nó thực sự không phù hợp.


11
Điều gì không phù hợp về ước lượng bình phương tối thiểu khi dữ liệu không bình thường hoặc không đồng nhất? Nó không hoàn toàn hiệu quả, nhưng nó vẫn không thiên vị và nhất quán.
Rob Hyndman

3
Nếu dữ liệu không đồng nhất, bạn có thể kết thúc với các dự đoán mẫu rất không chính xác vì mô hình hồi quy sẽ cố gắng hết sức để giảm thiểu lỗi trên các mẫu ở các khu vực có phương sai cao và không đủ cứng trên các mẫu từ các khu vực có phương sai thấp. Điều này có nghĩa là bạn có thể kết thúc với một mô hình rất sai lệch. Điều đó cũng có nghĩa là các thanh lỗi trong dự đoán sẽ sai.
Dikran Marsupial

6
Không, nó không thiên vị, nhưng phương sai lớn hơn nếu bạn sử dụng một phương pháp hiệu quả hơn cho những lý do bạn giải thích. Vâng, các khoảng dự đoán là sai.
Rob Hyndman

4
Có (tôi đã sử dụng sai lệch trong thông tục thay vì ý nghĩa thống kê để có nghĩa là mô hình bị thiên lệch một cách có hệ thống đối với các quan sát trong các khu vực có độ sai lệch cao của không gian đặc trưng - mea culpa!) - sẽ chính xác hơn khi nói rằng phương sai cao hơn có một cơ hội gia tăng để có được một mô hình nghèo bằng cách sử dụng một bộ dữ liệu hữu hạn. Đó có vẻ là một câu trả lời hợp lý cho câu hỏi của bạn. Tôi thực sự không coi sự thiên vị là rất thoải mái - điều quan trọng là mô hình sẽ đưa ra dự đoán tốt về dữ liệu tôi thực sự có và thường thì phương sai là quan trọng hơn.
Dikran Marsupial

14

Khóa học tâm lý học giới thiệu của tôi về sinh viên chưa tốt nghiệp đã dành ít nhất hai tuần để dạy cách thực hiện hồi quy từng bước. Có bất kỳ tình huống trong đó hồi quy từng bước là một ý tưởng tốt?


6
"Ý tưởng tốt" phụ thuộc vào tình huống. Khi bạn muốn tối đa hóa dự đoán, đó không phải là một ý tưởng khủng khiếp - mặc dù nó có thể dẫn đến sự phù hợp quá mức. Có một số trường hợp hiếm hoi là không thể tránh khỏi - nơi không có lý thuyết để hướng dẫn lựa chọn mô hình. Tôi sẽ không tính hồi quy từng bước là "tội lỗi" nhưng sử dụng nó khi lý thuyết là đủ để thúc đẩy lựa chọn mô hình.
russellpierce

20
Có lẽ tội lỗi đang thực hiện các thử nghiệm thống kê trên một mô hình thu được thông qua hồi quy từng bước.
Rob Hyndman

3
Sẽ tốt thôi nếu bạn sử dụng xác thực chéo và không ngoại suy. Đừng xuất bản các giá trị p mặc dù, vì chúng là vô nghĩa.
Neil McGuigan

Tôi đang làm việc trên một dự án sử dụng hồi quy từng bước. Lý do là vì tôi có D >> N, trong đó D là chiều và N là cỡ mẫu (do đó loại trừ sử dụng một mô hình với tất cả các biến), các tập hợp con của các tính năng có mối tương quan cao với nhau, tôi muốn một cách có nguyên tắc thống kê về việc có thể chọn 2-3 tính năng "tốt nhất" và tôi không có ý định báo cáo các giá trị P, ít nhất là không có một số chỉnh sửa khá bảo thủ.
dsimcha

12

Thông số cũ của tôi prof có "quy tắc ngón tay cái" để đối phó với các ngoại lệ: Nếu bạn thấy một ngoại lệ trên biểu đồ phân tán của bạn, hãy che nó bằng ngón tay cái của bạn :)


Điều này gần giống với Winsorization không quá khủng khiếp.
Ari B. Friedman

12

Đây có thể là một câu trả lời thống kê pop nhiều hơn những gì bạn đang tìm kiếm, nhưng:

Sử dụng giá trị trung bình làm chỉ báo vị trí khi dữ liệu bị sai lệch cao .

Điều này không nhất thiết là một vấn đề, nếu bạn và khán giả của bạn biết bạn đang nói về điều gì, nhưng điều này thường không đúng, và trung bình thường có khả năng đưa ra ý tưởng tốt hơn về những gì đang diễn ra.

Ví dụ yêu thích của tôi là tiền lương trung bình, thường được báo cáo là "tiền lương trung bình". Tùy thuộc vào sự bất bình đẳng thu nhập / sự giàu có ở một quốc gia, điều này có thể khác rất nhiều so với mức lương trung bình, điều này mang lại một chỉ số tốt hơn nhiều cho việc mọi người đang ở đâu trong cuộc sống thực. Ví dụ, ở Úc, nơi chúng ta có bất bình đẳng tương đối thấp, trung vị thấp hơn trung bình 10-15% . Ở Mỹ, sự khác biệt là rõ ràng hơn nhiều , trung bình là ít hơn 70% giá trị trung bình và khoảng cách ngày càng tăng.

Báo cáo về mức lương "trung bình" (trung bình) trong một bức tranh màu hồng hơn được bảo hành, và cũng có thể mang lại cho một số lượng lớn người có ấn tượng sai lầm rằng họ không kiếm được nhiều tiền như những người "bình thường".


Có một cuộc thảo luận liên quan đến vấn đề này khi nó được áp dụng để phân tích xu hướng ở đây: tamino.wordpress.com/2012/03/29/ mẹo
naught101

2
Điều này không chỉ liên quan đến độ lệch, mà là một vấn đề chung mà giá trị trung bình hoặc bất kỳ biện pháp nào khác của xu hướng trung tâm là không đủ nếu không xem xét phân tán. Ví dụ: nếu trung vị của hai nhóm bằng nhau, nhưng phạm vi tứ phân vị lớn gấp 100 lần cho một dân số. Chỉ cần nhìn vào trung vị, bạn sẽ nói chúng là "phân bố dân số giống nhau", trong thực tế, chúng sẽ rất khác nhau. Chưa kể nhiều chế độ tạo ra vấn đề ...
xác suất

Nhưng, đối với một số mục đích có nghĩa có liên quan: tiền lương là một biến số lớn , có nghĩa là các khoản tiền lương có ý nghĩa. Đối với các câu hỏi trong đó tổng thu nhập tiền lương của một số nhóm (phụ) có liên quan, phương tiện là điều đúng: Tổng số có thể được phục hồi từ giá trị trung bình, không phải từ trung bình.
kjetil b halvorsen

@kjetilbhalvorsen: Tại sao không sử dụng tổng số sau đó?
hư 101


10

Giá trị p là xác suất mà giả thuyết null là đúng và (1-p) là xác suất mà giả thuyết thay thế là đúng, về việc không từ chối giả thuyết null có nghĩa là giả thuyết thay thế là sai, v.v.


1
1

Thật thú vị, bạn có thể cho tôi một tài liệu tham khảo để đọc về nó?
Dikran Marsupial

2
(ở đây bạn đi) [ cá nhân.uvic.ca / quan tâm.
xác suất

10

Theo cách tương tự với @dirkan - Việc sử dụng các giá trị p như một thước đo chính thức của bằng chứng về giả thuyết null là đúng. Nó có một số tính năng heuristic tốt và trực giác tốt, nhưng về cơ bản là một thước đo bằng chứng không đầy đủ vì nó không liên quan đến giả thuyết thay thế. Mặc dù dữ liệu có thể khó xảy ra dưới giá trị null (dẫn đến giá trị p nhỏ), dữ liệu có thể thậm chí còn khó xảy ra hơn theo giả thuyết thay thế.


Tôi không trả lời vì tôi không muốn gặp rắc rối khi nghĩ về vấn đề này và vì vấn đề đó đã đi qua tất cả những gì đã được đưa ra để đảm bảo tôi không lặp lại một lần! Nhưng tôi nghĩ rằng tôi có thể hữu ích. Có một cuốn sách của Good và Hardin có tên là "Lỗi thường gặp trong thống kê và cách tránh chúng". Bạn có thể tìm thấy rất nhiều ví dụ tuyệt vời ở đó. Đó là một cuốn sách nổi tiếng đã đi vào phiên bản thứ tư của nó.
Michael Chernick

Ngoài ra cuốn sách của Altman với Chapman & Hall / CRC "Số liệu thống kê thực tế trong nghiên cứu y học" có một chương về tài liệu y khoa nơi nhiều tội lỗi thống kê được tiết lộ xảy ra trong các bài báo được xuất bản.
Michael Chernick

9

Sử dụng biểu đồ hình tròn để minh họa tần số tương đối. Thêm ở đây .


2
Sẽ là tốt để bao gồm một số lý do trên trang web.
ness101

9

Sử dụng số liệu thống kê / xác suất trong kiểm tra giả thuyết để đo lường "sự thật tuyệt đối". Thống kê đơn giản là không thể làm điều này, chúng chỉ có thể được sử dụng để quyết định giữa các lựa chọn thay thế , mà phải được chỉ định từ "bên ngoài" mô hình thống kê. Các tuyên bố như "giả thuyết khống được chứng minh là đúng bởi các số liệu thống kê" là không chính xác; số liệu thống kê chỉ có thể cho bạn biết "giả thuyết khống được dữ liệu ủng hộ, so với giả thuyết thay thế". Sau đó, nếu bạn cho rằng giả thuyết null hoặc giải pháp thay thế phải đúng, bạn có thể nói "null chứng minh là đúng", nhưng đây chỉ là hậu quả tầm thường của giả định của bạn, chứ không phải bất cứ điều gì được chứng minh bởi dữ liệu.


9

α= =0,05

Và tương tự như (hoặc gần giống như câu trả lời của ) @ ogrisel , thực hiện tìm kiếm Grid và chỉ báo cáo kết quả tốt nhất.


Tôi nghĩ rằng bạn có ý định liên kết đến một truyện tranh khác, mặc dù đó là một truyện bất hủ.
rolando2

Có thể, nếu tôi nhớ đủ những gì tôi đã nghĩ trong đầu: xkcd.com/882
Andrew

8

(Với một chút may mắn, điều này sẽ gây tranh cãi.)

Sử dụng phương pháp Neyman-Pearson để phân tích thống kê các thí nghiệm khoa học. Hoặc, tệ hơn, sử dụng một phép lai không xác định của Neyman-Pearson và Fisher.


xin lỗi vì không biết gì, nhưng có gì sai với việc xây dựng Neyman-Pearson cho việc phân tích (kết quả của) các thí nghiệm khoa học?
Andre Holzner

@Andre Tôi nghĩ rằng nhận xét này có thể liên quan chặt chẽ với một nhận xét khác được cung cấp bởi @Michael Lew ở nơi khác trong chủ đề này ( stats.stackexchange.com/questions/4551/ Lỗi ).
whuber

8

Yêu cầu và có thể nhận được Biểu đồ dòng chảy : Điều đồ họa đó trong đó bạn nói mức độ của các biến của bạn là gì và loại mối quan hệ bạn đang tìm kiếm và bạn làm theo các mũi tên xuống để có được Kiểm tra tên thương hiệu hoặc Thống kê tên thương hiệu . Đôi khi được cung cấp với các đường dẫn 'tham số' và 'không tham số' bí ẩn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.