Một tạp chí tâm lý học đã cấm các giá trị p và khoảng tin cậy; Có thực sự khôn ngoan khi ngừng sử dụng chúng?


73

Vào ngày 25 tháng 2 năm 2015, tạp chí Tâm lý học xã hội cơ bản và ứng dụng đã ban hành một bài xã luận cấm giá trị và khoảng tin cậy từ tất cả các bài báo trong tương lai.p

Cụ thể, họ nói (định dạng và nhấn mạnh là của tôi):

  • [...] Trước khi xuất bản, các tác giả sẽ phải xóa tất cả các dấu tích của NHSTP [quy trình kiểm tra ý nghĩa giả thuyết null] ( -values, -values, -values, tuyên bố về sự khác biệt hoặc thiếu 'đáng kể' ' , v.v.)ptF

  • Tương tự như cách NHSTP không cung cấp xác suất của giả thuyết khống, cần thiết để đưa ra một trường hợp mạnh mẽ để bác bỏ nó, các khoảng tin cậy không cung cấp một trường hợp mạnh để kết luận rằng tham số dân số có thể nằm trong phạm vi đã nêu khoảng thời gian. Do đó, khoảng tin cậy cũng bị cấm từ BASP.

  • [...] đối với các thủ tục Bayes, chúng tôi có quyền đưa ra các phán quyết theo từng trường hợp cụ thể, và do đó các thủ tục Bayes không bắt buộc cũng như không bị cấm đối với BASP.

  • [...] Có bất kỳ thủ tục thống kê suy diễn cần thiết? - Không [...] Tuy nhiên, BASP sẽ yêu cầu thống kê mô tả mạnh mẽ, bao gồm các kích thước hiệu ứng.

Chúng ta không thảo luận về các vấn đề với và lạm dụng giá trị ở đây; đã có rất nhiều cuộc thảo luận tuyệt vời về CV có thể được tìm thấy bằng cách duyệt thẻ giá trị p . Việc phê bình giá trị thường đi cùng với một lời khuyên để báo cáo khoảng tin cậy cho các tham số quan tâm. Ví dụ, trong câu trả lời rất được tranh luận này, @gung đề nghị báo cáo kích thước hiệu ứng với khoảng tin cậy xung quanh chúng. Nhưng tạp chí này cấm khoảng tin cậy là tốt.pp

Những lợi thế và bất lợi của cách tiếp cận như vậy để trình bày dữ liệu và kết quả thử nghiệm trái ngược với cách tiếp cận "truyền thống" với giá trị , khoảng tin cậy và sự phân đôi đáng kể / không đáng kể là gì? Phản ứng đối với lệnh cấm này dường như chủ yếu là tiêu cực; Vậy những nhược điểm sau đó là gì? Hiệp hội thống kê Mỹ thậm chí đã đăng một bình luận ngắn gọn về lệnh cấm này, nói rằng "chính sách này có thể có những hậu quả tiêu cực riêng". Những hậu quả tiêu cực này có thể là gì?p

Hoặc như @whuber đề xuất để đặt nó, nên tiếp cận phương pháp này thường được ủng hộ như một mô hình nghiên cứu định lượng? Và nếu không, tại sao không?

Tái bút Lưu ý rằng câu hỏi của tôi không phải là về lệnh cấm ; đó là về cách tiếp cận được đề xuất. Tôi cũng không hỏi về suy luận thường xuyên so với Bayesian. Biên tập cũng khá tiêu cực về các phương pháp Bayes; Vì vậy, về cơ bản là sử dụng số liệu thống kê so với việc không sử dụng số liệu thống kê nào cả.


Các cuộc thảo luận khác: reddit , Gelman .


14
Có một ánh xạ một-một giữa giá trị p và khoảng tin cậy trong các mô hình hồi quy tuyến tính, vì vậy tôi không thấy lý do mạnh mẽ tại sao cấm giá trị p nhưng giữ khoảng tin cậy sẽ có ý nghĩa nhiều. Nhưng việc cấm cả giá trị p và khoảng tin cậy sẽ để lại một khoảng trống trong mô tả kết quả ... Tôi tự hỏi liệu chúng có cho phép báo cáo lỗi tiêu chuẩn hay không (đó sẽ là một biện pháp khác của cùng một nhóm ánh xạ một-một).
Richard Hardy

7
Mọi thứ có thể bị lạm dụng nên việc cấm các thứ trong tình trạng này là ... lạ. Tôi không phải là fan hâm mộ của giá trị p nhưng đây có vẻ là một cách tiếp cận khá ngây thơ cho vấn đề. Một điều đáng khích lệ là sử dụng những thứ phù hợp, nhưng cấm mọi thứ nghe có vẻ không phải là cách thích hợp để giải quyết vấn đề ...
Tim

12
Ý tưởng tuyệt vời. Sử dụng số liệu thống kê chỉ che giấu bản chất không khoa học của lĩnh vực này.
Aksakal

4
Điều này có vẻ như là một phản ứng hoàn toàn đối với sự thất vọng về việc lạm dụng các giá trị p. Tôi sẽ hạnh phúc hơn nhiều với lệnh cấm lạm dụng các giá trị p hơn là các giá trị P nói chung.
TrynnaDoStat

8
Mục thứ 4 trong danh sách của bạn cho thấy họ không yêu cầu ước tính điểm, đó sẽ là suy luận, nhưng kích thước hiệu ứng được báo cáo chỉ là thống kê mô tả. (Tuy nhiên, một vài dòng trong bài xã luận, "chúng tôi khuyến khích sử dụng cỡ mẫu lớn hơn so với điển hình trong nghiên cứu tâm lý học, bởi vì khi kích thước mẫu tăng lên, thống kê mô tả trở nên ngày càng ổn định và lỗi lấy mẫu ít gặp vấn đề hơn". Tôi mong muốn ban biên tập năm 2016 kêu gọi nghiên cứu về việc chính thức hóa khái niệm về tính ổn định và kế toán một cách định lượng cho các tác động của lỗi lấy mẫu.)
Scortchi - Rebstate Monica

Câu trả lời:


23

Câu đầu tiên của bài xã luận 2015 hiện tại mà OP liên kết, đọc:

Biên tập tâm lý xã hội cơ bản và ứng dụng (BASP) 2014 * nhấn mạnh * rằng quy trình kiểm tra ý nghĩa giả thuyết null (NHSTP) không hợp lệ ...

(nhấn mạnh của tôi)

Nói cách khác, đối với các biên tập viên, một thực tế khoa học đã được chứng minh rằng "thử nghiệm ý nghĩa giả thuyết null" là không hợp lệ, và biên tập năm 2014 chỉ nhấn mạnh như vậy, trong khi biên tập năm 2015 hiện tại chỉ thực hiện thực tế này.

Việc sử dụng sai (thậm chí độc hại như vậy) của NHSTP thực sự được thảo luận và ghi chép lại. Và không có gì lạ trong lịch sử loài người rằng "mọi thứ bị cấm" bởi vì người ta đã thấy rằng sau khi nói và làm, họ đã bị lạm dụng nhiều hơn là sử dụng tốt (nhưng chúng ta có nên kiểm tra thống kê không?). Nó có thể là một giải pháp "tốt thứ hai", để cắt giảm những gì trung bình (thống kê suy luận) đã bị thua lỗ, thay vì lợi nhuận, và vì vậy chúng tôi dự đoán (thống kê suy luận) rằng nó sẽ gây bất lợi trong tương lai.

Nhưng sự nhiệt thành tiết lộ đằng sau cách diễn đạt của câu đầu tiên ở trên, làm cho nó trông giống hệt như một cách tiếp cận nhiệt tình hơn là một quyết định lạnh lùng để cắt tay có xu hướng ăn cắp hơn là đề nghị. Nếu một người đọc bài xã luận cũ hơn một năm được đề cập trong đoạn trích dẫn trên (DOI: 10.1080 / 01973533.2014.865505), người ta sẽ thấy rằng đây chỉ là một phần trong việc chỉnh sửa lại các chính sách của Tạp chí bởi một Biên tập viên mới.

Cuộn xuống bài xã luận, họ viết

... Ngược lại, chúng tôi tin rằng thanh p <.05 quá dễ vượt qua và đôi khi đóng vai trò là cái cớ cho nghiên cứu chất lượng thấp hơn.

Vì vậy, dường như kết luận của họ liên quan đến kỷ luật của họ là các giả thuyết không được bác bỏ "quá thường xuyên", và vì vậy những phát hiện được cho là có thể có ý nghĩa thống kê giả. Đây không phải là đối số tương tự như câu lệnh "không hợp lệ" trong câu đầu tiên.

Vì vậy, để trả lời cho câu hỏi, rõ ràng là đối với các biên tập viên của tạp chí, quyết định của họ không chỉ khôn ngoan mà còn muộn khi thực hiện: họ dường như nghĩ rằng họ cắt bỏ phần nào của thống kê đã trở nên có hại, giữ những phần có lợi - dường như họ không tin rằng có bất cứ thứ gì ở đây cần thay thế bằng thứ gì đó "tương đương".

Về mặt nhận thức, đây là một trường hợp trong đó các học giả về khoa học xã hội rút lại một phần từ nỗ lực làm cho kỷ luật của họ trở nên khách quan hơn trong các phương pháp và kết quả của nó bằng cách sử dụng các phương pháp định lượng, vì cuối cùng họ đã đi đến kết luận , nỗ lực tạo ra "xấu hơn tốt". Tôi sẽ nói rằng đây là một vấn đề rất quan trọng, về nguyên tắc có thể xảy ra, và một vấn đề đòi hỏi nhiều năm làm việc để chứng minh nó "vượt quá sự nghi ngờ hợp lý" và thực sự giúp ích cho kỷ luật của bạn. Nhưng chỉ một hoặc hai bài xã luận và bài báo được xuất bản có lẽ sẽ (có thể là thống kê suy luận) sẽ châm ngòi cho một cuộc nội chiến.

Câu cuối cùng của bài xã luận năm 2015 có nội dung:

Chúng tôi hy vọng và dự đoán rằng việc cấm NHSTP sẽ có tác dụng làm tăng chất lượng của các bản thảo được đệ trình bằng cách giải phóng các tác giả khỏi cấu trúc khó hiểu của tư duy NHSTP do đó loại bỏ một trở ngại quan trọng đối với tư duy sáng tạo. NHSTP đã thống trị tâm lý trong nhiều thập kỷ; chúng tôi hy vọng rằng bằng cách ban hành lệnh cấm NHSTP đầu tiên, chúng tôi chứng minh rằng tâm lý học không cần cái nạng của NHSTP, và các tạp chí khác cũng làm theo.


5
Vâng ... chúng tôi phải cẩn thận khi viết câu trả lời bằng lưỡi hoặc mỉa mai trên trang web này: chúng có thể (hoàn toàn) bị hiểu lầm!
whuber

4
@ naught101 ... điều đó sẽ không ngoại giao. Lưu ý rằng cách NHSTP bị lên án, nó từ chối chính các nhà tâm lý học rằng họ đã sử dụng nó trong tất cả các thập kỷ này. Nếu nó được viết theo cách bạn đề xuất, nó sẽ trông giống như một cuộc tấn công trực tiếp vào các đồng nghiệp của họ như các nhà khoa học. Vì hiện tại về cơ bản, văn bản ngụ ý rằng các nhà tâm lý học có ý định tốt đã không may bị nhầm lẫn khi sử dụng phương pháp này, bởi "ai đó", đã lạm dụng "quyền lực khoa học" của mình trong vấn đề ... Có lẽ bởi các nhà thống kê xấu xa do khoa học điều khiển chủ nghĩa đế quốc?
Alecos Papadopoulos

4
Một công nhân xấu đổ lỗi cho công cụ của mình.
ness101

3
@BrianDHall Tôi đề nghị tìm kiếm thêm các nguồn tài nguyên có thẩm quyền về các vấn đề xung quanh NHSTP (bao gồm trang này), thay vì các tác phẩm cụ thể của tác giả về vấn đề này. Vấn đề là khó khăn và tinh tế - từ nhận xét của bạn, trước tiên bạn nên thảo luận về ngữ nghĩa xung quanh "chấp nhận" và "khẳng định" ...
Alecos Papadopoulos

6
@ naught101: Nếu bạn nhận thấy rằng công nhân không thể xử lý cưa máy đúng cách, bạn có thể không đổ lỗi cho công cụ. Nhưng bạn vẫn sẽ lấy nó ra khỏi công nhân, để ngăn chặn tác hại tiếp theo ;-)
nikie

19

Tôi cảm thấy rằng cấm kiểm tra giả thuyết là một ý tưởng tuyệt vời ngoại trừ một vài giả thuyết "tồn tại" được chọn, ví dụ kiểm tra giả thuyết khống rằng không có nhận thức ngoài cảm giác mà tất cả mọi người sẽ cần phải chứng minh để có bằng chứng rằng ESP tồn tại là không ngẫu nhiên . Nhưng tôi nghĩ rằng tạp chí đã bỏ lỡ quan điểm rằng động lực chính của nghiên cứu kém về tâm lý học là việc sử dụng ngưỡng trên -values. Nó đã được chứng minh trong tâm lý học và hầu hết các lĩnh vực khác rằng một lượng lớn trò chơi tiếp tục đến . Điều này bao gồm thay thế giả thuyết, loại bỏ các quan sát và dữ liệu tập hợp. Đó là ngưỡng nên bị cấm đầu tiên.PP<0.05

Việc cấm các khoảng tin cậy cũng quá mức, nhưng không phải vì những lý do khác. Khoảng tin cậy chỉ hữu ích nếu người ta hiểu sai chúng là khoảng tin cậy Bayes (đối với các linh mục không có thông tin phù hợp). Nhưng chúng vẫn hữu ích. Thực tế là việc giải thích chính xác thường xuyên của họ không dẫn đến điều gì ngoài sự nhầm lẫn ngụ ý rằng chúng ta cần phải "thoát khỏi Dodge" và đi học Bayesian hoặc có khả năng. Nhưng kết quả hữu ích có thể thu được bằng cách giải thích sai các giới hạn tin cậy cũ.

Thật xấu hổ khi các biên tập viên của tạp chí đã hiểu nhầm số liệu thống kê của Bayes và không biết đến sự tồn tại của suy luận khả năng thuần túy. Những gì họ đang tìm kiếm có thể dễ dàng được cung cấp bởi các bản phân phối sau của Bayes sử dụng các linh mục hơi hoài nghi.


+1, cảm ơn. Hãy để tôi làm rõ về khoảng tin cậy. Khoảng tin cậy có liên quan đến lỗi tiêu chuẩn, do đó, đề xuất có lẽ cũng nên ngừng sử dụng. Hãy xem xét trường hợp đơn giản nhất: một số giá trị được đo trên một nhóm đối tượng / đối tượng; giả sử giá trị trung bình là 3. Theo như tôi hiểu thì tạp chí này đề nghị báo cáo đơn giản là 3. Nhưng bạn có muốn xem lỗi tiêu chuẩn không, ví dụ ? Tất nhiên, điều này có nghĩa là khoảng tin cậy 95% là , điều đó cũng có nghĩa là , vì vậy tất cả đều liên quan. Tôi không chắc làm thế nào bạn đề nghị báo cáo nó. n3±0.53±1p<0.05
amip nói rằng Phục hồi lại

4
Tôi nghĩ rằng các lỗi tiêu chuẩn được áp dụng quá mức (vì chúng giả sử các phân phối đối xứng) nhưng các biện pháp chính xác hữu ích, như lỗi bình phương trung bình. Bạn có thể nghĩ về một khoảng chính xác dựa trên lỗi bình phương trung bình gốc mà không hình dung phạm vi xác suất. Vì vậy, tôi không thấy bất kỳ cuộc thảo luận nào có nghĩa là không nhấn mạnh các lỗi tiêu chuẩn. Và tôi đã không đề nghị chúng ta ngừng sử dụng CL. Nhưng khó khăn với CL chủ yếu đến từ những nỗ lực giải thích xác suất.
Frank Harrell

Hừm. Hấp dẫn. Đối với tôi có vẻ như có một bước nhỏ như vậy từ lỗi tiêu chuẩn đến CI (một yếu tố không đổi!), Rằng việc đối xử với họ khác nhau sẽ là kỳ lạ. Nhưng có lẽ đó là một điểm ngữ nghĩa; Tôi đoán ý của bạn là mọi người nghĩ về các lỗi tiêu chuẩn và các TCTD khác nhau và có xu hướng bị nhầm lẫn nhiều hơn về các TCTD. Tôi tự hỏi chính sách tạp chí cụ thể này nói gì về các lỗi tiêu chuẩn (Biên tập không đề cập rõ ràng về chúng).
amip nói rằng Phục hồi lại

2
Trong các tình huống đối xứng, lỗi tiêu chuẩn là một khối xây dựng cho khoảng tin cậy. Nhưng trong nhiều trường hợp, khoảng tin cậy chính xác là không đối xứng nên không thể dựa vào một lỗi tiêu chuẩn. Một số giống của bootstrap và biến đổi ngược là hai cách tiếp cận của loại này. Hồ sơ khả năng khoảng tin cậy đặc biệt đến với tâm trí ở đây.
Frank Harrell

@Frank Harrell - Đối với "suy luận khả năng thuần túy" Tôi đồng ý rằng việc nhấn mạnh vào việc tóm tắt khả năng của dữ liệu mà không tô điểm cho nó bằng các ngưỡng dường như là câu trả lời mà các biên tập viên đang nắm bắt. Cuốn sách "Khả năng thích ứng" của AWF Edwards (1972) nói trực tiếp với mối quan tâm của biên tập viên: "Chúng tôi có thể trì hoãn việc xem xét các lập luận này (ví dụ: kiểm tra ý nghĩa) cho đến các chương sau, và chuyển ngay đến mô tả về một thủ tục, dựa trên khái niệm Khả năng thích ứng của Fisher , mở cho bất kỳ đối tượng nào trong số những đối tượng này có thể được san bằng tại các thử nghiệm quan trọng. "
John Mark

13

Tôi thấy cách tiếp cận này là một nỗ lực để giải quyết sự bất lực của tâm lý học xã hội để tái tạo nhiều 'phát hiện quan trọng' đã được công bố trước đây.

Nhược điểm của nó là:

  1. rằng nó không giải quyết được nhiều yếu tố dẫn đến hiệu ứng giả. Ví dụ,

    • A) Mọi người vẫn có thể xem lén dữ liệu của họ và ngừng chạy các nghiên cứu của họ khi kích thước hiệu ứng khiến chúng đủ lớn để được quan tâm.

    • B) Kích thước hiệu ứng lớn sẽ vẫn có sức mạnh lớn trong các đánh giá hồi cứu về sức mạnh.

    • C) Mọi người vẫn sẽ câu được những hiệu ứng thú vị và lớn lao (thử nghiệm một loạt các giả thuyết trong một thử nghiệm và sau đó báo cáo cái đã xuất hiện) hoặc

    • D) giả vờ rằng một hiệu ứng kỳ lạ bất ngờ được mong đợi tất cả cùng.

    Không nên nỗ lực để giải quyết những vấn đề này đầu tiên?

  2. Khi một lĩnh vực tiến lên, nó sẽ làm cho một đánh giá về những phát hiện trong quá khứ khá khủng khiếp. Không có cách nào để đánh giá định lượng độ tin cậy của các nghiên cứu khác nhau. Nếu mọi tạp chí thực hiện phương pháp này, bạn sẽ có một loạt các nhà khoa học xã hội nói rằng có bằng chứng cho X khi hoàn toàn không rõ X đáng tin như thế nào và các nhà khoa học tranh luận về cách diễn giải một hiệu ứng được công bố hoặc tranh luận về việc nó quan trọng hay đáng giá nói về. Đây không phải là điểm có số liệu thống kê sao? Để cung cấp một cách nhất quán để đánh giá số. Theo tôi, cách tiếp cận mới này sẽ gây ra một mớ hỗn độn nếu nó được thực hiện rộng rãi.

  3. Thay đổi này không khuyến khích các nhà nghiên cứu gửi kết quả nghiên cứu với kích thước hiệu ứng nhỏ để nó không thực sự giải quyết hiệu ứng ngăn kéo tệp (hoặc họ sẽ công bố kết quả với n lớn bất kể kích thước hiệu ứng?). Nếu chúng tôi công bố tất cả các kết quả của các nghiên cứu được thiết kế cẩn thận, thì mặc dù độ tin cậy của kết quả của các nghiên cứu riêng lẻ có thể không chắc chắn, các phân tích tổng hợp và đánh giá của các nghiên cứu cung cấp phân tích thống kê sẽ làm tốt hơn rất nhiều trong việc xác định sự thật.


2
@captain_ahab Liên quan đến điểm 3, chúng tôi phải đề cập rằng bài xã luận trước đó (2014) của Biên tập viên đã khuyến khích rõ ràng việc nộp các nghiên cứu "không có hiệu lực".
Alecos Papadopoulos

1
Tôi dường như không thể tìm thấy một bình luận nào trong bài xã luận thảo luận về bất kỳ tiêu chí nào để xuất bản ngoại trừ nhu cầu có kích thước mẫu lớn hơn bình thường (cách họ dự định xác định n có thể chấp nhận được mà không có số liệu thống kê suy luận không rõ ràng đối với tôi). Đối với tôi không có sự nhấn mạnh trong bài xã luận này rằng họ không quan tâm kích thước hiệu ứng là gì. Dường như với tôi rằng họ vẫn sẽ tìm kiếm những hiệu ứng thú vị và những câu chuyện thú vị, mà tôi nghĩ là vấn đề lớn hơn trong công việc khoa học xã hội (nghĩa là tìm kiếm hậu kỳ cho những hiệu ứng và câu chuyện thú vị).
đội trưởng_ahab

2
Điều có vẻ như là một giải pháp tốt hơn là tất cả các nhà khoa học phải ghi lại giả thuyết, cách tiếp cận hợp lý, sức mạnh và phân tích cơ bản của một nghiên cứu ở nơi CÔNG KHAI TRƯỚC KHI chạy nghiên cứu. Và sau đó được giới hạn để xuất bản nghiên cứu đó theo cách kê đơn. Nếu một hiệu ứng thú vị bất ngờ được tìm thấy, họ nên đăng nhập công khai sau đó tiến hành một nghiên cứu mới kiểm tra hiệu ứng đó. Cách tiếp cận này trong khi kiểm soát dương tính giả cũng sẽ cho phép các nhà khoa học chứng minh năng suất của họ mà không cần công bố các hiệu ứng mới.
đội trưởng_ahab

7

Tôi đã bắt gặp một trích dẫn tuyệt vời gần như lập luận cho cùng một điểm, nhưng không hoàn toàn - vì đó là một đoạn mở đầu trong sách giáo khoa chủ yếu là về thống kê thường xuyên và kiểm tra giả thuyết.

Nó được tổ chức rộng rãi bởi những người không thống kê, như tác giả, rằng nếu bạn làm thí nghiệm tốt, thống kê là không cần thiết. Họ hoàn toàn đúng. [...] Điều khó khăn là, tất nhiên, là thực hiện các thí nghiệm tốt là khó khăn. Hầu hết mọi người cần tất cả sự giúp đỡ mà họ có thể có để ngăn chặn họ tự lừa dối mình bằng cách tuyên bố rằng lý thuyết yêu thích của họ được chứng minh bằng các quan sát không làm gì cả. Và chức năng chính của phần thống kê liên quan đến các bài kiểm tra có ý nghĩa là ngăn chặn mọi người tự lừa dối mình. Từ quan điểm này, chức năng của các bài kiểm tra quan trọng là ngăn chặn mọi người xuất bản các thí nghiệm, không khuyến khích họ. Thật vậy, lý tưởng là các thử nghiệm quan trọng không bao giờ nên xuất hiện trong bản in, đã được sử dụng, nếu có, trong các giai đoạn sơ bộ để phát hiện các thử nghiệm không đầy đủ,

- David Colquhoun, Các bài giảng về thống kê sinh học , 1971


1
Bài viết của bạn thực sự là một bình luận, chứ không phải là một câu trả lời, vì vậy tôi không kiềm chế việc nâng cấp nó, nhưng tôi muốn cảm ơn bạn đã chia sẻ báo giá. Có rất nhiều sự hiểu lầm hiển nhiên trong đoạn văn này đến nỗi sẽ phải nỗ lực rất nhiều (không nói là không gian) để chỉ ra và gỡ lỗi tất cả. Tuy nhiên, trong một từ, đối trọng với những khẳng định này là "hiệu quả". Nếu mọi người có thời gian và ngân sách không giới hạn, ít nhất chúng ta có thể khao khát thực hiện "những thí nghiệm tốt". Nhưng khi nguồn lực bị hạn chế, sẽ thật ngu ngốc (cũng như tốn kém) khi chỉ thực hiện các thí nghiệm "cuối cùng, ... rõ ràng".
whuber

2
Cảm ơn bình luận của bạn, @whuber; Tôi đồng ý với những gì bạn đang nói. Tuy nhiên, tôi phải nói thêm rằng tôi thấy nó hấp dẫn khi nói rằng dữ liệu thử nghiệm lý tưởng nên có sức thuyết phục đến mức khiến cho các thử nghiệm giả thuyết chính thức trở nên dư thừa. Đây không phải là một lý tưởng không thể đạt được! Trong lĩnh vực của tôi (nơi giá trị p được sử dụng rất nhiều), tôi thấy rằng các bài báo tốt nhất sức thuyết phục mà không có chúng: ví dụ: vì chúng trình bày một chuỗi các thí nghiệm hỗ trợ lẫn nhau, rõ ràng không thể là một sự thống kê. Nhận xét lại: quá dài cho một nhận xét và tôi cho rằng nó không sao bằng câu trả lời của CW.
amip nói rằng Phục hồi lại

Vâng, tôi hiểu lý do tại sao nó phải được đăng dưới dạng câu trả lời, và do đó đã không bỏ phiếu để chuyển nó thành một bình luận (sẽ cắt bỏ phần cuối của trích dẫn). Tôi đồng ý rằng lý tưởng không phải là không thể đạt được trong các trường hợp cụ thể . Tôi cũng đồng ý rằng đó là một lý tưởng tốt đẹp để ghi nhớ. Nhưng như một hướng dẫn về cách thiết kế các thí nghiệm (nói chung, là một môn học phân bổ nguồn lực), nó có thể là một sai lầm khủng khiếp. (Điều này chắc chắn gây tranh cãi.) Đề xuất rằng một thử nghiệm "tốt" sẽ không bao giờ yêu cầu các phương pháp thống kê là, tuy nhiên, một thử nghiệm không đứng vững ngay cả khi kiểm tra chữ thảo.
whuber

1
Có lẽ một cách đọc như nói thử nghiệm có ý nghĩa ban đầu cho thấy một chất kích thích một phản ứng sinh lý nhất định không còn phù hợp khi bạn công bố nghiên cứu về tác dụng của các loại thuốc ức chế khác nhau trên đường cong phản ứng liều.
Scortchi - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.