Chấp nhận giả thuyết khống


15

Đây là một câu hỏi thảo luận về giao điểm của thống kê và các ngành khoa học khác. Tôi thường phải đối mặt với cùng một vấn đề: các nhà nghiên cứu trong lĩnh vực của tôi có xu hướng nói rằng không có tác dụng khi giá trị p không thấp hơn mức ý nghĩa. Ban đầu, tôi thường trả lời đây không phải là cách kiểm tra giả thuyết hoạt động. Với mức độ thường xuyên câu hỏi này phát sinh, tôi muốn thảo luận về vấn đề này với các nhà thống kê có kinh nghiệm hơn.

Chúng ta hãy xem xét một bài báo gần đây trên tạp chí khoa học của Tập đoàn xuất bản tốt nhất là Thiên nhiên Truyền thông Sinh học (có nhiều ví dụ, nhưng hãy tập trung vào một)

Các nhà nghiên cứu giải thích một kết quả không có ý nghĩa thống kê theo cách sau:

Do đó, hạn chế calo trung bình mãn tính có thể kéo dài tuổi thọ và tăng cường sức khỏe của linh trưởng, nhưng nó ảnh hưởng đến tính toàn vẹn của chất xám trong não mà không ảnh hưởng đến hiệu suất nhận thức .

Bằng chứng:

Tuy nhiên, các màn trình diễn trong nhiệm vụ mê cung Barnes không khác nhau giữa động vật bị kiểm soát và hạn chế calo (LME: F = 0,05, p = 0,82; Hình 2a). Tương tự, nhiệm vụ luân phiên tự phát không cho thấy bất kỳ sự khác biệt nào giữa động vật bị kiểm soát và hạn chế calo (LME: F = 1.63, p = 0.22; Hình 2b).

Các tác giả cũng đề xuất giải thích về sự vắng mặt của hiệu ứng - nhưng điểm quan trọng không phải là giải thích mà là chính yêu sách. Các lô được cung cấp trông khác biệt đáng kể "bằng mắt" đối với tôi (Hình 2).

Hơn nữa, các tác giả bỏ qua các kiến ​​thức trước:

tác dụng phụ của hạn chế calo đối với hiệu suất nhận thức đã được báo cáo cho chuột và cho các chức năng não và cảm xúc ở người

Tôi có thể hiểu yêu cầu tương tự đối với các cỡ mẫu lớn (không có hiệu ứng = không có hiệu ứng thực tế đáng kể ở đó), nhưng trong trường hợp cụ thể, các thử nghiệm phức tạp đã được sử dụng và đối với tôi cách thực hiện tính toán công suất không rõ ràng.

Câu hỏi:

  1. Tôi đã bỏ qua bất kỳ chi tiết nào làm cho kết luận của họ hợp lệ?

  2. Có tính đến nhu cầu báo cáo kết quả tiêu cực trong khoa học, làm thế nào để chứng minh rằng đó không phải là "sự thiếu vắng kết quả" (mà chúng ta có với ), mà là "kết quả âm tính (ví dụ: không có sự khác biệt giữa các nhóm)" sử dụng số liệu thống kê? Tôi hiểu rằng đối với kích thước mẫu lớn, thậm chí độ lệch nhỏ so với từ chối null, nhưng hãy giả sử rằng chúng tôi có dữ liệu lý tưởng và vẫn cần chứng minh rằng null thực tế là đúng.p>α

  3. Các nhà thống kê có nên luôn nhấn mạnh vào các kết luận chính xác về mặt toán học như "có sức mạnh này mà chúng ta không thể phát hiện ra ảnh hưởng của kích thước đáng kể" không? Các nhà nghiên cứu từ các lĩnh vực khác không thích các công thức kết quả tiêu cực như vậy.

Tôi sẽ rất vui khi nghe bất kỳ suy nghĩ về vấn đề này và tôi đã đọc và hiểu các câu hỏi liên quan trên trang web này. Có một câu trả lời rõ ràng cho câu hỏi 2) -3) từ quan điểm thống kê, nhưng tôi muốn hiểu làm thế nào câu hỏi này phải được trả lời trong trường hợp đối thoại liên ngành.

CẬP NHẬT: Tôi nghĩ một ví dụ tốt về kết quả âm tính là giai đoạn 1 của thử nghiệm y tế, an toàn. Khi các nhà khoa học có thể quyết định rằng thuốc là an toàn? Tôi đoán họ so sánh hai nhóm và làm thống kê về dữ liệu này. Có cách nào để nói rằng thuốc này an toàn? Cochrane sử dụng chính xác "không tìm thấy tác dụng phụ", nhưng các bác sĩ nói rằng loại thuốc này an toàn. Khi sự cân bằng giữa độ chính xác và đơn giản của mô tả và chúng ta có thể nói "không có hậu quả cho sức khỏe"?


2
Bạn gọi các kết quả không có ý nghĩa thống kê là một nghiên cứu "tiêu cực". Đây là ngôn ngữ nói xấu. Tôi đã sửa đổi nó để gọi nó như nó là: không có ý nghĩa thống kê, ví dụ . Nếu tôi sai, xin vui lòng cho tôi biết làm thế nào. Mặt khác, nó là ngôn ngữ hữu ích cho bạn và cộng tác viên của bạn để mô tả một nghiên cứu. chỉ có nghĩa là . Nếu có thể là một phát hiện rất "tích cực" ở một số khía cạnh; có lẽ đây là nghiên cứu dịch tễ học quy mô lớn đầu tiên để kiểm tra mối quan hệ của phơi nhiễm hóa chất và sức khỏe con người mà thấy rằng nó thực sự an toàn. p > α p > α n = 500 , 000p>αp>αp>αn=500,000
AdamO

4
Lưu ý bên lề: Tôi sẽ không bao giờ đề xuất sử dụng Thiên nhiên làm kim chỉ nam cho cách sử dụng số liệu thống kê đúng cách.
Vách đá AB

1
@AdamO Tôi có một ví dụ về hai bài báo được xuất bản ít nhiều cùng một lúc, trong một bài báo, các tác giả đã tuyên bố kết quả tiêu cực mạnh mẽ (đó là kết luận chính của họ), trong nghiên cứu thứ hai, mạnh mẽ hơn, họ đã tìm thấy và có hiệu lực. Nhưng, nếu tác giả đầu tiên viết "có sức mạnh 80% với kích thước hiệu ứng là 1, chúng tôi không thể tìm thấy hiệu ứng đáng kể" - ông sẽ không được công bố ngay cả trên tạp chí về kết quả tiêu cực.
Đức Demidov

2
nhưng những người không thống kê đang hỏi tôi "làm thế nào để bạn chứng minh kết quả tiêu cực?" - và tôi không biết trả lời thế nào. Điều gì về giả thuyết thường được sử dụng trong các thử nghiệm tương đương ? Điều này bao gồm một thuật ngữ bổ sung là "biên độ tương đương" và có thể tính đến sự khác biệt trung bình.
Penguin_Knight

2
Đó là một lỗi phổ biến mà Tập đoàn Xuất bản Tự nhiên đang khai thác, nhưng sự khác biệt về uy tín giữa các tạp chí là rất lớn. Điều đó nói rằng, tất nhiên các bài báo trong Tự nhiên cũng có thể có số liệu thống kê cẩu thả.
amip nói phục hồi Monica

Câu trả lời:


7

Tôi nghĩ rằng đôi khi thích hợp để giải thích các kết quả không có ý nghĩa thống kê theo tinh thần "chấp nhận giả thuyết khống". Trong thực tế, tôi đã thấy các nghiên cứu có ý nghĩa thống kê được giải thích theo cách như vậy; nghiên cứu này quá chính xác và kết quả phù hợp với một phạm vi hẹp các tác dụng không có giá trị nhưng không đáng kể về mặt lâm sàng. Đây là một bài phê bình có phần phồng rộp của một nghiên cứu (hay hơn nữa là báo chí của nó) về mối quan hệ giữa tiêu thụ sô cô la / rượu vang đỏ và tác dụng "mặn" của nó đối với bệnh tiểu đường. Các đường cong xác suất cho phân phối kháng insulin bằng cách uống cao / thấp là cuồng loạn.

Việc một người có thể giải thích các phát hiện là "xác nhận H_0" hay không phụ thuộc vào rất nhiều yếu tố: tính hợp lệ của nghiên cứu, sức mạnh, tính không chắc chắn của ước tính và bằng chứng trước đó. Báo cáo khoảng tin cậy (CI) thay vì giá trị p có lẽ là đóng góp hữu ích nhất mà bạn có thể thực hiện với tư cách là một nhà thống kê. Tôi nhắc nhở các nhà nghiên cứu và các nhà thống kê đồng nghiệp rằng thống kê không đưa ra quyết định, mọi người làm; bỏ qua các giá trị p thực sự khuyến khích một cuộc thảo luận chu đáo hơn về các phát hiện.

Độ rộng của CI mô tả một loạt các hiệu ứng có thể bao gồm hoặc không bao gồm null và có thể bao gồm hoặc không bao gồm các giá trị rất có ý nghĩa lâm sàng như tiềm năng cứu sống. Tuy nhiên, một CI hẹp xác nhận một loại hiệu ứng; hoặc loại thứ hai "có ý nghĩa" theo nghĩa thực sự, hoặc loại thứ hai có thể là null hoặc một cái gì đó rất gần với null.

Có lẽ những gì cần thiết là một ý nghĩa rộng hơn về "kết quả null" (và hiệu ứng null) là gì. Những gì tôi tìm thấy thất vọng trong hợp tác nghiên cứu là khi các nhà điều tra không thể tiên nghiệm trạng thái gì dao động của hiệu ứng mà họ đang nhắm mục tiêu: nếu một sự can thiệp có nghĩa là để làm giảm huyết áp, có bao nhiêu mmHg? Nếu một loại thuốc có nghĩa là để chữa ung thư, bệnh nhân sẽ có bao nhiêu tháng sống sót? Một người đam mê nghiên cứu và "gắn bó" với lĩnh vực và khoa học của họ có thể làm sáng tỏ những sự thật tuyệt vời nhất về nghiên cứu trước đây và những gì đã được thực hiện.

Trong ví dụ của bạn, tôi không thể không chú ý rằng giá trị p của 0,82 có thể rất gần với null. Từ đó, tất cả những gì tôi có thể nói là CI được tập trung vào một giá trị null. Những gì tôi không biết là liệu nó có bao gồm các tác dụng có ý nghĩa lâm sàng hay không. Nếu CI rất hẹp, theo tôi, giải thích là đúng nhưng dữ liệu không hỗ trợ: đó sẽ là một chỉnh sửa nhỏ. Ngược lại, giá trị p thứ hai của 0,22 tương đối gần với ngưỡng ý nghĩa của nó (bất kể nó có thể là gì). Các tác giả tương ứng giải thích nó là "không đưa ra bất kỳ bằng chứng nào về sự khác biệt" phù hợp với cách diễn giải "không từ chối H_0". Theo như sự liên quan của bài viết, tôi có thể nói rất ít. Tôi hy vọng rằng bạn duyệt các tài liệu tìm kiếm các cuộc thảo luận nổi bật hơn về các kết quả nghiên cứu! Theo như phân tích,


1
AdamO, không phải là thống kê F gần nhất với null bằng giá trị trung bình của phân phối F cho một mức độ tự do của tử số và mẫu số nhất định? Nếu bất cứ điều gì, tôi nghĩ rằng một thống kê F gần bằng 0 ngụ ý bằng chứng omnibus tương đương. Trên thực tế, Wellek thúc đẩy chính xác điều này trong các giả thuyết thống kê thử nghiệm năm 2010 về sự tương đương và không kém , phần 7.2 -test cho sự tương đương của k phân phối bình thường, trang 221 phản225. Fk
Alexis

@Alexis Cảm ơn bạn đã chỉ ra các thuộc tính F-test. Không biết mức độ tự do, thật khó để tôi nhận xét một cách thông minh về bài kiểm tra. Có lẽ tôi nên sửa lại câu trả lời để chỉ vào giá trị . Dù sao đi nữa, điểm chính của câu trả lời của tôi là chúng ta không thể giữ hai giả thuyết μ = μ 0μ μ 0 với âm mưu bằng nhau: một trong những luôn luôn là sự thật, vì thế chỉ thử làm cho không có ý nghĩa. Chúng ta phải sử dụng các phương pháp mô tả, nhưng chúng có thể được thực hiện nghiêm ngặt với khoảng tin cậy. pμ=μ0μμ0
AdamO

Tất nhiên! (và +1 nếu điều đó không rõ ràng) Nhưng nghiêm túc, bạn nên hiểu rõ về kiểm tra tương đương: nó xuất hiện trong dịch tễ học lâm sàng và thống kê sinh học (một di sản danh dự cho lĩnh vực này!), nhưng là nhập khẩu chung cho suy luận thường xuyên. :)
Alexis

1
@GermanDemidov Tôi rất khó tính về những vấn đề này: Tôi nghĩ rằng các phân tích phức tạp không nên được xem xét nếu tác động của chúng không thể diễn giải được. Họ làm có một giải thích. Phân tích sinh tồn lần thứ 2 của Hosmer, Lemeshow, May có cả một chương (4) dành riêng cho việc giải thích đầu ra mô hình Cox. Sự thiếu hụt các bài kiểm tra, như Shapiro, được giải quyết tốt nhất bằng cách sử dụng các ô (điều này thường loại trừ chính bài kiểm tra). Thống kê lấy mẫu lại cung cấp một phương tiện mạnh mẽ để tính toán các TCTD trong nhiều điều kiện mô hình hóa, nhưng chúng đòi hỏi lý thuyết âm thanh phải được sử dụng chính xác.
AdamO

3
Trong khung suy luận cứng nhắc, không có thứ gọi là "0,82 gần với null", bởi vì giá trị p là một số ngẫu nhiên, mức độ cụ thể của nó là không liên quan. Giá trị p không thể lớn hoặc nhỏ trong giá trị tuyệt đối. Mức độ của nó chỉ quan trọng liên quan đến ngưỡng được thiết lập trước, một mức ý nghĩa . Bạn so sánh với một ngưỡng và dựa trên kết quả của việc so sánh từ chối nó hoặc không từ chối H 0 . αH0
Aksakal

12

Nói với tiêu đề của câu hỏi của bạn: chúng tôi không bao giờ chấp nhận giả thuyết khống, bởi vì thử nghiệm chỉ cung cấp bằng chứng chống lại H 0 (tức là kết luận luôn liên quan đến giả thuyết thay thế, hoặc bạn đã tìm thấy bằng chứng cho H A hoặc bạn không tìm thấy bằng chứng cho H A ).H0H0HAHA

Tuy nhiên, chúng ta có thể nhận ra rằng có nhiều loại giả thuyết khống khác nhau :

  • Bạn có thể đã biết về giả thuyết không một chiều có dạng H 0 : q q 0H0:θθ0H0:θθ0

  • Bạn có thể đã biết về hai mặt giả thuyết không (aka hai đuôi rỗng giả thuyết) có dạng , hoặc đồng nghĩa H 0 : θ - θ 0 = 0 trong trường hợp một mẫu, và H 0 : θ 1 = θ 2 , hoặc đồng nghĩa H 0 : θ 1 - θ 2 = 0H0:θ=θ0H0:θθ0=0H0:θ1=θ2H0:θ1θ2=0trong trường hợp hai mẫu. Tôi nghi ngờ dạng giả thuyết null cụ thể này là câu hỏi của bạn. Theo sau Reagle và Vinod, tôi thuật ngữ các giả thuyết null của hình thức giả thuyết null thực chứng này và đưa ra điều này rõ ràng với ký hiệu . Các giả thuyết không tích cực cung cấp, hoặc không cung cấp bằng chứng về sự khác biệt hoặc bằng chứng về hiệu ứng . Các giả thuyết null tích cực có dạng omnibus cho k nhóm: H + 0 : θ i = θ j ; cho tất cả i , j { 1 , 2H0+kH0+:θi=θj; và  tôi j .i,j{1,2,k};  and ij

  • Bây giờ bạn có thể đang tìm hiểu về các giả thuyết null một phía chung , đó là các giả thuyết null của mẫu này trong trường hợp một mẫu, và H 0 : | θ 1 - θ 2 | Δ trong trường hợp hai mẫu, trong đó Δ là mức tối thiểu sự khác biệt liên quan mà bạn quan tâm đến một tiên nghiệm (tức là bạn nói lên phía trước mà chênh lệch nhỏ hơn này không quan trọng). Một lần nữa, sau Reagle và Vinod, tôi thuật ngữ các giả thuyết null của hình thức giả thuyết null tiêu cực nàyH0:|θθ0|ΔH0:|θ1θ2|ΔΔvà làm rõ điều này bằng ký hiệu . Giả thuyết không Negativist cung cấp bằng chứng về tính tương đương (trong vòng ± delta ), hoặc bằng chứng về sự vắng mặt của một tác (lớn hơn | delta | ). Các giả thuyết null tiêu cực có dạng omnibus cho các nhóm k : H - 0 : | θ i = θ j | Δ ; cho tất cả i , j { 1 , 2 , ... k }H0±Δ|Δ|kH0:|θi=θj|Δ; và  tôi j (Wellek, chương 7)i,j{1,2,k};  and ij

Các rất Điều thú vị phải làm là kết hợp kiểm tra cho sự khác biệt với các xét nghiệm cho tương đương. Điều này được gọi là kiểm tra mức độ liên quan và đặt cả sức mạnh thống kê và kích thước hiệu ứng rõ ràng trong các kết luận rút ra từ một thử nghiệm, như chi tiết trong mô tả của [tost]thẻ. Xem xét: nếu bạn từ chối có phải vì đó là hiệu ứng thực sự của kích thước bạn thấy có liên quan? Hoặc là bởi vì kích thước mẫu của bạn chỉ đơn giản là quá lớn thử nghiệm của bạn đã được cung cấp quá mức? Và nếu bạn không từ chối H + 0H0+H0+, đó có phải là do không có hiệu ứng thực sự hay do kích thước mẫu của bạn quá nhỏ và thử nghiệm của bạn không được cung cấp năng lượng? Các xét nghiệm liên quan giải quyết các vấn đề này trực tiếp.

Có một số cách để thực hiện kiểm tra tính tương đương (có hay không một kết hợp với kiểm tra cho sự khác biệt):

  • Hai thử nghiệm một phía (TOST) chuyển giả thuyết null tiêu cực chung được trình bày ở trên thành hai giả thuyết null một phía cụ thể:
    • (một mẫu) hoặc H - 01 : θ 1 - θ 2delta (hai mẫu)H01:θθ0ΔH01:θ1θ2Δ
    • H02:θθ0ΔH01:θ1θ2Δ
  • Các thử nghiệm đồng nhất mạnh mẽ nhất cho sự tương đương, có xu hướng phức tạp hơn nhiều so với TOST. Wellek là tài liệu tham khảo dứt khoát cho những điều này.
  • Một cách tiếp cận khoảng tin cậy, tôi tin rằng đầu tiên được thúc đẩy bởi Schuirman, và được tinh chỉnh bởi những người khác, chẳng hạn như Tryon.


Tài liệu tham khảo Reagle, DP và Vinod, HD (2003). Suy luận cho lý thuyết tiêu cực sử dụng các vùng loại bỏ được tính toán bằng số . Thống kê tính toán & phân tích dữ liệu , 42 (3): 491 trận512.

Schuirmann, DA (1987). Một so sánh của hai quy trình thử nghiệm một phía và phương pháp tiếp cận sức mạnh để đánh giá sự tương đương của sinh khả dụng trung bình . Tạp chí dược động học và sinh dược học , 15 (6): 657 sừng680.

Tryon, WW và Lewis, C. (2008). Một phương pháp khoảng tin cậy suy luận để thiết lập sự tương đương thống kê điều chỉnh hệ số giảm của Tryon (2001) . Phương pháp tâm lý , 13 (3): 272 Từ27.

Tryon, WW và Lewis, C. (2009). Đánh giá tỷ lệ độc lập cho sự khác biệt thống kê, tương đương, không xác định và khác biệt nhỏ bằng cách sử dụng khoảng tin cậy suy luận . Tạp chí Thống kê Giáo dục và Hành vi , 34 (2): 171 Từ189.

Wellek, S. (2010). Kiểm tra các giả thuyết thống kê về sự tương đương và không thua kém . Chapman và Hall / CRC Press, ấn bản thứ hai.


1
Bất cứ ai bỏ phiếu cho tôi nên đẩy mạnh một số phản hồi về lý do: rõ ràng là tôi cung cấp câu trả lời chi tiết và phản hồi nhanh với đầu vào.
Alexis

9

Bạn đang đề cập đến thực hành suy luận tiêu chuẩn được dạy trong các khóa học thống kê:

  1. H0,Ha
  2. α
  3. α
  4. H0HaH0

Điều này là tốt, và nó được sử dụng trong thực tế. Tôi thậm chí sẽ mạo hiểm để đoán thủ tục này có thể là bắt buộc trong một số ngành công nghiệp quy định như dược phẩm.

Tuy nhiên, đây không phải là cách duy nhất thống kê và suy luận được áp dụng trong nghiên cứu và thực hành. Ví dụ, hãy xem bài báo này : "Quan sát hạt mới trong quá trình tìm kiếm boson Model Higgs tiêu chuẩn với máy dò ATLAS tại LHC". Bài báo là lần đầu tiên trình bày bằng chứng về sự tồn tại của boson Higgs, trong cái gọi là thí nghiệm ATLAS. Nó cũng là một trong những bài báo mà danh sách các tác giả miễn là nội dung thực tế của nó :)

  • H0HaH0
  • ασ
  • α
  • họ trình bày khoảng tin cậy ở mức độ tin cậy thông thường như 95%

Dưới đây là cách kết luận được đưa ra: "Những kết quả này cung cấp bằng chứng thuyết phục cho việc phát hiện ra một hạt mới có khối lượng 126,0 ± 0,4 (stat) ± 0,4 (sys) GeV." Các từ "stat" dùng để chỉ thống kê và "sys" cho các yếu tố không chắc chắn có hệ thống.

Vì vậy, như bạn thấy không phải ai cũng làm thủ tục bốn bước mà tôi đã vạch ra trong phần đầu của câu trả lời này. Ở đây, các nhà nghiên cứu cho thấy giá trị p mà không cần thiết lập trước ngưỡng, trái với những gì được dạy trong các lớp thống kê. Thứ hai, họ không nhảy "từ chối / không từ chối", ít nhất là chính thức. Họ cắt ngang để đuổi theo và nói "đây là giá trị p, và đó là lý do tại sao chúng tôi nói rằng chúng tôi đã tìm thấy một hạt mới với khối lượng 126 GeV."

Lưu ý quan trọng

Các tác giả của bài báo Higgs chưa tuyên bố boson Higgs. Họ chỉ khẳng định rằng hạt mới đã được tìm thấy và một số tính chất của nó như khối lượng phù hợp với boson Higgs.

Phải mất một vài năm để thu thập thêm bằng chứng trước khi nó được xác định rằng hạt thực sự là hạt Higgs. Xem bài đăng blog này với thảo luận sớm về kết quả. Các nhà vật lý đã tiếp tục kiểm tra các tính chất khác nhau như độ xoáy bằng không. Và trong khi các bằng chứng được thu thập tại một số điểm, Cern tuyên bố rằng hạt đó là hạt Higgs.

Sao nó lại quan trọng? Bởi vì không thể tầm thường hóa quá trình khám phá khoa học đối với một số thủ tục suy luận thống kê cứng nhắc. Suy luận thống kê chỉ là một công cụ được sử dụng.

Khi Cern đang tìm kiếm hạt này, trọng tâm là lần đầu tiên tìm thấy nó. Đó là mục tiêu cuối cùng. Nhà vật lý đã có một ý tưởng để xem xét. Khi họ tìm thấy một ứng cử viên, họ tập trung vào việc chứng minh đó là một ứng cử viên. Cuối cùng, toàn bộ bằng chứng, không phải là một thí nghiệm duy nhất với giá trị p và ý nghĩa, đã thuyết phục mọi người rằng chúng tôi tìm thấy hạt. Bao gồm ở đây tất cả các kiến ​​thức trước và mô hình tiêu chuẩn . Đây không chỉ là một suy luận thống kê, phương pháp khoa học còn rộng hơn thế.


wow, câu trả lời của bạn rất hay! đây là một ví dụ thực sự tốt Tôi hy vọng rằng trong tối đa 10 năm, các nhà khoa học cũng sẽ đến với phong cách báo cáo này!
Đức Demidov

5

Có nhiều cách để tiếp cận điều này mà không dựa vào các tính toán sức mạnh (xem Wellek, 2010). Cụ thể, bạn cũng có thể kiểm tra xem bạn có từ chối null hay không mà hiệu ứng là của một cường độ có ý nghĩa tiên nghiệm .

Daniël Lakens ủng hộ trong tình huống này để thử nghiệm tương đương. Lakens đặc biệt sử dụng " TOST " (hai bài kiểm tra một phía) để so sánh trung bình, nhưng có nhiều cách khác để có cùng ý tưởng.

Trong TOST, bạn kiểm tra một hợp chất null: giả thuyết null một phía cho rằng hiệu ứng của bạn tiêu cực hơn so với chênh lệch âm quan tâm nhỏ nhất và null cho thấy hiệu ứng của bạn tích cực hơn chênh lệch lãi suất dương nhỏ nhất. Nếu bạn từ chối cả hai, thì bạn có thể khẳng định rằng không có sự khác biệt có ý nghĩa. Lưu ý rằng điều này có thể xảy ra ngay cả khi hiệu ứng khác biệt đáng kể so với số không, nhưng trong mọi trường hợp, nó không yêu cầu chứng thực null.

Lakens, D. (2017). Các thử nghiệm tương đương: một mồi thực tế cho các thử nghiệm t , tương quan và phân tích tổng hợp . Khoa học tâm lý và nhân cách xã hội , 8 (4), 355-362.

Wellek, S. (2010). Kiểm tra các giả thuyết thống kê về sự tương đương và không thua kém . Chapman và Hall / CRC Press, ấn bản thứ hai.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.