Ý nghĩa của giá trị p và giá trị t trong các bài kiểm tra thống kê là gì?


246

Sau khi tham gia một khóa học thống kê và sau đó cố gắng giúp đỡ các sinh viên, tôi nhận thấy một chủ đề truyền cảm hứng cho nhiều vụ đập đầu là giải thích kết quả của các bài kiểm tra giả thuyết thống kê. Có vẻ như học sinh dễ dàng học cách thực hiện các phép tính theo yêu cầu của một bài kiểm tra nhất định nhưng bị treo lên khi diễn giải kết quả. Nhiều công cụ máy tính báo cáo kết quả kiểm tra về "giá trị p" hoặc "giá trị t".

Làm thế nào bạn sẽ giải thích những điểm sau đây cho sinh viên đại học tham gia khóa học đầu tiên về thống kê:

  • "Giá trị p" nghĩa là gì liên quan đến giả thuyết đang được thử nghiệm? Có những trường hợp khi một người nên tìm kiếm một giá trị p cao hoặc giá trị p thấp?

  • Mối quan hệ giữa giá trị p và giá trị t là gì?


11
Một chút công bằng của điều này về cơ bản được bao phủ bởi câu đầu tiên của bài viết wikipedia về các giá trị p , định nghĩa chính xác một giá trị p. Nếu điều đó được hiểu, nhiều điều được làm rõ.
Glen_b

1
Chỉ cần lấy cuốn sách: Thống kê mà không có nước mắt. Nó có thể tiết kiệm sự tỉnh táo của bạn !!

7
@ user48700 Bạn có thể tóm tắt làm thế nào Thống kê mà không có nước mắt giải thích điều này?
Matt Krause

5
Ai đó nên vẽ một biểu đồ các câu hỏi liên quan đến giá trị p theo thời gian và tôi cá là chúng ta sẽ thấy tính thời vụ và mối tương quan với lịch học trong các trường đại học hoặc các lớp khoa học dữ liệu Coursera
Aksakal

Ngoài các đề xuất sách hay và có liên quan khác trong các câu trả lời và nhận xét, tôi muốn đề xuất một cuốn sách khác, được gọi một cách thích hợp là "Giá trị p là gì?" .
Alexanderr Blekh

Câu trả lời:


150

Hiểu giá trịp

Giả sử, bạn muốn kiểm tra giả thuyết rằng chiều cao trung bình của nam sinh viên tại trường Đại học của bạn là ft inch. Bạn thu thập chiều cao của sinh viên được chọn ngẫu nhiên và tính trung bình mẫu (giả sử nó là ft inch). Sử dụng một công thức / thói quen thống kê thích hợp, bạn tính giá trị cho giả thuyết của mình và nói rằng nó hóa ra là .7 100 5 9 p 0,065710059p0,06

Để diễn giải một cách thích hợp, chúng ta nên ghi nhớ một số điều:p= =0,06

  1. Bước đầu tiên trong thử nghiệm giả thuyết cổ điển là giả định rằng giả thuyết được xem xét là đúng. (Trong ngữ cảnh của chúng tôi, chúng tôi giả định rằng chiều cao trung bình thực sự là ft inch.)757

  2. Hãy tưởng tượng thực hiện phép tính sau: Tính xác suất trung bình mẫu lớn hơn ft inch giả sử rằng giả thuyết của chúng tôi thực tế là đúng (xem điểm 1).959

Nói cách khác, chúng tôi muốn biết

P(Smộtmptôiememộtviết sai rồi5đụt9Tôiviết sai rồicheS|Trbạnevmộttôibạne= =5đụt7Tôiviết sai rồicheS).

Tính toán trong bước 2 là giá trị . Do đó, giá trị có nghĩa là nếu chúng ta lặp lại thí nghiệm của mình nhiều lần (nhiều lần chúng ta chọn ngẫu nhiên sinh viên và tính trung bình mẫu) thì lần trong số chúng ta có thể mong đợi được xem một mẫu có nghĩa là lớn hơn hoặc bằng ft inch.p 0,06 100 6 100 5 9pp0,06100610059

Với sự hiểu biết ở trên, chúng ta vẫn nên giữ giả định rằng giả thuyết của chúng ta là đúng (xem bước 1)? Chà, chỉ ra rằng một trong hai điều đã xảy ra:p= =0,06

  • (A) Hoặc giả thuyết của chúng tôi là đúng và một sự kiện cực kỳ khó xảy ra (ví dụ: tất cả sinh viên là vận động viên học sinh)100

hoặc là

  • (B) Giả định của chúng tôi là không chính xác và mẫu chúng tôi đã thu được không phải là bất thường.

Cách truyền thống để chọn giữa (A) và (B) là chọn một điểm cắt tùy ý cho . Chúng tôi chọn (A) nếu và (B) nếu .p > 0,05 p < 0,05pp>0,05p<0,05


3
Chậm rãi, đừng vội! Tôi sẽ không suy nghĩ về việc chọn một "Câu trả lời hay nhất" trong khoảng một tuần.
Sharpie

1
Bây giờ tôi đã có cơ hội quay lại và đọc toàn bộ câu trả lời - một +1 lớn cho ví dụ về chiều cao của học sinh. Rất rõ ràng và cũng được đặt ra.
Sharpie

3
Công việc tốt ... nhưng chúng tôi cần thêm (C) mô hình của chúng tôi (thể hiện trong công thức / thói quen thống kê) là sai.
Andrew Robinson

6
Giá trị t (hoặc bất kỳ thống kê kiểm tra nào khác) chủ yếu là một bước trung gian. Về cơ bản, một số thống kê đã được chứng minh, theo một số giả định, có một phân phối nổi tiếng. Vì chúng tôi biết phân phối thống kê kiểm tra theo null, nên chúng tôi có thể sử dụng các bảng tiêu chuẩn (ngày nay chủ yếu là phần mềm) để lấy giá trị p.
Gala

1
Không phải giá trị p xuất phát là kết quả của việc thực hiện kiểm tra chi bình phương và sau đó từ bảng chi bình phương? Đang tự hỏi làm thế nào mà xác suất tính toán ở trên chỉ ra giá trị p?!
Anh chàng London

123

Một cuộc đối thoại giữa một giáo viên và một học sinh chu đáo

Khiêm tốn gửi với niềm tin rằng không đủ bút chì màu đã được sử dụng cho đến nay trong chủ đề này. Một bản tóm tắt minh họa ngắn gọn xuất hiện ở cuối.


Học sinh : Giá trị p có nghĩa là gì? Rất nhiều người dường như đồng ý rằng đó là cơ hội chúng ta sẽ "thấy một mẫu có nghĩa lớn hơn hoặc bằng" một thống kê hoặc đó là "xác suất quan sát kết quả này ... đưa ra giả thuyết null là đúng" hoặc trong đó "thống kê mẫu của tôi rơi vào phân phối [mô phỏng] và thậm chí "xác suất quan sát thống kê kiểm tra ít nhất lớn bằng mức tính toán giả định giả thuyết null là đúng" .

Giáo viên : Hiểu đúng, tất cả những tuyên bố đó là chính xác trong nhiều trường hợp.

Sinh viên : Tôi không thấy hầu hết trong số họ có liên quan. Bạn không dạy chúng tôi rằng chúng ta phải nêu ra một giả thuyết và một giả thuyết thay thế H A ? Làm thế nào họ tham gia vào những ý tưởng "lớn hơn hoặc bằng" hoặc "ít nhất là lớn" hoặc "cực đoan" rất phổ biến?H0HMột

Giáo viên : Bởi vì nó có vẻ phức tạp nói chung, nó sẽ giúp chúng ta khám phá một ví dụ cụ thể?

Học sinh : Chắc chắn rồi. Nhưng hãy làm cho nó thực tế nhưng đơn giản nếu bạn có thể.

Giáo viên : Lý thuyết kiểm định giả thuyết này trong lịch sử bắt đầu với sự cần thiết của các nhà thiên văn học để phân tích các lỗi quan sát, vậy bắt đầu từ đó như thế nào. Một ngày nọ, tôi đã trải qua một số tài liệu cũ, nơi một nhà khoa học mô tả những nỗ lực của ông để giảm lỗi đo lường trong bộ máy của mình. Ông đã thực hiện rất nhiều phép đo của một ngôi sao ở một vị trí đã biết và ghi lại sự dịch chuyển của chúng trước hoặc sau vị trí đó. Để hình dung những sự dịch chuyển đó, anh ta đã vẽ một biểu đồ mà - khi được làm nhẵn một chút - trông giống như cái này.

Hình 1: Biểu đồ chuyển vị

Học sinh : Tôi nhớ cách biểu đồ hoạt động: trục dọc được gắn nhãn "Mật độ" để nhắc nhở tôi rằng tần số tương đối của các phép đo được biểu thị theo diện tích thay vì chiều cao.

Giáo viên : Đúng vậy. Giá trị "bất thường" hoặc "cực đoan" sẽ nằm ở khu vực có diện tích khá nhỏ. Đây là một cây bút chì. Bạn có nghĩ rằng bạn có thể tô màu trong một khu vực có diện tích chỉ bằng một phần mười?

Học sinh : Chắc chắn; thật dễ dàng [Màu sắc trong hình.]

Hình 2: Tô màu đầu tiên của học sinh.

Giáo viên : Rất tốt! Có vẻ như khoảng 10% diện tích đối với tôi. Tuy nhiên, hãy nhớ rằng các khu vực duy nhất trong biểu đồ là vấn đề nằm giữa các đường thẳng đứng: chúng đại diện cho cơ hội hoặc xác suất mà sự dịch chuyển sẽ nằm giữa các đường thẳng trên trục hoành. Điều đó có nghĩa là bạn cần tô màu xuống tận đáy và đó sẽ là hơn một nửa diện tích, phải không?

Học sinh : Ồ, tôi hiểu rồi. Hãy để tôi thử lại. Tôi sẽ muốn tô màu ở nơi đường cong thực sự thấp, phải không? Nó thấp nhất ở hai đầu. Tôi có phải tô màu chỉ trong một khu vực không hay có thể chia thành nhiều phần không?

Giáo viên : Sử dụng một số phần là một ý tưởng thông minh. Họ sẽ ở đâu?

Học sinh (chỉ): Đây và đây. Bởi vì bút chì màu này không quá sắc nét, tôi đã sử dụng một cây bút để cho bạn thấy những dòng tôi đang sử dụng.

Hình 3: Màu thứ hai của học sinh

Giáo viên : Rất hay! Hãy để tôi kể cho bạn phần còn lại của câu chuyện. Nhà khoa học đã thực hiện một số cải tiến cho thiết bị của mình và sau đó anh ta thực hiện các phép đo bổ sung. Ông viết rằng sự dịch chuyển của cái đầu tiên chỉ là , mà ông nghĩ là một dấu hiệu tốt, nhưng là một nhà khoa học cẩn thận, ông đã tiến hành thực hiện nhiều phép đo hơn như một kiểm tra. Thật không may, những phép đo khác bị mất - bản thảo bị hỏng vào thời điểm này - và tất cả những gì chúng ta có là con số duy nhất đó là 0,1 .0.10.1

Học sinh : Điều đó thật tệ. Nhưng điều đó có tốt hơn nhiều so với sự lan rộng của các chuyển vị trong hình của bạn không?

Giáo viên : Đó là câu hỏi tôi muốn bạn trả lời. Để bắt đầu, chúng ta nên đặt tên là gì?H0

Học sinh : Chà, một người hoài nghi sẽ tự hỏi liệu những cải tiến được thực hiện cho thiết bị có ảnh hưởng gì không. Gánh nặng của bằng chứng là ở nhà khoa học: anh ta muốn chứng tỏ rằng sự hoài nghi là sai. Điều đó khiến tôi nghĩ rằng giả thuyết khống là không tốt cho nhà khoa học: nó nói rằng tất cả các phép đo mới - bao gồm giá trị mà chúng ta biết - phải hành xử như mô tả của biểu đồ đầu tiên. Hoặc thậm chí có thể tồi tệ hơn thế: chúng thậm chí có thể lan rộng hơn.0,1

Giáo viên : Tiếp tục, bạn đang làm tốt.

Học sinh : Và vì vậy, phương án thay thế là các phép đo mới sẽ ít được trải ra hơn, phải không?

Giáo viên : Rất tốt! Bạn có thể vẽ cho tôi một bức tranh về biểu đồ có ít lan truyền sẽ trông như thế nào không? Đây là một bản sao khác của biểu đồ đầu tiên; bạn có thể vẽ lên trên nó như một tài liệu tham khảo.

Học sinh (vẽ): Tôi đang sử dụng bút để phác thảo biểu đồ mới và tôi đang tô màu ở khu vực bên dưới nó. Tôi đã làm cho nó sao cho hầu hết các đường cong gần bằng 0 trên trục hoành và vì vậy phần lớn diện tích của nó gần giá trị (ngang) bằng 0: đó là những gì nó có nghĩa là ít trải ra hoặc chính xác hơn.

Hình 4: Biểu đồ mới của học sinh

Giáo viên : Đó là một khởi đầu tốt. Nhưng hãy nhớ rằng một biểu đồ cho thấy cơ hội nên có tổng diện tích là . Do đó, tổng diện tích của biểu đồ đầu tiên là 1 . Bao nhiêu diện tích bên trong biểu đồ mới của bạn?11

Học sinh : Tôi chưa đến một nửa. Tôi thấy đó là một vấn đề, nhưng tôi không biết làm thế nào để khắc phục nó. Tôi nên làm gì?

Giáo viên : Bí quyết là làm cho biểu đồ mới cao hơn cũ để tổng diện tích của nó là . Ở đây, tôi sẽ chỉ cho bạn một phiên bản do máy tính tạo ra để minh họa.1

Hình 5: Biểu đồ mới của giáo viên

Học sinh : Tôi thấy: bạn đã kéo dài nó ra theo chiều dọc để hình dạng của nó không thực sự thay đổi nhưng bây giờ khu vực màu đỏ và khu vực màu xám (bao gồm cả phần bên dưới màu đỏ) là cùng một lượng.

Sư phụ : Phải. Bạn đang xem một bức tranh về giả thuyết null (màu xanh lam, trải ra) và một phần của giả thuyết thay thế (màu đỏ, với độ lan rộng ít hơn).

Học sinh : Bạn có ý nghĩa gì bởi "một phần" của sự thay thế? Có phải đó chỉ giả thuyết thay thế?

Giáo viên : Thống kê và ngữ pháp dường như không trộn lẫn. :-) Nghiêm túc mà nói, ý nghĩa của một "giả thuyết" thường là cả một bộ khả năng lớn. Ở đây, giải pháp thay thế (như bạn đã nói rất rõ trước đây) là các phép đo "ít lan truyền" hơn trước. Nhưng ít hơn bao nhiêu ? Có nhiều khả năng. Ở đây, để tôi chỉ cho bạn một cái khác. Tôi vẽ nó với dấu gạch ngang màu vàng. Đó là ở giữa hai trước.

Hình 6: null cùng với hai phần tử thay thế

Học sinh : Tôi thấy: bạn có thể có mức độ lây lan khác nhau nhưng bạn không biết trước mức độ lây lan sẽ thực sự là bao nhiêu. Nhưng tại sao bạn lại tạo ra bóng mờ hài hước trong bức tranh này?

Giáo viên : Tôi muốn làm nổi bật biểu đồ khác nhau ở đâu và như thế nào. Tôi tô màu chúng bằng màu xám trong đó các biểu đồ thay thế thấp hơn null và màu đỏ trong đó các lựa chọn thay thế cao hơn .

Học sinh : Tại sao điều đó lại quan trọng?

Giáo viên : Bạn có nhớ cách bạn tô màu biểu đồ đầu tiên ở cả hai đuôi không? [Nhìn qua các giấy tờ.] Ah, đây rồi. Hãy tô màu bức tranh này theo cùng một cách.

Hình 7: null và thay thế, được tô màu.

Học sinh : Tôi nhớ: đó là những giá trị cực đoan. Tôi tìm thấy những nơi có mật độ null nhỏ nhất có thể và được tô màu ở 10% diện tích ở đó.

Giáo viên : Hãy cho tôi biết về các lựa chọn thay thế trong các khu vực cực đoan.

Học sinh : Thật khó để nhìn thấy, bởi vì bút chì màu che phủ nó, nhưng có vẻ như gần như không có cơ hội nào cho những khu vực tôi tô màu. Biểu đồ của họ nằm ngay sát trục giá trị và không có chỗ cho bất kỳ khu vực nào bên dưới chúng.

Giáo viên : Hãy tiếp tục suy nghĩ đó. Nếu tôi nói với bạn, theo giả thuyết, một phép đo có độ dịch chuyển là , và yêu cầu bạn chọn một trong ba biểu đồ này là biểu đồ mà nó có khả năng nhất đến từ đâu, đó sẽ là gì?2

Học sinh : Cái đầu tiên - cái màu xanh. Đó là sự lan rộng nhất và đó là người duy nhất trong đó dường như có bất kỳ cơ hội nào xảy ra.2

Giáo viên : Còn giá trị trong bản thảo thì sao?0,1

Học sinh : Hmmm ... đó là một câu chuyện khác nhau. Cả ba biểu đồ đều khá cao so với mặt đất ở mức .0.1

Giáo viên : OK, đủ công bằng. Nhưng giả sử tôi đã nói với bạn giá trị ở đâu đó gần , như giữa và . Điều đó có giúp bạn đọc một số xác suất của các biểu đồ này không?0 0,20.100.2

Sinh viên : Chắc chắn, vì tôi có thể sử dụng các khu vực. Tôi chỉ phải ước tính các khu vực bên dưới mỗi đường cong từ đến . Nhưng điều đó có vẻ khá khó khăn.0,200.2

Giáo viên : Bạn không cần phải đi quá xa. Bạn có thể chỉ cho biết khu vực nào là lớn nhất?

Học sinh : Tất nhiên, bên dưới đường cong cao nhất. Tất cả ba khu vực có cùng một cơ sở, vì vậy đường cong càng cao, càng có nhiều khu vực bên dưới nó và cơ sở. Điều đó có nghĩa là biểu đồ cao nhất - biểu đồ mà tôi đã vẽ, với dấu gạch ngang màu đỏ - là biểu đồ thích hợp nhất cho độ dịch chuyển . Tôi nghĩ rằng tôi thấy bạn đang đi đâu với điều này, nhưng tôi hơi lo ngại: tôi không phải xem tất cả các biểu đồ cho tất cả các lựa chọn thay thế, không chỉ một hoặc hai được hiển thị ở đây? Làm thế nào tôi có thể làm điều đó?0.1

Giáo viên : Bạn rất giỏi trong việc chọn các mẫu, vì vậy hãy nói với tôi: vì bộ máy đo được chế tạo ngày càng chính xác, điều gì xảy ra với biểu đồ của nó?

Học sinh : Nó hẹp hơn - ồ, và nó cũng phải cao hơn, nên tổng diện tích của nó vẫn giữ nguyên. Điều đó làm cho nó khá khó để so sánh các biểu đồ. Những người thay thế là tất cả cao hơn null ngay tại , đó là hiển nhiên. Nhưng ở các giá trị khác đôi khi các lựa chọn thay thế cao hơn và đôi khi chúng thấp hơn! Ví dụ: [chỉ vào một giá trị gần ], ngay tại đây biểu đồ màu đỏ của tôi là thấp nhất, biểu đồ màu vàng là cao nhất và biểu đồ null ban đầu nằm giữa chúng. Nhưng bên phải null là cao nhất.3 / 403/4

Giáo viên : Nói chung, so sánh biểu đồ là một công việc phức tạp. Để giúp chúng tôi làm điều đó, tôi đã yêu cầu máy tính tạo ra một âm mưu khác: nó đã chia từng chiều cao biểu đồ thay thế (hoặc "mật độ") cho chiều cao biểu đồ null, tạo ra các giá trị được gọi là "tỷ lệ khả năng". Kết quả là, giá trị lớn hơn có nghĩa là sự thay thế có nhiều khả năng, trong khi giá trị nhỏ hơn có nghĩa là sự thay thế ít có khả năng hơn. Nó đã rút ra một lựa chọn khác: nó trải rộng hơn hai cái kia, nhưng vẫn ít lan rộng hơn bộ máy ban đầu.111

Hình 8: Tỷ lệ khả năng

Giáo viên (tiếp tục): Bạn có thể chỉ cho tôi nơi các lựa chọn thay thế có xu hướng nhiều khả năng hơn null?

Học sinh (tô màu): Ở đây ở giữa, rõ ràng. Và bởi vì đây không phải là biểu đồ nữa, tôi đoán chúng ta nên nhìn vào độ cao hơn là các khu vực, vì vậy tôi chỉ đánh dấu một phạm vi các giá trị trên trục hoành. Nhưng làm thế nào để tôi biết bao nhiêu phần giữa để tô màu? Tôi dừng tô màu ở đâu?

Hình 9: Các ô tỷ lệ khả năng được đánh dấu

Giáo viên : Không có quy tắc vững chắc. Tất cả phụ thuộc vào cách chúng ta dự định sử dụng kết luận của mình và sự hoài nghi dữ dội như thế nào. Nhưng hãy ngồi lại và suy nghĩ về những gì bạn đã đạt được: bây giờ bạn nhận ra rằng kết quả với tỷ lệ khả năng lớn là bằng chứng cho sự thay thế và kết quả với tỷ lệ khả năng nhỏ là bằng chứng chống lại sự thay thế. Những gì tôi sẽ yêu cầu bạn làm là tô màu trong một khu vực, trong chừng mực có thể, có một cơ hội nhỏ xảy ra theo giả thuyết null và cơ hội tương đối lớn xảy ra dưới các phương án. Quay trở lại sơ đồ đầu tiên bạn tô màu, quay trở lại khi bắt đầu cuộc trò chuyện của chúng tôi, bạn tô màu ở hai đuôi của null vì chúng "cực đoan". Họ vẫn sẽ làm một công việc tốt?

Học sinh : Tôi không nghĩ vậy. Mặc dù chúng khá cực đoan và hiếm theo giả thuyết khống, nhưng thực tế chúng không thể đối với bất kỳ giải pháp thay thế nào. Nếu số đo mới của tôi là, giả sử , tôi nghĩ rằng tôi sẽ đứng về phía hoài nghi và phủ nhận rằng bất kỳ cải thiện nào đã xảy ra, mặc dù là kết quả bất thường trong mọi trường hợp. Tôi muốn thay đổi màu sắc đó. Ở đây - hãy để tôi có một bút chì màu khác.3.03.03.0

Hình 10: Đánh dấu được cải thiện

Giáo viên : Điều đó thể hiện điều gì?

Sinh viên : Chúng tôi bắt đầu với bạn yêu cầu tôi vẽ chỉ trong 10% diện tích theo biểu đồ gốc - mô tả về null. Vì vậy, bây giờ tôi đã rút ra 10% diện tích nơi mà các lựa chọn thay thế dường như có nhiều khả năng xảy ra. Tôi nghĩ rằng khi một phép đo mới nằm trong khu vực đó, nó cho chúng ta biết rằng chúng ta nên tin vào sự thay thế.

Giáo viên : Và người hoài nghi nên phản ứng như thế nào với điều đó?

Học sinh : Một người hoài nghi không bao giờ phải thừa nhận mình sai, phải không? Nhưng tôi nghĩ đức tin của anh ấy nên bị lung lay một chút. Rốt cuộc, chúng tôi đã sắp xếp nó để mặc dù một phép đo thể ở bên trong khu vực tôi vừa vẽ, nó chỉ có 10% cơ hội ở đó khi null là đúng. Và nó có cơ hội lớn hơn ở đó khi sự thay thế là đúng. Tôi chỉ không thể nói cho bạn biết cơ hội đó lớn hơn bao nhiêu, bởi vì nó sẽ phụ thuộc vào mức độ mà nhà khoa học đã cải thiện bộ máy. Tôi chỉ biết nó lớn hơn. Vì vậy, bằng chứng sẽ chống lại sự hoài nghi.

Giáo viên : Được rồi. Bạn có phiền khi tóm tắt sự hiểu biết của bạn để chúng tôi hoàn toàn rõ ràng về những gì bạn đã học?

Học sinh : Tôi đã học được rằng để so sánh các giả thuyết thay thế với các giả thuyết không, chúng ta nên so sánh biểu đồ của chúng. Chúng tôi chia mật độ của các lựa chọn thay thế theo mật độ của null: đó là cái mà bạn gọi là "tỷ lệ khả năng". Để làm một bài kiểm tra tốt, tôi nên chọn một con số nhỏ như 10% hoặc bất cứ điều gì có thể đủ để làm lung lay một người hoài nghi. Sau đó, tôi nên tìm các giá trị trong đó tỷ lệ khả năng càng cao càng tốt và tô màu chúng cho đến khi 10% (hoặc bất cứ điều gì) đã được tô màu.

Giáo viên : Và bạn sẽ sử dụng màu đó như thế nào?

Học sinh : Như bạn đã nhắc tôi trước đó, màu sắc phải nằm giữa các đường thẳng đứng. Các giá trị (trên trục hoành) nằm dưới màu là bằng chứng chống lại giả thuyết null. Các giá trị khác - tốt, thật khó để nói ý nghĩa của chúng mà không xem xét chi tiết hơn tất cả các biểu đồ liên quan.

Giáo viên : Quay trở lại giá trị trong bản thảo, bạn sẽ kết luận điều gì?0.1

Học sinh : Đó là trong khu vực tôi tô màu lần cuối, vì vậy tôi nghĩ rằng nhà khoa học có lẽ đã đúng và bộ máy thực sự đã được cải thiện.

Giáo viên : Một điều cuối cùng. Kết luận của bạn dựa trên việc chọn 10% làm tiêu chí hoặc "kích thước" của bài kiểm tra. Nhiều người thích sử dụng 5% thay thế. Một số thích 1%. Bạn có thể nói gì với họ?

Học sinh : Tôi không thể làm tất cả các bài kiểm tra đó cùng một lúc! Vâng, có lẽ tôi có thể theo một cách nào đó. Tôi có thể thấy rằng dù thử nghiệm có kích thước như thế nào, tôi nên bắt đầu tô màu từ , theo nghĩa này là giá trị "cực đoan nhất" và hoạt động theo cả hai hướng từ đó. Nếu tôi dừng lại ở mức - giá trị thực sự được quan sát - tôi nghĩ rằng tôi sẽ tô màu ở một khu vực nào đó trong khoảng đến , giả sử . 5% và 1% mọi người có thể nói ngay rằng tôi đã tô màu quá nhiều: nếu họ muốn tô màu chỉ 5% hoặc 1%, họ có thể, nhưng họ sẽ không đi xa đến0,1 0,05 0,1 0,08 0,100.10.050.10.080.1. Họ sẽ không đi đến kết luận giống như tôi đã làm: họ sẽ nói rằng không có đủ bằng chứng cho thấy một sự thay đổi thực sự xảy ra.

0.08

Học sinh : Cảm ơn bạn. Tôi không tự tin Tôi hoàn toàn hiểu tất cả những điều này, nhưng bạn đã cho tôi rất nhiều điều để suy nghĩ.

Giáo viên : Nếu bạn muốn đi xa hơn, hãy xem Bổ đề Neyman-Pearson . Bạn có lẽ đã sẵn sàng để hiểu nó bây giờ.


Tóm tắc

ztt=0.1

Hình 11: giá trị p là một khu vực.

0t=0.1đạt được Giá trị p là khu vực của vùng bóng mờ dưới biểu đồ null: đó là cơ hội, giả sử null là đúng, khi quan sát một kết quả có tỷ lệ khả năng có xu hướng lớn bất kể sự thay thế nào là đúng. Đặc biệt, việc xây dựng này phụ thuộc mật thiết vào giả thuyết thay thế. Nó không thể được thực hiện mà không chỉ định các lựa chọn thay thế có thể.


4
Điều này đã xử lý xuất sắc với nhận xét của tôi về một câu trả lời khác, rằng không có câu trả lời nào trước đây cho câu hỏi này đã được giải quyết, nói chung, khía cạnh thường được nghe "hoặc cực đoan hơn" của giá trị p . (Mặc dù câu trả lời "thử nghiệm trà" bao gồm một ví dụ cụ thể tốt.) Tôi đặc biệt ngưỡng mộ cách ví dụ này được xây dựng có chủ ý để làm nổi bật rằng "cực đoan hơn" có thể hoàn toàn trái ngược với "lớn hơn" hoặc "xa hơn từ 0".
Cá bạc

4
H1H1

3
Độc đáo sâu sắc như mọi khi, cảm ơn bạn đã dành thời gian để viết ra những câu trả lời vô cùng hữu ích. Tôi thực sự tự hỏi tại sao sách giáo khoa không bao giờ được viết theo cách cung cấp bất cứ nơi nào gần các mức độ rõ ràng và trực giác này.
jeremy radcliff

Tôi nghĩ rằng một liên kết đến một định nghĩa về khả năng viết ví dụ này có thể có lợi
baxx

1
Thật nguy hiểm khi sử dụng lời châm biếm trong một bình luận, @baxx, vì không có đủ không gian cho phép chúng tôi làm điều đó một cách lịch sự và tao nhã. Do đó, thông thường không nên cho rằng một bình luận đang bị mỉa mai trừ khi nó nói rõ ràng với bạn như vậy. Chỉ cần giả sử ý kiến ​​là nhằm giúp bạn. Nếu bạn chỉ đơn giản là làm theo cú đánh đầu tiên trong tìm kiếm tôi cung cấp, tôi nghĩ câu hỏi của bạn sẽ được trả lời.
whuber

44

Trước khi chạm vào chủ đề này, tôi luôn đảm bảo rằng các sinh viên vui vẻ di chuyển giữa tỷ lệ phần trăm, số thập phân, tỷ lệ cược và phân số. Nếu họ không hoàn toàn hài lòng với điều này thì họ có thể bị nhầm lẫn rất nhanh.

Tôi muốn giải thích thử nghiệm giả thuyết lần đầu tiên (và do đó là giá trị p và thống kê thử nghiệm) thông qua thí nghiệm trà cổ điển của Fisher. Tôi có một số lý do cho việc này:

(i) Tôi nghĩ rằng làm việc thông qua một thử nghiệm và xác định các thuật ngữ khi chúng tôi đi cùng có ý nghĩa hơn là chỉ cần xác định tất cả các thuật ngữ này để bắt đầu. (ii) Bạn không cần dựa hoàn toàn vào phân phối xác suất, các khu vực dưới đường cong, v.v. để vượt qua các điểm chính của kiểm tra giả thuyết. (iii) Nó giải thích khái niệm lố bịch này về "như hoặc cực đoan hơn những gì được quan sát" theo cách khá hợp lý (iv) Tôi thấy các sinh viên muốn hiểu về lịch sử, nguồn gốc và câu chuyện ngược về những gì họ đang nghiên cứu vì nó làm cho nó thực hơn hơn một số lý thuyết trừu tượng. (v) Không quan trọng môn học hay môn học mà sinh viên đến từ đâu, họ có thể liên quan đến ví dụ về trà (NB Một số sinh viên quốc tế gặp khó khăn với tổ chức trà đặc biệt của Anh này với sữa.)

[Lưu ý: Ban đầu tôi có ý tưởng này từ bài viết tuyệt vời của Dennis Lindley "Phân tích dữ liệu thực nghiệm: Sự đánh giá cao của trà và rượu" trong đó ông chứng minh tại sao phương pháp Bayes vượt trội hơn phương pháp cổ điển.]

Câu chuyện đằng sau là Muriel Bristol đến thăm Fisher vào một buổi chiều trong những năm 1920 tại Trạm thí nghiệm Rothamsted để uống một tách trà. Khi Fisher đặt sữa cuối cùng, cô ấy đã phàn nàn rằng cô ấy cũng có thể biết liệu sữa được rót trước (hay cuối cùng) và cô ấy thích cái trước hơn. Để thử nghiệm điều này, ông đã thiết kế thí nghiệm trà cổ điển của mình, nơi Muriel được tặng một cặp tách trà và cô phải xác định loại nào có sữa được thêm vào trước. Điều này được lặp lại với sáu cặp tách trà. Lựa chọn của cô ấy là Phải (R) hoặc Sai (W) và kết quả của cô ấy là: RRRRRW.

6

(a) giả thuyết khống (Muriel đang đoán) là đúng và một sự kiện có xác suất nhỏ đã xảy ra hoặc,

(b) giả thuyết khống là sai và Muriel có quyền phân biệt đối xử.

Giá trị p (hoặc giá trị xác suất) là xác suất quan sát kết quả này (RRRRRW) với giả thuyết null là đúng - đó là xác suất nhỏ được đề cập trong (a), ở trên. Trong trường hợp này là 0,016. Vì các sự kiện có xác suất nhỏ chỉ xảy ra hiếm khi (theo định nghĩa) tình huống (b) có thể là một lời giải thích thích hợp hơn về những gì xảy ra so với tình huống (a). Khi chúng ta bác bỏ giả thuyết khống, thực tế chúng ta chấp nhận giả thuyết ngược lại mà chúng ta gọi là giả thuyết thay thế. Trong ví dụ này, Muriel có năng lực phân biệt đối xử là giả thuyết thay thế.

Một xem xét quan trọng là những gì chúng ta lớp như một xác suất "nhỏ"? Điểm cắt mà chúng tôi sẵn sàng nói rằng một sự kiện là không thể? Điểm chuẩn là 5% (0,05) và đây được gọi là mức ý nghĩa. Khi giá trị p nhỏ hơn mức ý nghĩa, chúng tôi bác bỏ giả thuyết null là sai và chấp nhận giả thuyết thay thế của chúng tôi. Theo cách nói chung, việc tuyên bố một kết quả là "đáng kể" khi giá trị p nhỏ hơn mức ý nghĩa, nghĩa là khi xác suất của những gì chúng tôi quan sát được xảy ra với giả thuyết null là nhỏ hơn điểm cắt của chúng tôi. Điều quan trọng là rõ ràng rằng việc sử dụng 5% là hoàn toàn chủ quan (như đang sử dụng các mức ý nghĩa phổ biến khác là 1% và 10%).

Fisher nhận ra rằng điều này không hoạt động; mọi kết quả có thể xảy ra với một cặp sai đều có sức gợi phân biệt như nhau. Do đó, xác suất liên quan cho tình huống (a), ở trên là 6 (0,5) ^ 6 = 0,094 (hoặc 6/64) mà hiện tại không đáng kể ở mức ý nghĩa 5%. Để khắc phục điều này, Fisher lập luận rằng nếu 1 lỗi trong 6 được coi là bằng chứng của quyền hạn phân biệt đối xử thì không có lỗi nào, tức là kết quả thể hiện mạnh hơn khả năng phân biệt đối xử so với mức độ quan sát được đưa vào khi tính giá trị p. Điều này dẫn đến sự sửa đổi sau đây cho lý do:

(a) giả thuyết khống (Muriel đang đoán) là đúng và xác suất của các sự kiện là, hoặc hơn, cực đoan hơn mức quan sát được là nhỏ, hoặc

(b) giả thuyết khống là sai và Muriel có quyền phân biệt đối xử.

Quay lại thí nghiệm về trà của chúng tôi và chúng tôi thấy rằng giá trị p trong thiết lập này là 7 (0,5) ^ 6 = 0.109 vẫn không đáng kể ở ngưỡng 5%.

Sau đó, tôi sẽ cho sinh viên làm việc với một số ví dụ khác như tung đồng xu để tìm hiểu xem một đồng xu có công bằng hay không. Điều này diễn ra các khái niệm về giả thuyết không / thay thế, giá trị p và mức ý nghĩa. Sau đó chúng tôi chuyển sang trường hợp của một biến liên tục và đưa ra khái niệm về thống kê kiểm tra. Như chúng ta đã đề cập đến phân phối bình thường, phân phối chuẩn thông thường và chuyển đổi z theo chiều sâu, đó chỉ là vấn đề liên kết một số khái niệm.

Cũng như tính toán thống kê kiểm tra, giá trị p và đưa ra quyết định (đáng kể / không đáng kể), tôi bắt học sinh làm việc thông qua các bài báo được xuất bản để điền vào trò chơi trống bị thiếu.


2
Tôi biết tôi phần nào làm sống lại một chủ đề rất cũ, nhưng ở đây nó ... Tôi thực sự rất thích câu trả lời của bạn, nhưng tôi bỏ lỡ phần giá trị t trong đó :( Bạn có thể vui lòng sử dụng các ví dụ đã cho của mình để nói về nó không? Không ai trả lời về phần kiểm tra t
Sosi

@sosi Có lẽ vì giá trị p chung hơn nhiều so với giá trị t. Nó giống như hỏi một câu hỏi về xe hơi và sau đó về hệ thống phanh trên Ford Fiesta.
phỏng đoán

2
ppp

27

Không có lời giải thích hay tính toán bằng lời nói nào thực sự giúp tôi hiểu được ở mức độ giá trị p là gì, nhưng nó thực sự tập trung vào tôi khi tôi tham gia một khóa học liên quan đến mô phỏng. Điều đó cho tôi khả năng thực sự nhìn thấy dữ liệu được tạo ra bởi giả thuyết null và vẽ đồ thị phương tiện / v.v. của các mẫu mô phỏng, sau đó nhìn vào nơi thống kê mẫu của tôi rơi vào phân phối đó.

Tôi nghĩ lợi thế chính của việc này là nó cho phép học sinh quên đi toán học và các phân phối thống kê kiểm tra trong một phút và tập trung vào các khái niệm trong tay. Cấp, tôi yêu cầu tôi học cách mô phỏng thứ đó, điều này sẽ gây ra vấn đề cho một nhóm học sinh hoàn toàn khác. Nhưng nó đã làm việc cho tôi và tôi đã sử dụng mô phỏng vô số lần để giúp giải thích các số liệu thống kê cho những người khác rất thành công (ví dụ: "Đây là dữ liệu của bạn trông như thế nào; đây là bản phân phối Poisson trông giống như được phủ lên. Bạn có muốn để thực hiện hồi quy Poisson? ").

Điều này không trả lời chính xác các câu hỏi bạn đặt ra, nhưng đối với tôi, ít nhất, nó làm cho chúng trở nên tầm thường.


10
Tôi hoàn toàn đồng ý về việc sử dụng mô phỏng để giải thích điều này. Nhưng chỉ cần một lưu ý nhỏ trên ví dụ ở cuối: Tôi thấy rằng mọi người (không chỉ là sinh viên) làm cảm thấy khó khăn để phân biệt đối với bất kỳ giả định phân phối đặc biệt, ví dụ như Poisson, giữa là nhẹ Poisson phân phối và là điều kiện Poisson phân phối. Vì chỉ có vấn đề thứ hai đối với mô hình hồi quy, nên một loạt các giá trị biến phụ thuộc mà không cần poisson không nhất thiết phải là nguyên nhân gây lo ngại.
liên hợp chiến binh

1
Tôi phải thú nhận rằng tôi đã không biết điều đó. Tôi thực sự đánh giá cao ý kiến ​​của bạn trên trang web này trong vài ngày qua về tư cách thành viên của bạn - Tôi hy vọng bạn sẽ tiếp tục.
Matt Parker

@MattParker bạn có biết về bất kỳ tài nguyên học tập nào tập trung vào việc sử dụng mô phỏng để phát triển sự hiểu biết không? Hay đó chỉ là một trường hợp đặt một số kịch bản python / R lại với nhau và chạy một loạt các thử nghiệm?
baxx

1
@baxx [Trang web lý thuyết của Daniel Kunin] (student.brown.edu/ecting-theory/) có một số công cụ thú vị cho việc này, nhưng nó vẫn đang được xây dựng. Mặt khác, vâng, tôi hầu như chỉ thử nghiệm các công cụ tích hợp của R để mô phỏng - sử dụng chúng để chứng minh cho bản thân cách thức một số phương thức hoạt động hoặc để xem điều gì sẽ xảy ra nếu một công cụ dự đoán được thay thế bằng một biến ngẫu nhiên, v.v. Xin lỗi, Tôi ước tôi biết các nguồn lực tốt hơn cho việc này!
Matt Parker

@MattParker cảm ơn rất nhiều. Vâng - một chút của một con gà và quả trứng trong đó, để xây dựng các thí nghiệm mà bạn (tôi giả sử?) Ít nhất cần phải có đủ để viết chúng. Đừng lo lắng mặc dù ..... Chỉ cần kiểm tra trang web mà bạn đã liên kết, thật tuyệt, cảm ơn
baxx

16

Một định nghĩa hay về giá trị p là "xác suất quan sát thống kê kiểm tra ít nhất lớn bằng giá trị giả định giả định null là đúng".

Vấn đề với điều đó là nó đòi hỏi sự hiểu biết về "thống kê kiểm tra" và "giả thuyết khống". Nhưng, đó là dễ dàng để vượt qua. Nếu giả thuyết null là đúng, thường thì một cái gì đó như "tham số từ dân số A bằng với tham số từ dân số B" và bạn tính toán các số liệu thống kê để ước tính các tham số đó, xác suất nhìn thấy một thống kê kiểm tra cho biết, "chúng là gì khác nhau"?

Ví dụ: Nếu đồng xu công bằng, xác suất tôi thấy 60 đầu trong số 100 lần tung là bao nhiêu? Đó là kiểm tra giả thuyết khống, "đồng tiền là công bằng" hoặc "p = .5" trong đó p là xác suất của người đứng đầu.

Thống kê kiểm tra trong trường hợp đó sẽ là số lượng người đứng đầu.

Bây giờ, tôi giả định rằng cái mà bạn gọi là "t-value" là "thống kê kiểm tra" chung chung, không phải là giá trị từ "phân phối t". Chúng không giống nhau và thuật ngữ "giá trị t" không (nhất thiết) được sử dụng rộng rãi và có thể gây nhầm lẫn.

Cái mà bạn gọi là "giá trị t" có lẽ là cái mà tôi gọi là "thống kê kiểm tra". Để tính giá trị p (hãy nhớ, đó chỉ là xác suất) bạn cần có phân phối và giá trị để cắm vào phân phối đó sẽ trả về xác suất. Khi bạn làm điều đó, xác suất bạn trả về là giá trị p của bạn. Bạn có thể thấy rằng chúng có liên quan vì trong cùng một phân phối, các thống kê kiểm tra khác nhau sẽ trả về các giá trị p khác nhau. Thống kê kiểm tra cực đoan hơn sẽ trả về giá trị p thấp hơn cho thấy giả thuyết null là sai.

Tôi đã bỏ qua vấn đề giá trị p một mặt và hai mặt ở đây.


11

Hãy tưởng tượng bạn có một túi chứa 900 viên bi đen và 100 viên bi trắng, tức là 10% số viên bi có màu trắng. Bây giờ hãy tưởng tượng bạn lấy 1 viên bi ra, nhìn vào nó và ghi lại màu của nó, lấy ra một cái khác, ghi lại màu của nó, v.v. và làm điều này 100 lần. Vào cuối quá trình này, bạn sẽ có một số viên bi trắng, lý tưởng nhất là chúng ta mong đợi là 10, tức là 10% của 100, nhưng thực tế có thể là 8, hoặc 13 hoặc bất cứ điều gì đơn giản là do ngẫu nhiên. Nếu bạn lặp lại thí nghiệm rút 100 viên đá cẩm thạch này nhiều lần, sau đó vẽ biểu đồ số lượng viên bi trắng được rút ra cho mỗi thí nghiệm, bạn sẽ thấy bạn sẽ có Bell Curve tập trung vào khoảng 10.

Điều này thể hiện giả thuyết 10% của bạn: với bất kỳ túi nào chứa 1000 viên bi trong đó 10% là màu trắng, nếu bạn ngẫu nhiên lấy ra 100 viên bi, bạn sẽ tìm thấy 10 viên bi trắng trong lựa chọn, cho hoặc lấy 4 viên bi. Giá trị p là tất cả về điều này "cho hoặc nhận 4 hoặc hơn." Giả sử bằng cách tham khảo Đường cong Bell được tạo trước đó, bạn có thể xác định rằng ít hơn 5% thời gian bạn sẽ nhận được 5 viên bi trắng trở xuống và <5% thời gian khác chiếm từ 15 viên bi trắng trở lên, tức là> 90% thời gian lựa chọn 100 viên bi của bạn sẽ chứa từ 6 đến 14 viên bi trắng.

Bây giờ giả sử ai đó hạ bệ một túi 1000 viên bi với số bi trắng không xác định trong đó, chúng tôi có các công cụ để trả lời những câu hỏi này

i) Có ít hơn 100 viên bi trắng không?

ii) Có hơn 100 viên bi trắng không?

iii) Túi có chứa 100 viên bi trắng không?

Đơn giản chỉ cần lấy ra 100 viên bi từ túi và đếm xem có bao nhiêu mẫu này có màu trắng.

a) Nếu có từ 6 đến 14 lòng trắng trong mẫu, bạn không thể bác bỏ giả thuyết rằng có 100 viên bi trắng trong túi và giá trị p tương ứng từ 6 đến 14 sẽ> 0,05.

b) Nếu có 5 hoặc ít hơn lòng trắng trong mẫu, bạn có thể bác bỏ giả thuyết rằng có 100 viên bi trắng trong túi và giá trị p tương ứng cho 5 hoặc ít hơn sẽ <0,05. Bạn sẽ mong đợi chiếc túi chứa <10% viên bi trắng.

c) Nếu có từ 15 lòng trắng trở lên trong mẫu, bạn có thể bác bỏ giả thuyết rằng có 100 viên bi trắng trong túi và giá trị p tương ứng cho 15 hoặc nhiều hơn sẽ là <0,05. Bạn sẽ mong đợi chiếc túi chứa> 10% viên bi trắng.

Đáp lại bình luận của Baltimark

Cho ví dụ trên, có khoảng: -

4,8% cơ hội nhận được 5 quả bóng trắng hoặc ít hơn

1,85% cơ hội từ 4 trở xuống

0,55% cơ hội từ 3 trở xuống

0,1% cơ hội từ 2 trở xuống

6,25% cơ hội từ 15 trở lên

3,25% cơ hội từ 16 trở lên

1,5% cơ hội từ 17 trở lên

0,65% cơ hội từ 18 trở lên

0,25% cơ hội từ 19 trở lên

0,1% cơ hội từ 20 trở lên

0,05% cơ hội từ 21 trở lên

Những con số này được ước tính từ một phân phối theo kinh nghiệm được tạo ra bởi một quy trình đơn giản Monte Carlo chạy trong R và các lượng tử kết quả của phân phối lấy mẫu.

Với mục đích trả lời câu hỏi ban đầu, giả sử bạn vẽ 5 quả bóng trắng, chỉ có 4,8% khả năng là nếu 1000 túi đá cẩm thạch thực sự chứa 10% bóng trắng, bạn sẽ chỉ rút ra 5 quả trắng trong mẫu 100. Điều này tương đương với giá trị ap <0,05. Bây giờ bạn phải chọn giữa

i) Thực sự có 10% bóng trắng trong túi và tôi đã "không may mắn" khi rút được rất ít

hoặc là

ii) Tôi đã vẽ rất ít quả bóng trắng đến nỗi thực sự không thể có 10% quả bóng trắng (bác bỏ giả thuyết về quả bóng trắng 10%)


Trước hết, đây chỉ là một ví dụ lớn và không thực sự giải thích giải thích khái niệm giá trị p và thống kê kiểm tra. Thứ hai, bạn chỉ tuyên bố rằng nếu bạn nhận được ít hơn 5 hoặc nhiều hơn 15 viên bi trắng, bạn sẽ từ chối giả thuyết khống. Phân phối của bạn mà bạn đang tính toán các xác suất đó là gì? Điều này có thể được xấp xỉ với một dist bình thường. tập trung ở mức 10, với độ lệch chuẩn là 3. Tiêu chí từ chối của bạn không đủ nghiêm ngặt.
Baltimark

Tôi đồng ý rằng đây chỉ là một ví dụ, và tôi đúng là tôi chỉ chọn các số 5 và 15 trên không cho mục đích minh họa. Khi có thời gian tôi sẽ đăng câu trả lời thứ hai, mà tôi hy vọng sẽ hoàn thiện hơn.
babelproofreader

10

Giá trị p không cho bạn biết khả năng giả thuyết null là đúng như thế nào. Trong khuôn khổ kiểm tra ý nghĩa thông thường (Fisher), trước tiên chúng tôi tính toán khả năng quan sát dữ liệu giả định giả thuyết null là đúng, đây là giá trị p. Có vẻ hợp lý theo trực giác khi giả định giả thuyết null có thể là sai nếu dữ liệu đủ khó có thể được quan sát theo giả thuyết null. Điều này là hoàn toàn hợp lý. Các nhà thống kê thường sử dụng một ngưỡng và "bác bỏ giả thuyết khống ở mức ý nghĩa 95%" nếu (1 - p)> 0,95; tuy nhiên đây chỉ là một quy ước đã được chứng minh hợp lý trong thực tế - điều đó không có nghĩa là có ít hơn 5% xác suất giả thuyết null là sai (và do đó xác suất 95% cho rằng giả thuyết thay thế là đúng).

Hình ảnh một hàm f () ánh xạ giá trị p vào xác suất giả thuyết thay thế là đúng. Sẽ là hợp lý khi khẳng định rằng hàm này đang giảm nghiêm ngặt (sao cho các quan sát theo giả thuyết null càng có nhiều khả năng, thì giả thuyết thay thế càng ít đúng) và nó đưa ra các giá trị từ 0 đến 1 (vì nó đưa ra ước tính xác suất). Tuy nhiên, đó là tất cả những gì chúng ta biết về f (), vì vậy trong khi có mối quan hệ giữa p và xác suất giả thuyết thay thế là đúng, nó không được hiệu chỉnh. Điều này có nghĩa là chúng ta không thể sử dụng giá trị p để đưa ra các tuyên bố định lượng về tính hợp lý của các giả thuyết nulll và xen kẽ.

Người kiểm tra cẩn thận: Thực sự không nằm trong khuôn khổ thường xuyên để nói về xác suất giả thuyết là đúng, vì đó không phải là một biến ngẫu nhiên - nó là đúng hoặc không đúng. Vì vậy, nơi tôi đã nói về xác suất của sự thật của một giả thuyết, tôi đã hoàn toàn chuyển sang một cách giải thích Bayes. Việc kết hợp Bayesian và người thường xuyên là không chính xác, tuy nhiên luôn có một sự cám dỗ để làm điều đó vì điều chúng ta thực sự muốn là một chỉ số định lượng về tính hợp lý / xác suất tương đối của các giả thuyết. Nhưng đây không phải là những gì giá trị p cung cấp.


7

Trong thống kê, bạn không bao giờ có thể nói điều gì đó là hoàn toàn chắc chắn, vì vậy các nhà thống kê sử dụng một cách tiếp cận khác để đánh giá xem một giả thuyết có đúng hay không. Họ cố gắng từ chối tất cả các giả thuyết khác không được dữ liệu hỗ trợ.

Để làm điều này, các kiểm tra thống kê có một giả thuyết không và một giả thuyết thay thế. Giá trị p được báo cáo từ một kiểm tra thống kê là khả năng kết quả cho rằng giả thuyết null là chính xác. Đó là lý do tại sao chúng tôi muốn giá trị p nhỏ. Chúng càng nhỏ, kết quả sẽ càng ít xảy ra nếu giả thuyết null là chính xác. Nếu giá trị p đủ nhỏ (nghĩa là rất khó xảy ra kết quả xảy ra nếu giả thuyết null là chính xác), thì giả thuyết null bị từ chối.

Theo cách này, các giả thuyết null có thể được đưa ra và sau đó bị từ chối. Nếu giả thuyết khống bị bác bỏ, bạn chấp nhận giả thuyết thay thế là lời giải thích tốt nhất. Chỉ cần nhớ rằng giả thuyết thay thế là không bao giờ chắc chắn, vì giả thuyết null có thể có, ngẫu nhiên, đã tạo ra kết quả.


Pr(Tt|H0)Pr(T= =t|H0)

5

Tôi hơi khác thường để làm sống lại chủ đề cũ, nhưng tôi đã nhảy từ đây , vì vậy tôi đăng bài này như một câu trả lời cho câu hỏi trong liên kết.

Giá trị p là một thuật ngữ cụ thể, không nên có chỗ cho sự hiểu lầm. Nhưng, bằng cách nào đó thần bí rằng các bản dịch thông tục về định nghĩa giá trị p dẫn đến nhiều cách hiểu sai khác nhau. Tôi nghĩ rằng gốc rễ của vấn đề là trong việc sử dụng các cụm từ "ít nhất là bất lợi cho giả thuyết null" hoặc "ít nhất là cực đoan như trong dữ liệu mẫu của bạn", v.v.

Chẳng hạn, Wikipedia nói

... Giá trị p là xác suất thu được kết quả mẫu quan sát được (hoặc kết quả cực đoan hơn) khi giả thuyết null thực sự đúng.

p

Tôi nghĩ tốt hơn là để lại "kết quả cực đoan hơn" cho một cái gì đó như hành động nói gián tiếp . Vì vậy, tôi mất

Giá trị p là xác suất nhìn thấy những gì bạn nhìn thấy trong một "thế giới tưởng tượng" nơi giả thuyết null là đúng.

xμ0= =20VIẾT SAI RỒI(20,1)

x
#[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647
#[7] 18.94962 17.99331 19.22598 18.68633

t0= =viết sai rồiX¯-μ0S

sqrt(10) * (mean(x) - 20) / sd(x)  
#-2.974405

|t0|t0~t(9)

p-vmộttôibạne= =Pr(|t0|2,97)= =0,01559054
2*(1 - pt(2.974405, 9))
#[1] 0.01559054

Vì giá trị p là nhỏ, rất khó có khả năng mẫu xđược vẽ trong thế giới giả thuyết. Do đó, chúng tôi kết luận rằng rất khó có khả năng thế giới giả thuyết trên thực tế là thế giới thực.


2
+1, nhưng khi bạn viết "xác suất nhìn thấy những gì bạn thấy" và bỏ qua phần "cực đoan hơn", câu này trở thành nói sai một cách nghiêm túc (và có khả năng gây hiểu lầm, ngay cả khi có lẽ ít gây nhầm lẫn hơn). Nó không phải là xác suất để nhìn thấy những gì bạn nhìn thấy (điều này thường bằng không). Đó là xác suất để thấy những gì bạn thấy "hoặc cực đoan hơn". Mặc dù điều này có thể là một chút khó hiểu đối với nhiều người, nó vẫn rất quan trọng (và người ta có thể tranh luận không ngừng về mức độ chủ quan ẩn đằng sau từ ngữ "cực đoan hơn" này).
amip

@amoeba Tôi nghĩ, khi cung cấp đầy đủ ví dụ, nó có thể đóng vai trò là ủy quyền để "lấy kết quả mẫu quan sát được (hoặc kết quả cực đoan hơn)". Có lẽ, từ ngữ tốt hơn là cần thiết.
Khashaa

1
Tôi sẽ thực hiện quan sát tương tự như @amoeba; phần "hoặc cực đoan hơn" được xử lý tốt bằng ví dụ về độ cao của học sinh và câu trả lời của bữa tiệc trà, nhưng tôi không nghĩ bất kỳ câu trả lời nào trong chủ đề này đã đưa ra một lời giải thích chung rõ ràng về nó, đặc biệt là một câu hỏi bao gồm các giả thuyết khác nhau. Tôi đồng ý với câu trả lời này cho thấy phần "cực đoan hơn" là một điểm gắn bó về mặt khái niệm đối với nhiều sinh viên.
Cá bạc

@Silverfish: và không chỉ sinh viên. Tôi đã đọc được bao nhiêu lời tán dương của Bayesian so với những người thường xuyên nói về vấn đề chủ quan / khách quan của bit "cực đoan" này!
amip

1
@Silver Tôi đồng ý với những lời chỉ trích của bạn và đã đăng một câu trả lời cố gắng giải quyết nó. "Hoặc cực đoan hơn" là mấu chốt của vấn đề.
whuber

4

Tôi thấy hữu ích khi theo dõi một chuỗi trong đó bạn giải thích các khái niệm theo thứ tự sau: (1) Điểm z và tỷ lệ trên và dưới điểm z giả sử đường cong bình thường. (2) Khái niệm phân phối mẫu và điểm z cho một mẫu nhất định có nghĩa là khi độ lệch chuẩn dân số được biết (và từ đó là một thử nghiệm z mẫu) (3) Thử nghiệm t một mẫu và khả năng của một mẫu có nghĩa là khi độ lệch chuẩn dân số không xác định (đầy đủ với những câu chuyện về danh tính bí mật của một nhà thống kê công nghiệp nhất định và tại sao Guinness tốt cho thống kê). (4) Thử nghiệm t hai mẫu và phân phối mẫu của chênh lệch trung bình. Sự dễ dàng mà các sinh viên giới thiệu nắm bắt bài kiểm tra t có liên quan nhiều đến nền tảng được đặt ra để chuẩn bị cho chủ đề này.

/ * người hướng dẫn chế độ sinh viên sợ hãi tắt * /


4

Tôi cũng đã tìm thấy mô phỏng là một hữu ích trong giảng dạy.

viết sai rồiVIẾT SAI RỒI(μ,1)σ2= =1H0:μ= =μ0

ttstat: =viết sai rồi(X¯-μ0)VIẾT SAI RỒI(0,1)H0pΦ(tstat)pnorm(tstat)

VIẾT SAI RỒI(μ0,1)μ0= =2nullMeans

# p value
set.seed(1)
reps <- 1000
n <- 100      
mu <- 1.85 # true value
mu_0 <- 2 # null value
xaxis <- seq(-3, 3, length = 100)

X <- rnorm(n,mu)

nullMeans <- counter <- rep(NA,reps)

yvals <- jitter(rep(0,reps),2)

for (i in 1:reps)
{  
  tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions

  par(mfrow=c(1,3))
  plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l")
  points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon")

  X_null <- rnorm(n,mu_0) # generate data under H_0
  nullMeans[i] <- mean(X_null)

  plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt='n',ylim=c(-1,1),xlim=c(1.5,2.5))
  abline(v=mu_0,lty=2)
  points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon")

  # counts 1 if sample generated under H_0 is more extreme:
  counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0
  barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed")

  if(i<10) locator(1)
}
mean(counter)
pnorm(tstat)

0

"Giá trị p" nghĩa là gì liên quan đến giả thuyết đang được thử nghiệm?

Trong một ý nghĩa bản thể học (sự thật là gì?), Nó không có nghĩa . Bất kỳ thử nghiệm giả thuyết nào đều dựa trên các giả định chưa được kiểm chứng . Đây thường là một phần của thử nghiệm, nhưng cũng là một phần của bất kỳ mô hình nào bạn đang sử dụng (ví dụ: trong mô hình hồi quy). Vì chúng tôi chỉ đơn thuần giả định những điều này, chúng tôi không thể biết liệu lý do tại sao giá trị p nằm dưới ngưỡng của chúng tôi là vì null là sai. Nó là một sequitur không để suy luận vô điều kiện rằng vì một giá trị p thấp, chúng tôi phải từ chối null. Ví dụ, một cái gì đó trong mô hình có thể sai.

Trong một ý nghĩa nhận thức luận (chúng ta có thể học được gì?), Nó có nghĩa là một cái gì đó . Bạn có được kiến ​​thức có điều kiện trên các cơ sở chưa được kiểm tra là đúng. Vì (ít nhất là cho đến bây giờ) chúng tôi không thể chứng minh mọi dinh dưỡng của thực tế, tất cả kiến ​​thức của chúng tôi sẽ nhất thiết phải có điều kiện. Chúng tôi sẽ không bao giờ đi đến "sự thật".


-1

Tôi nghĩ rằng các ví dụ liên quan đến viên bi hoặc đồng xu hoặc đo chiều cao có thể tốt cho việc thực hành toán học, nhưng chúng không tốt cho việc xây dựng trực giác. Sinh viên đại học thích đặt câu hỏi xã hội, phải không? Làm thế nào về việc sử dụng một ví dụ chính trị?

Nói rằng một ứng cử viên chính trị đã chạy một chiến dịch hứa hẹn rằng một số chính sách sẽ giúp nền kinh tế. Cô được bầu, cô đã ban hành chính sách và 2 năm sau, nền kinh tế đang bùng nổ. Cô ấy đã tái tranh cử và tuyên bố rằng chính sách của cô ấy là lý do cho sự thịnh vượng của mọi người. Bạn có nên bầu lại cô ấy?

Công dân chu đáo nên nói "tốt, đúng là nền kinh tế đang hoạt động tốt, nhưng chúng ta có thể thực sự gán điều đó cho chính sách của bạn không?" Để thực sự trả lời điều này, chúng ta phải xem xét câu hỏi "liệu nền kinh tế có hoạt động tốt trong 2 năm qua mà không có nó?" Nếu câu trả lời là có (ví dụ nền kinh tế đang bùng nổ vì một số phát triển công nghệ mới không liên quan) thì chúng tôi từ chối giải thích về dữ liệu của chính trị gia.

Đó là, để xem xét một giả thuyết (chính sách giúp ích cho nền kinh tế), chúng ta phải xây dựng một mô hình của thế giới nơi giả thuyết đó là vô giá trị (chính sách không bao giờ được ban hành). Sau đó chúng tôi đưa ra một dự đoán theo mô hình đó. Chúng tôi gọi xác suất quan sát dữ liệu này trong thế giới thay thế đó là giá trị p . Nếu giá trị p quá cao, thì chúng tôi không bị thuyết phục bởi giả thuyết - chính sách không có sự khác biệt. Nếu giá trị p thấp thì chúng tôi tin tưởng vào giả thuyết - chính sách là điều cần thiết.


1
Tôi không đồng ý với p được định nghĩa là "Chúng tôi gọi xác suất quan sát dữ liệu này trong thế giới thay thế đó là giá trị p" và cũng là sức mạnh của kết luận được rút ra (đặc biệt là không từ chối null).
Cá bạc

@Silverfish Bạn có thể giải thích? Có lẽ sẽ đúng hơn nếu gọi giá trị p là xác suất thực hiện quan sát đó HOẶC quan sát cực đoan hơn. Nhưng có vẻ như bạn có một lời chỉ trích sâu sắc hơn.
màu xanh lá cây

1
Vì câu hỏi ban đầu là hỏi giá trị p là gì, tôi nghĩ rằng việc định nghĩa rõ ràng là rất quan trọng. Chỉ nói "cực đoan hơn" không phải là rất hữu ích mà không giải thích "cực đoan hơn" có nghĩa là gì - đó là điểm yếu của hầu hết các câu trả lời trong chủ đề này tôi nghĩ. Chỉ có câu trả lời của người da trắng và "bài kiểm tra trà" dường như thực sự giải thích tại sao vấn đề "cực đoan hơn" cũng vậy.
Cá bạc

Tôi cũng cảm thấy kết luận của bạn được đặt ra quá mạnh mẽ. Nếu chúng tôi từ chối null, chúng tôi có bằng chứng quan trọng chống lại nó, nhưng không biết rằng đó là sai. Khi chúng ta không từ chối null, điều đó chắc chắn không có nghĩa là null là đúng (mặc dù nó có thể đúng). Như một nhận xét tổng quát hơn, tôi có cảm giác bài kiểm tra mà bạn mô tả, về mặt khá trừu tượng, dường như không rõ ràng đối với người học chỉ đang học cách thực hiện bài kiểm tra. Việc thiếu một thống kê kiểm tra được xác định rõ ràng không phù hợp với câu hỏi ban đầu hỏi làm thế nào để giải thích t -statistic quá.
Cá bạc

Một tính năng của câu trả lời này tôi rất thích là giải thích rõ ràng rằng giá trị p được tính bằng mô hình null, ngay cả khi chúng tôi không (chủ quan) tin rằng mô hình null thực sự là đúng. Tôi nghĩ rằng số liệu thống kê kiểm tra thực tế được tính theo một mô hình là một điểm quan trọng mà nhiều sinh viên phải vật lộn với.
Cá bạc

-1

p

pX

0c1,ĐỤX|H0(thông tin{x:ĐỤX|H0(x)c})= =c
ĐỤX|H0XH0

X

  1. p[0,1]
  2. [0,1]p

p


P

@whuber Cảm ơn bạn đã nhập. Tôi đã chỉnh sửa định nghĩa, và nó sẽ có ý nghĩa hơn bây giờ!
nalzok

1
X[0,1].

(θ,θ+1)θR,θ= =0,X= =(X1,Giáo dục,Xviết sai rồi).X(X)= =X1.[0,1]H0:viết sai rồi= =1X1= =-2:-2

-4

Giá trị p không bí ẩn như hầu hết các nhà phân tích đưa ra. Đó là một cách không phải tính khoảng tin cậy cho kiểm tra t mà chỉ đơn giản là xác định mức độ tin cậy mà giả thuyết null có thể bị bác bỏ.

HÌNH MINH HỌA. Bạn chạy thử. Giá trị p tăng lên là 0,1866 cho biến Q, 0,0023 cho biến R. (Chúng được biểu thị bằng%).

Nếu bạn đang kiểm tra ở mức độ tin cậy 95% để từ chối hypo null;

cho Q: 100-18,66 = 81,34%

cho R: 100-0,23 = 99,77%.

Ở mức độ tin cậy 95%, Q cung cấp độ tin cậy 81,34% để từ chối. Điều này giảm xuống dưới 95% và không thể chấp nhận được. CHẤP NHẬN NULL.

R cung cấp độ tin cậy 99,77% để từ chối null. Rõ ràng trên 95% mong muốn. Do đó, chúng tôi từ chối null.

Tôi chỉ minh họa việc đọc giá trị p thông qua 'cách ngược' để đo lường nó đến mức độ tin cậy mà tại đó chúng tôi từ chối hypo null.


6
QR

@cardinal chỉ ra một điểm quan trọng. Bạn sẽ không chấp nhận null.
Patrick Coulombe

-8

****** giá trị p trong kiểm tra giả thuyết đo độ nhạy của kiểm tra. Giá trị p càng thấp thì độ nhạy càng lớn. nếu mức ý nghĩa được đặt ở 0,05 thì giá trị p là 0,0001 cho thấy xác suất cao của kết quả kiểm tra là chính xác ******


6
-1 Điều này rõ ràng là sai. Bạn có thể muốn đọc các câu trả lời được bình chọn cao hơn đầu tiên.
Momo
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.