Một cuộc đối thoại giữa một giáo viên và một học sinh chu đáo
Khiêm tốn gửi với niềm tin rằng không đủ bút chì màu đã được sử dụng cho đến nay trong chủ đề này. Một bản tóm tắt minh họa ngắn gọn xuất hiện ở cuối.
Học sinh : Giá trị p có nghĩa là gì? Rất nhiều người dường như đồng ý rằng đó là cơ hội chúng ta sẽ "thấy một mẫu có nghĩa lớn hơn hoặc bằng" một thống kê hoặc đó là "xác suất quan sát kết quả này ... đưa ra giả thuyết null là đúng" hoặc trong đó "thống kê mẫu của tôi rơi vào phân phối [mô phỏng] và thậm chí "xác suất quan sát thống kê kiểm tra ít nhất lớn bằng mức tính toán giả định giả thuyết null là đúng" .
Giáo viên : Hiểu đúng, tất cả những tuyên bố đó là chính xác trong nhiều trường hợp.
Sinh viên : Tôi không thấy hầu hết trong số họ có liên quan. Bạn không dạy chúng tôi rằng chúng ta phải nêu ra một giả thuyết và một giả thuyết thay thế H A ? Làm thế nào họ tham gia vào những ý tưởng "lớn hơn hoặc bằng" hoặc "ít nhất là lớn" hoặc "cực đoan" rất phổ biến?H0HMột
Giáo viên : Bởi vì nó có vẻ phức tạp nói chung, nó sẽ giúp chúng ta khám phá một ví dụ cụ thể?
Học sinh : Chắc chắn rồi. Nhưng hãy làm cho nó thực tế nhưng đơn giản nếu bạn có thể.
Giáo viên : Lý thuyết kiểm định giả thuyết này trong lịch sử bắt đầu với sự cần thiết của các nhà thiên văn học để phân tích các lỗi quan sát, vậy bắt đầu từ đó như thế nào. Một ngày nọ, tôi đã trải qua một số tài liệu cũ, nơi một nhà khoa học mô tả những nỗ lực của ông để giảm lỗi đo lường trong bộ máy của mình. Ông đã thực hiện rất nhiều phép đo của một ngôi sao ở một vị trí đã biết và ghi lại sự dịch chuyển của chúng trước hoặc sau vị trí đó. Để hình dung những sự dịch chuyển đó, anh ta đã vẽ một biểu đồ mà - khi được làm nhẵn một chút - trông giống như cái này.
Học sinh : Tôi nhớ cách biểu đồ hoạt động: trục dọc được gắn nhãn "Mật độ" để nhắc nhở tôi rằng tần số tương đối của các phép đo được biểu thị theo diện tích thay vì chiều cao.
Giáo viên : Đúng vậy. Giá trị "bất thường" hoặc "cực đoan" sẽ nằm ở khu vực có diện tích khá nhỏ. Đây là một cây bút chì. Bạn có nghĩ rằng bạn có thể tô màu trong một khu vực có diện tích chỉ bằng một phần mười?
Học sinh : Chắc chắn; thật dễ dàng [Màu sắc trong hình.]
Giáo viên : Rất tốt! Có vẻ như khoảng 10% diện tích đối với tôi. Tuy nhiên, hãy nhớ rằng các khu vực duy nhất trong biểu đồ là vấn đề nằm giữa các đường thẳng đứng: chúng đại diện cho cơ hội hoặc xác suất mà sự dịch chuyển sẽ nằm giữa các đường thẳng trên trục hoành. Điều đó có nghĩa là bạn cần tô màu xuống tận đáy và đó sẽ là hơn một nửa diện tích, phải không?
Học sinh : Ồ, tôi hiểu rồi. Hãy để tôi thử lại. Tôi sẽ muốn tô màu ở nơi đường cong thực sự thấp, phải không? Nó thấp nhất ở hai đầu. Tôi có phải tô màu chỉ trong một khu vực không hay có thể chia thành nhiều phần không?
Giáo viên : Sử dụng một số phần là một ý tưởng thông minh. Họ sẽ ở đâu?
Học sinh (chỉ): Đây và đây. Bởi vì bút chì màu này không quá sắc nét, tôi đã sử dụng một cây bút để cho bạn thấy những dòng tôi đang sử dụng.
Giáo viên : Rất hay! Hãy để tôi kể cho bạn phần còn lại của câu chuyện. Nhà khoa học đã thực hiện một số cải tiến cho thiết bị của mình và sau đó anh ta thực hiện các phép đo bổ sung. Ông viết rằng sự dịch chuyển của cái đầu tiên chỉ là , mà ông nghĩ là một dấu hiệu tốt, nhưng là một nhà khoa học cẩn thận, ông đã tiến hành thực hiện nhiều phép đo hơn như một kiểm tra. Thật không may, những phép đo khác bị mất - bản thảo bị hỏng vào thời điểm này - và tất cả những gì chúng ta có là con số duy nhất đó là 0,1 .0.10.1
Học sinh : Điều đó thật tệ. Nhưng điều đó có tốt hơn nhiều so với sự lan rộng của các chuyển vị trong hình của bạn không?
Giáo viên : Đó là câu hỏi tôi muốn bạn trả lời. Để bắt đầu, chúng ta nên đặt tên là gì?H0
Học sinh : Chà, một người hoài nghi sẽ tự hỏi liệu những cải tiến được thực hiện cho thiết bị có ảnh hưởng gì không. Gánh nặng của bằng chứng là ở nhà khoa học: anh ta muốn chứng tỏ rằng sự hoài nghi là sai. Điều đó khiến tôi nghĩ rằng giả thuyết khống là không tốt cho nhà khoa học: nó nói rằng tất cả các phép đo mới - bao gồm giá trị mà chúng ta biết - phải hành xử như mô tả của biểu đồ đầu tiên. Hoặc thậm chí có thể tồi tệ hơn thế: chúng thậm chí có thể lan rộng hơn.0.1
Giáo viên : Tiếp tục, bạn đang làm tốt.
Học sinh : Và vì vậy, phương án thay thế là các phép đo mới sẽ ít được trải ra hơn, phải không?
Giáo viên : Rất tốt! Bạn có thể vẽ cho tôi một bức tranh về biểu đồ có ít lan truyền sẽ trông như thế nào không? Đây là một bản sao khác của biểu đồ đầu tiên; bạn có thể vẽ lên trên nó như một tài liệu tham khảo.
Học sinh (vẽ): Tôi đang sử dụng bút để phác thảo biểu đồ mới và tôi đang tô màu ở khu vực bên dưới nó. Tôi đã làm cho nó sao cho hầu hết các đường cong gần bằng 0 trên trục hoành và vì vậy phần lớn diện tích của nó gần giá trị (ngang) bằng 0: đó là những gì nó có nghĩa là ít trải ra hoặc chính xác hơn.
Giáo viên : Đó là một khởi đầu tốt. Nhưng hãy nhớ rằng một biểu đồ cho thấy cơ hội nên có tổng diện tích là . Do đó, tổng diện tích của biểu đồ đầu tiên là 1 . Bao nhiêu diện tích bên trong biểu đồ mới của bạn?11
Học sinh : Tôi chưa đến một nửa. Tôi thấy đó là một vấn đề, nhưng tôi không biết làm thế nào để khắc phục nó. Tôi nên làm gì?
Giáo viên : Bí quyết là làm cho biểu đồ mới cao hơn cũ để tổng diện tích của nó là . Ở đây, tôi sẽ chỉ cho bạn một phiên bản do máy tính tạo ra để minh họa.1
Học sinh : Tôi thấy: bạn đã kéo dài nó ra theo chiều dọc để hình dạng của nó không thực sự thay đổi nhưng bây giờ khu vực màu đỏ và khu vực màu xám (bao gồm cả phần bên dưới màu đỏ) là cùng một lượng.
Sư phụ : Phải. Bạn đang xem một bức tranh về giả thuyết null (màu xanh lam, trải ra) và một phần của giả thuyết thay thế (màu đỏ, với độ lan rộng ít hơn).
Học sinh : Bạn có ý nghĩa gì bởi "một phần" của sự thay thế? Có phải đó chỉ là giả thuyết thay thế?
Giáo viên : Thống kê và ngữ pháp dường như không trộn lẫn. :-) Nghiêm túc mà nói, ý nghĩa của một "giả thuyết" thường là cả một bộ khả năng lớn. Ở đây, giải pháp thay thế (như bạn đã nói rất rõ trước đây) là các phép đo "ít lan truyền" hơn trước. Nhưng ít hơn bao nhiêu ? Có nhiều khả năng. Ở đây, để tôi chỉ cho bạn một cái khác. Tôi vẽ nó với dấu gạch ngang màu vàng. Đó là ở giữa hai trước.
Học sinh : Tôi thấy: bạn có thể có mức độ lây lan khác nhau nhưng bạn không biết trước mức độ lây lan sẽ thực sự là bao nhiêu. Nhưng tại sao bạn lại tạo ra bóng mờ hài hước trong bức tranh này?
Giáo viên : Tôi muốn làm nổi bật biểu đồ khác nhau ở đâu và như thế nào. Tôi tô màu chúng bằng màu xám trong đó các biểu đồ thay thế thấp hơn null và màu đỏ trong đó các lựa chọn thay thế cao hơn .
Học sinh : Tại sao điều đó lại quan trọng?
Giáo viên : Bạn có nhớ cách bạn tô màu biểu đồ đầu tiên ở cả hai đuôi không? [Nhìn qua các giấy tờ.] Ah, đây rồi. Hãy tô màu bức tranh này theo cùng một cách.
Học sinh : Tôi nhớ: đó là những giá trị cực đoan. Tôi tìm thấy những nơi có mật độ null nhỏ nhất có thể và được tô màu ở 10% diện tích ở đó.
Giáo viên : Hãy cho tôi biết về các lựa chọn thay thế trong các khu vực cực đoan.
Học sinh : Thật khó để nhìn thấy, bởi vì bút chì màu che phủ nó, nhưng có vẻ như gần như không có cơ hội nào cho những khu vực tôi tô màu. Biểu đồ của họ nằm ngay sát trục giá trị và không có chỗ cho bất kỳ khu vực nào bên dưới chúng.
Giáo viên : Hãy tiếp tục suy nghĩ đó. Nếu tôi nói với bạn, theo giả thuyết, một phép đo có độ dịch chuyển là , và yêu cầu bạn chọn một trong ba biểu đồ này là biểu đồ mà nó có khả năng nhất đến từ đâu, đó sẽ là gì?−2
Học sinh : Cái đầu tiên - cái màu xanh. Đó là sự lan rộng nhất và đó là người duy nhất trong đó dường như có bất kỳ cơ hội nào xảy ra.−2
Giáo viên : Còn giá trị trong bản thảo thì sao?0.1
Học sinh : Hmmm ... đó là một câu chuyện khác nhau. Cả ba biểu đồ đều khá cao so với mặt đất ở mức .0.1
Giáo viên : OK, đủ công bằng. Nhưng giả sử tôi đã nói với bạn giá trị ở đâu đó gần , như giữa và . Điều đó có giúp bạn đọc một số xác suất của các biểu đồ này không?0 0,20.100.2
Sinh viên : Chắc chắn, vì tôi có thể sử dụng các khu vực. Tôi chỉ phải ước tính các khu vực bên dưới mỗi đường cong từ đến . Nhưng điều đó có vẻ khá khó khăn.0,200.2
Giáo viên : Bạn không cần phải đi quá xa. Bạn có thể chỉ cho biết khu vực nào là lớn nhất?
Học sinh : Tất nhiên, bên dưới đường cong cao nhất. Tất cả ba khu vực có cùng một cơ sở, vì vậy đường cong càng cao, càng có nhiều khu vực bên dưới nó và cơ sở. Điều đó có nghĩa là biểu đồ cao nhất - biểu đồ mà tôi đã vẽ, với dấu gạch ngang màu đỏ - là biểu đồ thích hợp nhất cho độ dịch chuyển . Tôi nghĩ rằng tôi thấy bạn đang đi đâu với điều này, nhưng tôi hơi lo ngại: tôi không phải xem tất cả các biểu đồ cho tất cả các lựa chọn thay thế, không chỉ một hoặc hai được hiển thị ở đây? Làm thế nào tôi có thể làm điều đó?0.1
Giáo viên : Bạn rất giỏi trong việc chọn các mẫu, vì vậy hãy nói với tôi: vì bộ máy đo được chế tạo ngày càng chính xác, điều gì xảy ra với biểu đồ của nó?
Học sinh : Nó hẹp hơn - ồ, và nó cũng phải cao hơn, nên tổng diện tích của nó vẫn giữ nguyên. Điều đó làm cho nó khá khó để so sánh các biểu đồ. Những người thay thế là tất cả cao hơn null ngay tại , đó là hiển nhiên. Nhưng ở các giá trị khác đôi khi các lựa chọn thay thế cao hơn và đôi khi chúng thấp hơn! Ví dụ: [chỉ vào một giá trị gần ], ngay tại đây biểu đồ màu đỏ của tôi là thấp nhất, biểu đồ màu vàng là cao nhất và biểu đồ null ban đầu nằm giữa chúng. Nhưng bên phải null là cao nhất.3 / 403/4
Giáo viên : Nói chung, so sánh biểu đồ là một công việc phức tạp. Để giúp chúng tôi làm điều đó, tôi đã yêu cầu máy tính tạo ra một âm mưu khác: nó đã chia từng chiều cao biểu đồ thay thế (hoặc "mật độ") cho chiều cao biểu đồ null, tạo ra các giá trị được gọi là "tỷ lệ khả năng". Kết quả là, giá trị lớn hơn có nghĩa là sự thay thế có nhiều khả năng, trong khi giá trị nhỏ hơn có nghĩa là sự thay thế ít có khả năng hơn. Nó đã rút ra một lựa chọn khác: nó trải rộng hơn hai cái kia, nhưng vẫn ít lan rộng hơn bộ máy ban đầu.111
Giáo viên (tiếp tục): Bạn có thể chỉ cho tôi nơi các lựa chọn thay thế có xu hướng nhiều khả năng hơn null?
Học sinh (tô màu): Ở đây ở giữa, rõ ràng. Và bởi vì đây không phải là biểu đồ nữa, tôi đoán chúng ta nên nhìn vào độ cao hơn là các khu vực, vì vậy tôi chỉ đánh dấu một phạm vi các giá trị trên trục hoành. Nhưng làm thế nào để tôi biết bao nhiêu phần giữa để tô màu? Tôi dừng tô màu ở đâu?
Giáo viên : Không có quy tắc vững chắc. Tất cả phụ thuộc vào cách chúng ta dự định sử dụng kết luận của mình và sự hoài nghi dữ dội như thế nào. Nhưng hãy ngồi lại và suy nghĩ về những gì bạn đã đạt được: bây giờ bạn nhận ra rằng kết quả với tỷ lệ khả năng lớn là bằng chứng cho sự thay thế và kết quả với tỷ lệ khả năng nhỏ là bằng chứng chống lại sự thay thế. Những gì tôi sẽ yêu cầu bạn làm là tô màu trong một khu vực, trong chừng mực có thể, có một cơ hội nhỏ xảy ra theo giả thuyết null và cơ hội tương đối lớn xảy ra dưới các phương án. Quay trở lại sơ đồ đầu tiên bạn tô màu, quay trở lại khi bắt đầu cuộc trò chuyện của chúng tôi, bạn tô màu ở hai đuôi của null vì chúng "cực đoan". Họ vẫn sẽ làm một công việc tốt?
Học sinh : Tôi không nghĩ vậy. Mặc dù chúng khá cực đoan và hiếm theo giả thuyết khống, nhưng thực tế chúng không thể đối với bất kỳ giải pháp thay thế nào. Nếu số đo mới của tôi là, giả sử , tôi nghĩ rằng tôi sẽ đứng về phía hoài nghi và phủ nhận rằng bất kỳ cải thiện nào đã xảy ra, mặc dù là kết quả bất thường trong mọi trường hợp. Tôi muốn thay đổi màu sắc đó. Ở đây - hãy để tôi có một bút chì màu khác.3.03.03.0
Giáo viên : Điều đó thể hiện điều gì?
Sinh viên : Chúng tôi bắt đầu với bạn yêu cầu tôi vẽ chỉ trong 10% diện tích theo biểu đồ gốc - mô tả về null. Vì vậy, bây giờ tôi đã rút ra 10% diện tích nơi mà các lựa chọn thay thế dường như có nhiều khả năng xảy ra. Tôi nghĩ rằng khi một phép đo mới nằm trong khu vực đó, nó cho chúng ta biết rằng chúng ta nên tin vào sự thay thế.
Giáo viên : Và người hoài nghi nên phản ứng như thế nào với điều đó?
Học sinh : Một người hoài nghi không bao giờ phải thừa nhận mình sai, phải không? Nhưng tôi nghĩ đức tin của anh ấy nên bị lung lay một chút. Rốt cuộc, chúng tôi đã sắp xếp nó để mặc dù một phép đo có thể ở bên trong khu vực tôi vừa vẽ, nó chỉ có 10% cơ hội ở đó khi null là đúng. Và nó có cơ hội lớn hơn ở đó khi sự thay thế là đúng. Tôi chỉ không thể nói cho bạn biết cơ hội đó lớn hơn bao nhiêu, bởi vì nó sẽ phụ thuộc vào mức độ mà nhà khoa học đã cải thiện bộ máy. Tôi chỉ biết nó lớn hơn. Vì vậy, bằng chứng sẽ chống lại sự hoài nghi.
Giáo viên : Được rồi. Bạn có phiền khi tóm tắt sự hiểu biết của bạn để chúng tôi hoàn toàn rõ ràng về những gì bạn đã học?
Học sinh : Tôi đã học được rằng để so sánh các giả thuyết thay thế với các giả thuyết không, chúng ta nên so sánh biểu đồ của chúng. Chúng tôi chia mật độ của các lựa chọn thay thế theo mật độ của null: đó là cái mà bạn gọi là "tỷ lệ khả năng". Để làm một bài kiểm tra tốt, tôi nên chọn một con số nhỏ như 10% hoặc bất cứ điều gì có thể đủ để làm lung lay một người hoài nghi. Sau đó, tôi nên tìm các giá trị trong đó tỷ lệ khả năng càng cao càng tốt và tô màu chúng cho đến khi 10% (hoặc bất cứ điều gì) đã được tô màu.
Giáo viên : Và bạn sẽ sử dụng màu đó như thế nào?
Học sinh : Như bạn đã nhắc tôi trước đó, màu sắc phải nằm giữa các đường thẳng đứng. Các giá trị (trên trục hoành) nằm dưới màu là bằng chứng chống lại giả thuyết null. Các giá trị khác - tốt, thật khó để nói ý nghĩa của chúng mà không xem xét chi tiết hơn tất cả các biểu đồ liên quan.
Giáo viên : Quay trở lại giá trị trong bản thảo, bạn sẽ kết luận điều gì?0.1
Học sinh : Đó là trong khu vực tôi tô màu lần cuối, vì vậy tôi nghĩ rằng nhà khoa học có lẽ đã đúng và bộ máy thực sự đã được cải thiện.
Giáo viên : Một điều cuối cùng. Kết luận của bạn dựa trên việc chọn 10% làm tiêu chí hoặc "kích thước" của bài kiểm tra. Nhiều người thích sử dụng 5% thay thế. Một số thích 1%. Bạn có thể nói gì với họ?
Học sinh : Tôi không thể làm tất cả các bài kiểm tra đó cùng một lúc! Vâng, có lẽ tôi có thể theo một cách nào đó. Tôi có thể thấy rằng dù thử nghiệm có kích thước như thế nào, tôi nên bắt đầu tô màu từ , theo nghĩa này là giá trị "cực đoan nhất" và hoạt động theo cả hai hướng từ đó. Nếu tôi dừng lại ở mức - giá trị thực sự được quan sát - tôi nghĩ rằng tôi sẽ tô màu ở một khu vực nào đó trong khoảng đến , giả sử . 5% và 1% mọi người có thể nói ngay rằng tôi đã tô màu quá nhiều: nếu họ muốn tô màu chỉ 5% hoặc 1%, họ có thể, nhưng họ sẽ không đi xa đến0,1 0,05 0,1 0,08 0,100.10.050.10.080.1. Họ sẽ không đi đến kết luận giống như tôi đã làm: họ sẽ nói rằng không có đủ bằng chứng cho thấy một sự thay đổi thực sự xảy ra.
0.08
Học sinh : Cảm ơn bạn. Tôi không tự tin Tôi hoàn toàn hiểu tất cả những điều này, nhưng bạn đã cho tôi rất nhiều điều để suy nghĩ.
Giáo viên : Nếu bạn muốn đi xa hơn, hãy xem Bổ đề Neyman-Pearson . Bạn có lẽ đã sẵn sàng để hiểu nó bây giờ.
Tóm tắc
ztt=0.1
0t=0.1đạt được Giá trị p là khu vực của vùng bóng mờ dưới biểu đồ null: đó là cơ hội, giả sử null là đúng, khi quan sát một kết quả có tỷ lệ khả năng có xu hướng lớn bất kể sự thay thế nào là đúng. Đặc biệt, việc xây dựng này phụ thuộc mật thiết vào giả thuyết thay thế. Nó không thể được thực hiện mà không chỉ định các lựa chọn thay thế có thể.