Ý nghĩa của cuộc tranh luận hiện tại về ý nghĩa thống kê


10

Trong vài năm qua, các học giả khác nhau đã đưa ra một vấn đề bất lợi về kiểm định giả thuyết khoa học, được đặt tên là "mức độ tự do của nhà nghiên cứu", có nghĩa là các nhà khoa học có nhiều lựa chọn để đưa ra trong phân tích của họ về việc tìm kiếm với giá trị p <5%. Các lựa chọn mơ hồ này, ví dụ, trường hợp nào được đưa vào, trường hợp nào được phân loại là ngoại lệ, chạy nhiều đặc tả mô hình cho đến khi có gì đó xuất hiện, không công bố kết quả null, v.v. (Bài báo đưa ra cuộc tranh luận này trong tâm lý học là ở đây , xem một bài viết nổi tiếng về Slate và cuộc tranh luận tiếp theo của Andrew Gelman tại đây và tạp chí Time cũng đề cập đến chủ đề này tại đây .)

Đầu tiên , một câu hỏi làm rõ:

Các Time tạp chí đã viết,

"Sức mạnh 0,8 có nghĩa là mười giả thuyết thực sự được thử nghiệm, chỉ có hai giả thuyết sẽ bị loại trừ vì ảnh hưởng của chúng không được chọn trong dữ liệu;"

Tôi không chắc làm thế nào điều này phù hợp với định nghĩa của hàm năng lượng mà tôi tìm thấy trong sách giáo khoa, đó là xác suất từ ​​chối null là một hàm của tham số . Với khác nhau, chúng tôi có sức mạnh khác nhau, vì vậy tôi không hiểu lắm về câu nói trên.θθθ

Thứ hai , một số ý nghĩa nghiên cứu:

  1. Trong lĩnh vực khoa học chính trị / kinh tế của tôi, các học giả chỉ cần sử dụng hết dữ liệu năm quốc gia có sẵn. Vì vậy, chúng ta không nên quan tâm đến vấn đề mẫu ở đây?

  2. Vấn đề chạy nhiều bài kiểm tra nhưng chỉ báo cáo một mô hình có thể được khắc phục đơn giản bởi thực tế là người khác trong ngành sẽ kiểm tra lại bài viết của bạn và đánh bại bạn ngay lập tức vì không có kết quả mạnh mẽ? Dự đoán điều này, các học giả trong lĩnh vực của tôi có nhiều khả năng bao gồm một robustness checkphần, trong đó họ cho thấy rằng nhiều thông số kỹ thuật mô hình không thay đổi kết quả. Điều này có đủ không?

  3. Andrew Gelman và những người khác đưa ra quan điểm rằng bất kể dữ liệu là gì, luôn luôn có thể tìm và xuất bản một số "mẫu" không thực sự ở đó. Nhưng điều này không phải là một mối quan tâm, bởi thực tế là bất kỳ "mô hình" thực nghiệm nào cũng phải được hỗ trợ bởi một lý thuyết, và các lý thuyết đối thủ trong một môn học sẽ chỉ tham gia vào một cuộc tranh luận / cuộc đua để tìm ra trại nào có thể tìm thấy nhiều "mẫu" hơn ở những nơi khác nhau Nếu một mẫu thực sự giả, thì lý thuyết đằng sau sẽ nhanh chóng bị đánh sập khi không có mẫu tương tự trong các mẫu / cài đặt khác. Đây không phải là cách khoa học tiến bộ sao?

  4. Giả sử rằng xu hướng hiện tại của các tạp chí cho kết quả null sẽ thực sự phát triển, có cách nào để chúng ta tổng hợp tất cả các kết quả null và tích cực lại với nhau và đưa ra suy luận về lý thuyết mà tất cả chúng đều cố gắng kiểm tra?


Xem thêm "Kiểm tra lý thuyết trong tâm lý học và vật lý: Nghịch lý phương pháp luận" . "Giả thuyết khống" luôn sai đối với lĩnh vực của bạn. Ngay cả với thực hành nghiên cứu thích hợp kiểm tra ý nghĩa và kiểm tra giả thuyết có thể không phù hợp.
Flask

Câu hỏi của bạn 1 mâu thuẫn với câu hỏi 3. Trong polsci / economics có các mẫu / cài đặt khác có sẵn hay không?
Flask

Câu trả lời:


11

Thay vì sử dụng giá trị p để đánh giá khiếu nại, chúng ta nên làm theo lời khuyên của Robert Abelson và sử dụng tiêu chí MAGIC:

Magnitude
Articulation
Generality
Interestingness
Credibility

Để biết thêm về Abelson xem đánh giá của tôi về cuốn sách của mình

Và chúng ta nên tập trung vào kích thước hiệu ứng, không phải giá trị p trong đầu ra thống kê (ngoại trừ có thể có một số loại khai thác dữ liệu, mà tôi không phải là chuyên gia). Và kích thước hiệu ứng sẽ được đánh giá trong bối cảnh:

1 in 1000 pairs of pants gets the wrong size label - not a big deal
1 in 1000 airplanes are defective in a way that leads to crashes - a big deal
1 in 1000 nuclear reactors is defective in a way that leads to meltdown - uh oh

Một nhà phân tích thống kê / dữ liệu không nên là một người kỳ quặc, được sử dụng như một hộp đen để dữ liệu được đưa vào và ra khỏi đó các giá trị p được nhận; Anh ấy / cô ấy nên là một cộng tác viên trong nghiên cứu được thiết kế để đưa ra lập luận hợp lý về ý nghĩa của một số bộ dữ liệu trong bối cảnh của một số lĩnh vực, đưa ra các lý thuyết hiện tại (hoặc thiếu) và bằng chứng hiện tại (hoặc thiếu giống nhau).

Thật không may, cách tiếp cận này đòi hỏi phải suy nghĩ về các nhà nghiên cứu thực tế, nhà phân tích dữ liệu và bất cứ ai xem xét kết quả (có thể là một ông chủ tóc nhọn, một ủy ban luận án, biên tập viên tạp chí hoặc bất cứ ai). Điều kỳ lạ là, ngay cả các học giả cũng có vẻ ác cảm với kiểu suy nghĩ này.

Để biết thêm về quan điểm của tôi, đây là một bài báo tôi đã viết được xuất bản trên Science360.


4
+1 Trong khi tôi chắc chắn đồng ý với bạn, tôi có thể tưởng tượng rằng câu nói 'yêu cầu của tôi được hỗ trợ bởi MAGIC' có thể không phải lúc nào cũng hữu ích :-)
Marc Claesen

1
Vâng, bạn sẽ phải đánh vần nó, nhưng, nếu bạn đã làm, tôi nghĩ nó có thể hoạt động: "Đây là những hiệu ứng lớn có một vài ngoại lệ, ảnh hưởng đến một số lượng lớn người, rất thú vị vì XXXX và đáng tin cậy vì chúng là XXXX" có thể làm việc. Tôi chưa thấy nó thử. :-)
Peter Flom - Tái lập Monica

1
Đúng; một yêu cầu là "đáng tin cậy" nếu có lý thuyết cho biết làm thế nào nó có thể xảy ra; nếu nó được nhân rộng, và như vậy. Nó là ít đáng tin cậy nếu không có giải thích lý thuyết hoặc vật lý khác. Yêu cầu càng ít đáng tin cậy thì càng cần nhiều bằng chứng cho nó.
Peter Flom - Tái lập Monica

2
@Anh Độ tin cậy trong khoa học nên được đo lường bằng cách các lý thuyết dự đoán các hiện tượng không được sử dụng trong việc phát triển lý thuyết. Khi đánh giá xem các dự đoán có tốt hay không, độ tin cậy đòi hỏi phải nhân rộng bởi các nhà nghiên cứu độc lập. Có rất nhiều bằng chứng thực nghiệm cho thấy cả việc kiểm tra ý nghĩa và kiểm tra giả thuyết đều có vẻ thực sự ngăn cản cả hai hành vi, thay vào đó khuyến khích các hoạt động phản tác dụng của xu hướng xuất bản và "hack" một "ý nghĩa" tùy tiện bị cắt đứt.
Flask

1
@Flask - Tôi muốn nói rằng các giá trị p không nhất thiết là vấn đề, hơn nữa việc sử dụng các bài kiểm tra giả thuyết yếu là vấn đề. Vật lý cũng sử dụng giá trị p nhưng với giả thuyết dẫn đến dự đoán điểm (tức là giả thuyết null thực tế). Tìm kiếm một "hiệu ứng tích cực" về cơ bản là vô ích đối với việc xây dựng lý thuyết - bạn cần phải ước tính điểm để xác nhận đúng lý thuyết.
xác suất

3

Lĩnh vực khoa học thống kê đã giải quyết những vấn đề này kể từ khi bắt đầu. Tôi tiếp tục nói rằng vai trò của nhà thống kê là đảm bảo tỷ lệ lỗi loại 1 vẫn cố định. Điều này ngụ ý rằng nguy cơ đưa ra kết luận tích cực sai có thể được loại bỏ, nhưng có thể được kiểm soát. Điều này sẽ thu hút sự chú ý của chúng tôi vào khối lượng nghiên cứu khoa học cực kỳ lớn đang được tiến hành thay vì hướng tới triết lý và đạo đức của thực tiễn thống kê chung. Đối với mọi kết quả đáng kinh ngạc (không thể tin được) mà các bề mặt trên phương tiện truyền thông (hoặc trong chính sách của chính phủ), ít nhất 19 kết quả không thể tin được khác đã bị bắn hạ vì những phát hiện vô giá trị của họ.

Thật vậy, nếu bạn đi đến, giả sử, lâm sàngtrials.gov, bạn sẽ quan sát thấy có (hầu hết mọi dấu hiệu bệnh) hơn 1.000 thử nghiệm lâm sàng cho các đại lý dược phẩm đang diễn ra tại Mỹ vào lúc này. Điều đó có nghĩa là, với tỷ lệ lỗi dương tính giả là 0,001, trung bình ít nhất 1 loại thuốc sẽ được đưa lên kệ không có tác dụng. Hiệu lực của 0,05 là ngưỡng xác thực cho ý nghĩa thống kê đã bị thách thức hết lần này đến lần khác. Trớ trêu thay, chỉ có các nhà thống kê cảm thấy không thoải mái khi sử dụng tỷ lệ lỗi dương tính 1/20 trong khi các bên liên quan tài chính (có thể là PI, hoặc Merck) sẽ theo đuổi niềm tin một cách kiên quyết bất kể kết quả trong ống nghiệm, bằng chứng lý thuyết hoặc sức mạnh của bằng chứng trước đó. Thành thật, sự kiên trì đó là phẩm chất cá nhân thành công và đáng khen ngợi của nhiều cá nhân thành công trong vai trò phi thống kê. Họ thường ngồi trên các nhà thống kê, trong các vật tổ tương ứng của họ, những người có xu hướng tận dụng sự ngoan cường đó.

Tôi nghĩ rằng trích dẫn thời gian bạn đưa ra là hoàn toàn sai. Sức mạnh là xác suất bác bỏ giả thuyết khống cho rằng nó sai. Điều này quan trọng hơn phụ thuộc vào chính xác giả thuyết "sai" như thế nào (điều này phụ thuộc vào kích thước hiệu ứng có thể đo được). Tôi hiếm khi nói về sức mạnh ra khỏi bối cảnh của hiệu ứng mà chúng tôi cho là "thú vị" để phát hiện. (ví dụ, sống sót 4 tháng sau khi điều trị hóa trị ung thư tuyến tụy giai đoạn 4 là không thú vị, do đó không có lý do gì để tuyển 5.000 cá nhân cho thử nghiệm giai đoạn 3).

Để giải quyết các câu hỏi bạn đã hỏi

  1. ???

  2. Đa số là khó khăn vì nó không dẫn đến một quy tắc quyết định rõ ràng về cách xử lý dữ liệu. Ví dụ, giả sử chúng ta quan tâm đến một thử nghiệm đơn giản về sự khác biệt trung bình. Bất chấp sự phản đối vô hạn của các đồng nghiệp của tôi, thật dễ dàng để hiển thị một bài kiểm tra t được hiệu chỉnh tốt để phát hiện sự khác biệt về trung bình bất kể phân phối mẫu của dữ liệu. Giả sử chúng ta thay phiên theo đuổi con đường của họ. Họ sẽ bắt đầu bằng cách kiểm tra tính quy phạm bằng cách sử dụng một số biến thể của thử nghiệm phân phối nổi tiếng (giả sử hiệu chuẩn của qqplot). Nếu dữ liệu xuất hiện đủ không bình thường, thì họ sẽ hỏi liệu dữ liệu có tuân theo bất kỳ phép biến đổi nổi tiếng nào không, và sau đó áp dụng phép biến đổi Box Cox để xác định phép biến đổi công suất (có thể là logarit) nhằm tối đa hóa entropy. Nếu một giá trị số rõ ràng bật ra, họ sẽ sử dụng sự biến đổi đó. Nếu không, họ sẽ sử dụng thử nghiệm Wilcoxon "không phân phối". Đối với chuỗi sự kiện đặc biệt này, tôi không thể bắt đầu hy vọng làm thế nào để tính toán hiệu chuẩn và công suất cho một thử nghiệm đơn giản về sự khác biệt trung bình khi thử nghiệm t đơn giản, ngu ngốc sẽ có kết quả. Tôi nghi ngờ những hành động ngu ngốc như thế này có thể được liên kết về mặt toán học với ước tính siêu thực của Hodge: các công cụ ước tính có sức mạnh cao theo một giả thuyết cụ thể mà chúng tôi muốn là sự thật. Tuy nhiên, quá trình này là Ước tính siêu đầy đủ: các công cụ ước tính có công suất cao theo một giả thuyết cụ thể mà chúng tôi muốn là đúng. Tuy nhiên, quá trình này là Ước tính siêu đầy đủ: các công cụ ước tính có công suất cao theo một giả thuyết cụ thể mà chúng tôi muốn là đúng. Tuy nhiên, quá trình này làkhông thống kê vì tỷ lệ lỗi dương tính giả chưa được kiểm soát.

  3. Khái niệm rằng các xu hướng có thể bị "phát hiện" một cách sai lầm trong bất kỳ tập hợp dữ liệu ngẫu nhiên nào có thể có nguồn gốc từ bài báo được viết tốt của Martin có tên là "Lưới thống kê của Munchaesen" . Đây là một bài đọc rất sáng sủa và có từ năm 1984 trước khi con bê vàng của máy học ra đời cho chúng ta khi chúng ta biết điều đó. Thật vậy, một giả thuyết được nêu chính xác là sai lệch, nhưng lỗi loại 1 đã trở nên tốn kém hơn nhiều trong xã hội điều khiển dữ liệu của chúng ta so với trước đây. Ví dụ, xem xét các bằng chứng giả mạo của nghiên cứu chống vắc-xin đã dẫn đến một chuỗi lớn các ca tử vong do ho gà. Các kết quả đã từ chối việc giảm thiểu vắc-xin công khai được liên kết trong một nghiên cứu duy nhất(điều này, mặc dù sai, không được xác nhận bởi nghiên cứu bên ngoài). Có một động lực đạo đức để tiến hành kết quả và báo cáo sức mạnh trung thực đến tốt đẹp của bằng chứng. Bằng chứng mạnh đến mức nào? Nó ít liên quan đến giá trị p bạn có được, nhưng giá trị p bạn nói bạn sẽ gọi là đáng kể. Và hãy nhớ rằng, làm mờ dữ liệu của bạn làm thay đổi giá trị của p, ngay cả khi thử nghiệm xác nhận cuối cùng báo cáo một cái gì đó khác nhau (thường nhỏ hơn nhiều).

  4. ĐÚNG! Bạn có thể thấy rõ trong các phân tích tổng hợp được xuất bản bởi các tạp chí như báo cáo của Cochrane rằng phân phối kết quả xét nghiệm trông có vẻ lưỡng tính hơn noraml, chỉ có kết quả dương tính và âm tính làm cho nó thành tạp chí. Bằng chứng này là hoàn toàn bonkers và gây nhầm lẫn cho bất cứ ai trong thực hành lâm sàng. Thay vào đó, nếu chúng ta công bố kết quả null (xuất phát từ các nghiên cứu có kết quả mà chúng ta sẽ quan tâm, bất kể chúng là gì ), thì chúng ta có thể mong đợi các phân tích tổng hợp thực sự đại diện cho bằng chứng có ý nghĩa và đại diện.


1
Trong " Xác suất làm cơ sở cho hành động", William Deming phân biệt giữa nghiên cứu "liệt kê" và "phân tích". Ông đưa ra quan điểm rằng kết quả của mọi thử nghiệm đều có điều kiện trên môi trường chính xác của thử nghiệm, do đó, các nhà thống kê cố gắng kiểm soát "tỷ lệ lỗi loại I" sẽ luôn bị giảm bởi một mức độ không xác định khi áp dụng điều trị trong các điều kiện khác nhau .
Flask

@Flask Tương tự như vậy, không có quy trình cơ học nào trên trạm vũ trụ quốc tế được hiệu chỉnh hoàn hảo, nhưng sự chú ý của các kỹ sư về chi tiết và giảm thiểu lỗi đảm bảo rằng chúng tôi không tìm thấy một sự lạ lùng trong không gian.
AdamO

Các kỹ sư (hy vọng) kiểm tra các thành phần trong tất cả các điều kiện dự kiến ​​và sau đó thêm biên lỗi bổ sung dựa trên các mô hình mà chúng tạo ra. Đây là loại hành vi được Deming ủng hộ và khác với việc cố gắng đưa ra kết luận về hiệu quả điều trị trong tương lai hoặc mối quan hệ giữa các yếu tố từ việc đánh giá lỗi lấy mẫu của chỉ một nghiên cứu. Đó là một sự khác biệt rất thú vị mà tôi chưa thấy đề cập đến ở nơi khác.
Flask

Tôi không nghĩ rằng hoàn toàn có thể phòng thủ để nói rằng "một quy trình không được thống kê vì tỷ lệ lỗi dương tính giả chưa được kiểm soát." Có nhiều thứ để thống kê hơn so với tính thường xuyên với các điều khiển tỷ lệ lỗi của nó và các bit không thường xuyên là các bit hữu ích hơn cho khoa học. Bạn có thể muốn đọc bài viết gần đây của tôi về chủ đề này: arxiv.org/abs/1311.0081
Michael Lew

1
@Adamo Việc không có bất kỳ định lượng bằng chứng nào trong suy luận thường xuyên thực sự là một ý kiến ​​phổ biến của người Bayes (và khả năng), nhưng nó được xác nhận rõ ràng và là ý kiến ​​được thể hiện rõ ràng của Neyman và Pearson trong bài báo đầu tiên họ nghĩ ra phương pháp thường xuyên! Có lẽ bạn nên đọc bài viết của tôi với một tâm trí cởi mở. Thông tin là tất cả ở đó.
Michael Lew

3

Đầu tiên, tôi không phải là một nhà thống kê, chỉ là một nhà nghiên cứu đã tìm hiểu rất nhiều trong vài năm qua để tìm hiểu tại sao các phương pháp tôi quan sát được sử dụng xung quanh tôi lại thiếu và tại sao có quá nhiều nhầm lẫn về các khái niệm cơ bản như "cái gì là giá trị p? " Tôi sẽ đưa ra quan điểm của tôi.

Đầu tiên, một câu hỏi làm rõ:

Tạp chí Time đã viết,

"A power of 0.8 means that of ten true hypotheses tested, only two will be ruled out > because their effects are not picked up in the

dữ liệu;"

Tôi không chắc làm thế nào điều này phù hợp với định nghĩa của hàm lũy thừa mà tôi tìm thấy trong sách giáo khoa, đó là xác suất từ ​​chối null là một hàm của tham số. Với sự khác biệt, chúng ta có sức mạnh khác nhau, vì vậy tôi không hiểu lắm về câu nói trên.

Công suất là một hàm của, phương sai và cỡ mẫu. Tôi không chắc chắn những gì nhầm lẫn là. Ngoài ra đối với nhiều trường hợp trong đó kiểm tra ý nghĩa được sử dụng giả thuyết null của mean1 = mean2 luôn luôn sai. Trong những trường hợp này, ý nghĩa chỉ là một chức năng của cỡ mẫu. Xin vui lòng đọc "Lý thuyết - Kiểm tra tâm lý và Vật lý: Nghịch lý phương pháp" của Paul Meehl, nó đã làm rõ nhiều điều cho tôi và tôi chưa bao giờ thấy một phản ứng thích đáng. Paul Meehl có một vài giấy tờ khác về điều này bạn có thể tìm thấy bằng cách tìm kiếm tên của mình.

Trong lĩnh vực khoa học chính trị / kinh tế của tôi, các học giả chỉ cần sử dụng hết dữ liệu năm quốc gia có sẵn. Vì vậy, chúng ta không nên quan tâm đến vấn đề mẫu ở đây?

Nếu bạn đọc bài báo Simmons 2011 thì đây chỉ là một trong những kỹ thuật "p-hack" được đề cập. Nếu đúng là chỉ có một bộ dữ liệu và không ai chọn ra các mẫu chọn lọc từ đó thì tôi đoán không có chỗ để tăng kích thước mẫu.

Vấn đề chạy nhiều bài kiểm tra nhưng chỉ báo cáo một mô hình có thể được khắc phục đơn giản bởi thực tế là người khác trong ngành sẽ kiểm tra lại bài viết của bạn và đánh bại bạn ngay lập tức vì không có kết quả mạnh mẽ? Dự đoán điều này, các học giả trong lĩnh vực của tôi có nhiều khả năng bao gồm một phần kiểm tra độ bền, trong đó họ cho thấy rằng nhiều thông số kỹ thuật mô hình không thay đổi kết quả. Điều này có đủ không?

Nếu sao chép đã xảy ra mà không có sự thiên vị xuất bản thì sẽ không cần "tạp chí về kết quả null". Tôi muốn nói rằng phần kiểm tra độ bền là tốt nhưng không đủ khi các nhà nghiên cứu không công bố những gì họ cho là không có kết quả. Ngoài ra, tôi sẽ không xem xét một kết quả mạnh mẽ chỉ vì nhiều kỹ thuật phân tích trên cùng một dữ liệu đi đến cùng một kết luận. Một kết quả mạnh mẽ là một kết quả đưa ra dự đoán chính xác về hiệu ứng / tương quan / vv trên dữ liệu mới .

Một bản sao không nhận được p <0,05 cả hai lần. Lý thuyết nên được coi là mạnh mẽ hơn nếu nó dự đoán một hiệu ứng / tương quan / vv khác với sử dụng trong nghiên cứu đầu tiên. Tôi không đề cập đến sự hiện diện của một hiệu ứng hoặc tương quan, nhưng giá trị chính xác hoặc một phạm vi giá trị nhỏ so với phạm vi giá trị có thể có. Sự hiện diện của hiệu ứng tăng / giảm hoặc tương quan dương / âm có khả năng đúng 100% trong trường hợp giả thuyết null là sai. Đọc Meehl.

Andrew Gelman và những người khác đưa ra quan điểm rằng bất kể dữ liệu là gì, luôn luôn có thể tìm và xuất bản một số "mẫu" không thực sự ở đó. Nhưng điều này không phải là một mối quan tâm, bởi thực tế là bất kỳ "mô hình" thực nghiệm nào cũng phải được hỗ trợ bởi một lý thuyết, và các lý thuyết đối thủ trong một môn học sẽ chỉ tham gia vào một cuộc tranh luận / cuộc đua để tìm ra trại nào có thể tìm thấy nhiều "mẫu" hơn ở những nơi khác nhau Nếu một mẫu thực sự giả, thì lý thuyết đằng sau sẽ nhanh chóng bị đánh sập khi không có mẫu tương tự trong các mẫu / cài đặt khác. Đây không phải là cách khoa học tiến bộ sao?

Khoa học không thể hoạt động đúng nếu các nhà nghiên cứu không công bố kết quả null. Ngoài ra, chỉ vì mẫu không được phát hiện trong mẫu / cài đặt thứ hai không có nghĩa là mẫu không tồn tại trong các điều kiện của nghiên cứu ban đầu.

Giả sử rằng xu hướng hiện tại của các tạp chí cho kết quả null sẽ thực sự phát triển, có cách nào để chúng ta tổng hợp tất cả các kết quả null và tích cực lại với nhau và đưa ra suy luận về lý thuyết mà tất cả chúng đều cố gắng kiểm tra?

Đây sẽ là phân tích tổng hợp . Không có gì đặc biệt về kết quả null trong trường hợp này ngoài việc các nhà nghiên cứu không công bố chúng vì các giá trị p nằm trên ngưỡng tùy ý. Trong sự hiện diện của phân tích meta thiên vị xuất bản là không đáng tin cậy vì toàn bộ tài liệu bị thiên vị xuất bản. Mặc dù nó có thể hữu ích, phân tích meta kém hơn nhiều so với việc đánh giá một lý thuyết so với việc lý thuyết đó đưa ra một dự đoán chính xác sau đó được kiểm tra. Xu hướng xuất bản không quan trọng gần như miễn là các dự đoán mới được đưa ra và được nhân rộng bởi các nhóm độc lập.


Sự nhầm lẫn của tôi về trích dẫn Thời gian là chức năng nguồn không nên bị hạn chế khi null là đúng như trích dẫn. Miền của hàm nguồn là toàn bộ không gian tham số nếu tôi không nhầm. Và do đó, không có "sức mạnh 0,8" cụ thể nào mà người ta có thể chỉ định cho một bài kiểm tra.
Heisenberg

Tôi hoàn toàn đồng ý với bạn về quan điểm rằng một lý thuyết cần phải được kiểm tra trên dữ liệu mới. Nhưng trong trường hợp khoa học chính trị hoặc kinh tế vĩ mô, nơi chúng ta chỉ có rất nhiều quốc gia và rất nhiều năm, liệu nỗ lực đó có nhất thiết phải bị cản trở?
Heisenberg

@Anh mỗi giây có dữ liệu mới để thêm. Lý thuyết nên dự đoán tương lai. Trong thiên văn học đã có dự đoán vị trí của sao chổi chẳng hạn. Ngoài ra, bạn tính toán sức mạnh cho một giá trị tham số dự kiến. Vì vậy, trong trường hợp trích dẫn, họ sẽ đề cập đến sức mạnh để kiểm tra một lý thuyết dự đoán mối tương quan ít nhất là r = 0,5.
Flask

Để làm rõ r = 0,5 sẽ là một ví dụ về mối tương quan được dự đoán bởi một lý thuyết.
Flask

2

Tôi sẽ đặt nó đơn giản là thử nghiệm giả thuyết null thực sự chỉ là về giả thuyết null. Và nói chung, giả thuyết khống thường không phải là điều đáng quan tâm, và thậm chí có thể không phải là "hiện trạng" - đặc biệt là trong loại thử nghiệm giả thuyết hồi quy. Thông thường trong khoa học xã hội không có hiện trạng, vì vậy giả thuyết null có thể khá độc đoán. Điều này tạo ra sự khác biệt lớn cho phân tích, vì điểm khởi đầu không được xác định, vì vậy các nghiên cứu khác nhau đang bắt đầu với giả thuyết null khác nhau, rất có thể dựa trên bất kỳ dữ liệu nào họ có sẵn. So sánh điều này với một cái gì đó giống như định luật chuyển động của Newton - thật hợp lý khi coi đây là giả thuyết khống, và cố gắng tìm ra những lý thuyết tốt hơn từ điểm xuất phát này.

Ngoài ra, giá trị p không tính toán xác suất chính xác - chúng tôi không muốn biết về xác suất đuôi, trừ khi giả thuyết thay thế có nhiều khả năng khi bạn di chuyển xa hơn vào đuôi. Những gì bạn thực sự muốn là lý thuyết dự đoán những gì thực sự được nhìn thấy. Ví dụ: giả sử tôi dự đoán rằng có 50% cơ hội "tắm nhẹ" và đối thủ cạnh tranh của tôi dự đoán rằng có 75% cơ hội. Điều này hóa ra là chính xác, và chúng tôi quan sát một vòi hoa sen nhẹ. Bây giờ khi quyết định người thời tiết nào là chính xác, bạn không nên cho tín dụng bổ sung dự đoán của tôi vì cũng cho 40% cơ hội "giông bão" hoặc lấy tín dụng từ đối thủ cạnh tranh của tôi để cho "giông bão" có cơ hội 0%.

Một chút suy nghĩ về điều này sẽ cho bạn thấy rằng nó không phải là một lý thuyết nhất định phù hợp với dữ liệu đến mức nào, mà nhiều hơn về bất kỳ lời giải thích thay thế nào phù hợp với dữ liệu. Nếu bạn làm việc theo các yếu tố Bayes, bạn có thông tin trước , dữ liệu và một số giả thuyết , yếu tố bay được đưa ra bởi:IDH

BF=P(D|HI)P(D|H¯I)

Nếu dữ liệu là không thể được trao cho chứ là sai, sau đó và chúng ta trở nên nhất định . Giá trị p thường cung cấp cho bạn tử số (hoặc một số phép tính gần đúng / biến đổi của chúng). Nhưng cũng lưu ý rằng một giá trị p nhỏ chỉ tạo thành bằng chứng chống lại null nếu có một giả thuyết thay thế phù hợp với dữ liệu. Bạn có thể phát minh ra các tình huống trong đó giá trị p là thực sự cung cấp hỗ trợ cho giả thuyết null - nó thực sự phụ thuộc vào phương án thay thế là gì.HBF=H0.001

Có một ví dụ thực nghiệm nổi tiếng và dễ bị hiểu lầm về điều này khi một đồng xu được ném lần và số lượng đầu là - giảm một nửa. Mô hình null là và mô hình thay thế là và cho mô hình cận biên của (DU = đồng phục rời rạc). Giá trị p cho giả thuyết null rất nhỏ , vậy từ chối null và xuất bản phải không? Nhưng hãy nhìn vào yếu tố vịnh, được đưa ra bởi:104,490,00052,263,471yBin(n,0.5)y|θBin(n,θ)θU(0,1)p = 0,00015yBetaBin(n,1,1)DU(0,,n)p=0.00015

BF=(ny)2n1n+1=(n+1)!2ny!(ny)!=11.90

Làm sao có thể? Yếu tố Bayes ủng hộ giả thuyết null bất chấp giá trị p nhỏ? Chà, nhìn vào giải pháp thay thế - nó đưa ra xác suất cho giá trị quan sát của - giải pháp thay thế không cung cấp một lời giải thích tốt cho các sự kiện - vì vậy null có nhiều khả năng, nhưng chỉ liên quan đến sự thay thế . Lưu ý rằng null chỉ làm tốt hơn một chút so với mức này - . Nhưng điều này vẫn tốt hơn so với giải pháp thay thế.1n+1=0.00000000960.00000011

Điều này đặc biệt đúng với ví dụ mà Gelman chỉ trích - thực sự chỉ có một giả thuyết được thử nghiệm và không có nhiều suy nghĩ đi vào a) những giải thích thay thế là gì (đặc biệt là gây nhiễu và hiệu ứng không được kiểm soát), b) bao nhiêu các lựa chọn thay thế được hỗ trợ bởi nghiên cứu trước đó và quan trọng nhất là c) họ dự đoán gì (nếu có) khác biệt đáng kể so với null?

Nhưng lưu ý rằng không được xác định và về cơ bản đại diện cho tất cả các giả thuyết khác phù hợp với thông tin trước đó. Cách duy nhất bạn thực sự có thể thực hiện kiểm tra giả thuyết đúng là bằng cách chỉ định một loạt các lựa chọn thay thế mà bạn sẽ so sánh. Và ngay cả khi bạn làm điều đó, giả sử bạn có , bạn chỉ có thể báo cáo về thực tế là dữ liệu hỗ trợ liên quan đến những gì bạn đã chỉ định. Nếu bạn bỏ qua giả thuyết quan trọng từ tập hợp các lựa chọn thay thế, bạn có thể mong đợi nhận được kết quả vô nghĩa. Ngoài ra, một sự thay thế nhất định có thể chứng minh là phù hợp hơn nhiều so với những cái khác, nhưng vẫn không có khả năng. Nếu bạn có một bài kiểm tra trong đó giá trị p làH¯H1,,HKHk0.01nhưng một trăm thử nghiệm khác nhau trong đó giá trị p là thì nhiều khả năng "giả thuyết tốt nhất" (tốt nhất có ý nghĩa tốt hơn so với thực tế) thực sự đến từ nhóm kết quả "gần như có ý nghĩa".0.1

Điểm chính để nhấn mạnh là một giả thuyết không bao giờ có thể tồn tại trong sự cô lập với các chất thay thế. Vì, sau khi chỉ định các lý thuyết / mô hình , bạn luôn có thể thêm một giả thuyết mới Thực tế, loại giả thuyết này về cơ bản là tiến bộ khoa học - ai đó có ý tưởng mới / giải thích cho một số loại hiệu ứng, và sau đó kiểm tra lý thuyết mới này chống lại tập hợp thay thế hiện tại . Đó là so với và không chỉ đơn giản là so với . Phiên bản đơn giản hóa chỉ áp dụng khi có giả thuyết được hỗ trợ rất mạnh trongK

HK+1=Something else not yet thought of
HK+1H1,,HKH0HAH1,,HK- tức là, trong tất cả các ý tưởng và giải thích chúng tôi hiện đang có, có một lý thuyết nổi bật. Điều này chắc chắn không đúng với hầu hết các lĩnh vực khoa học xã hội / chính trị, kinh tế và tâm lý học.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.