Làm thế nào để biện minh chặt chẽ tỷ lệ lỗi sai tích cực / sai âm được chọn và tỷ lệ chi phí cơ bản?


12

Bối cảnh

Một nhóm các nhà khoa học xã hội và thống kê ( Benjamin và cộng sự, 2017 ) gần đây đã đề xuất rằng tỷ lệ dương tính giả điển hình ( = 0,05) được sử dụng làm ngưỡng xác định "ý nghĩa thống kê" cần được điều chỉnh theo ngưỡng bảo thủ hơn ( = .005). Một nhóm các nhà khoa học xã hội và thống kê cạnh tranh ( Lakens và cộng sự, 2018 ) đã phản ứng, tranh luận về việc sử dụng điều này - hoặc bất kỳ điều gì khác - tùy ý chọn ngưỡng. Sau đây là một trích dẫn từ Lakens et al. (p. 16) giúp làm rõ vấn đề của câu hỏi của tôi:αα

Lý tưởng nhất là mức độ alpha được xác định bằng cách so sánh chi phí và lợi ích với chức năng tiện ích bằng lý thuyết quyết định. Phân tích lợi ích chi phí này (và do đó là mức alpha) khác nhau khi phân tích các bộ dữ liệu lớn hiện có so với việc thu thập dữ liệu từ các mẫu khó lấy. Khoa học rất đa dạng, và tùy thuộc vào các nhà khoa học để chứng minh mức độ alpha mà họ quyết định sử dụng. ... Nghiên cứu nên được hướng dẫn bởi các nguyên tắc của khoa học nghiêm ngặt, chứ không phải theo kinh nghiệm và ngưỡng chăn tùy ý.

Câu hỏi

Tôi đang tự hỏi làm thế nào người ta có thể đi về việc biện minh cho một alpha được chọn theo cách "được hướng dẫn bởi các nguyên tắc của khoa học nghiêm ngặt", như Lakens et al. đề nghị, trong hầu hết các bối cảnh khoa học xã hội (ví dụ, bên ngoài các trường hợp chọn lọc mà người ta có chất lượng cụ thể hơn, như lợi nhuận, để tối ưu hóa)?

Sau khi phổ biến Lakens và cộng sự, tôi đã bắt đầu thấy các máy tính trực tuyến lưu hành để giúp các nhà nghiên cứu đưa ra quyết định này. Khi sử dụng chúng, các nhà nghiên cứu cần chỉ định "tỷ lệ chi phí" cho các lỗi dương tính giả và âm tính giả. Tuy nhiên, như máy tính này ở đây cho thấy, việc xác định tỷ lệ chi phí như vậy có thể liên quan đến rất nhiều công việc đoán định lượng:

Trong khi một số chi phí lỗi dễ dàng định lượng bằng thuật ngữ tiền tệ (chi phí trực tiếp), thì một số khác lại khó đưa số tiền theo tỷ lệ (chi phí gián tiếp). ... Mặc dù rất khó khăn để định lượng, bạn nên nỗ lực để đặt số cho họ.

Ví dụ, mặc dù Lakens et al. Đề nghị nghiên cứu các mẫu khó tiếp cận như là một yếu tố mà người ta có thể xem xét trong việc chứng minh alpha, có vẻ như người ta vẫn còn đoán được mức độ khó tiếp cận của mẫu đó, và do đó, làm thế nào để điều chỉnh lựa chọn alpha phù hợp. Một ví dụ khác, tôi có vẻ khó định lượng chi phí xuất bản dương tính giả, về mặt thời gian / tiền bạc mà những người khác sau đó sẽ cam kết theo đuổi nghiên cứu dựa trên suy luận sai lầm.

Nếu xác định tỷ lệ chi phí này phần lớn là vấn đề đoán chính xác chủ quan, tôi sẽ tự hỏi liệu những quyết định này có thể bao giờ (một lần nữa, ngoài việc tối ưu hóa một cái gì đó như lợi nhuận) có được "biện minh" không. Đó là, theo cách tồn tại bên ngoài các giả định được đưa ra về lấy mẫu, đánh đổi, tác động, v.v.? Theo cách này, đối với tôi, việc xác định tỷ lệ chi phí cho các lỗi dương tính giả / âm tính giả là một điều gì đó giống với việc lựa chọn trước suy luận Bayes - một quyết định có thể hơi chủ quan, ảnh hưởng đến kết quả và do đó được tranh luận- Mặc dù tôi không chắc đó là một so sánh hợp lý.

Tóm lược

Để làm cho yêu cầu của tôi cụ thể:

  1. Tỷ lệ dương tính giả / âm tính giả và tỷ lệ chi phí của chúng có thể được "biện minh" một cách chặt chẽ trong hầu hết các bối cảnh khoa học xã hội không?
  2. Nếu vậy, những nguyên tắc khái quát nào người ta có thể làm theo để biện minh cho những lựa chọn phân tích này (và có thể là một ví dụ hoặc hai trong số chúng trong hành động)
  3. Nếu không, sự tương đồng của tôi về tính chủ quan tiềm năng trong việc lựa chọn tỷ lệ chi phí - có giống với lựa chọn trước của Bayes - một cách hợp lý?

Người giới thiệu

Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E., ... Johnson, V. (2017, ngày 22 tháng 7). Xác định lại ý nghĩa thống kê. Lấy từ psyarxiv.com/mky9j

Lakens, D., Adolfi, FG, Albers, CJ, Anvari, F., Apps, MA, ... Zwaan, RA (2018, ngày 15 tháng 1). Biện minh cho Alpha của bạn. Lấy từ psyarxiv.com/9s3y6


4
Bạn có thể xác định cách bạn đang sử dụng "khách quan hợp lý?" Loại I lỗi xác suất là một nhà nghiên cứu sở thích ... như là một tiên nghiệm loại II xác suất lỗi. Bằng cách nào một nhà nghiên cứu sẽ "biện minh một cách khách quan", nói, một chương trình nghiên cứu ưa thích, cộng tác viên nghiên cứu hoặc nhà tài trợ ưa thích, hoặc phương pháp đào tạo trợ lý nghiên cứu và cố vấn ưa thích?
Alexis

1
Khách quan biện minh như trong hơn một sở thích đơn thuần. Lakens và cộng sự, bài báo hiện đang lưu hành dưới tiêu đề "JYA" [Justify Your Alpha], và tôi đọc lập luận của họ, dựa trên các trích dẫn ở trên, là không có bất kỳ ưu tiên cũ nào sẽ làm. Để rõ ràng: Tôi không nhất thiết phải đưa ra lập luận rằng người ta có thể biện minh một cách khách quan tỷ lệ lỗi Loại I / II đã chọn. Thay vào đó, yêu cầu của tôi là tiền đề để giải thích Lakens et al. để gợi ý rằng bạn có thể, và nếu đó là trường hợp, thì tôi không hiểu người ta sẽ làm như thế nào.
jsakaluk

3
Tôi không thấy từ "khách quan" trong trích dẫn này của Lakens et al. Họ có thực sự sử dụng nó trong bài báo của họ? Nếu vậy, có lẽ bạn có thể thêm một trích dẫn khác để cung cấp một số bối cảnh cụ thể hơn? Nếu không, thì tôi không chắc bạn có thể nói những điều như "khách quan biện minh cho một alpha được chọn, như Lakens và cộng sự đề nghị".
amip nói rằng Phục hồi lại

2
Tôi đã cập nhật bài đăng, hiện đã bị tước "tính khách quan". Đó không phải là ý định của tôi để làm sai lệch cuộc tranh luận, nhưng tôi có thể hiểu nếu độc giả nghĩ rằng tôi đã viết bất cẩn. Lakens và cộng sự. hãy sử dụng mô tả của "được hướng dẫn bởi các nguyên tắc của sự nghiêm ngặt khoa học", vì vậy câu hỏi của tôi bây giờ là về chân đế. Tôi vẫn còn băn khoăn, tuy nhiên, điều đó có nghĩa là gì; làm thế nào là phỏng đoán dường như cần thiết hơn bất kỳ nghiêm ngặt hơn một heuristic? Nếu nó tạo ra sự khác biệt, tôi đặc biệt tò mò làm thế nào một nhà hiện thực khoa học sẽ đạt được tiêu chuẩn biện minh "nghiêm ngặt về mặt khoa học" cho alpha.
jsakaluk

2
α

Câu trả lời:


1

(cũng được đăng trên twitter, nhưng được đăng lại ở đây) Nỗ lực của tôi khi trả lời: Tôi không nghĩ rằng một lời biện minh có thể là "hoàn toàn" khách quan, nhưng nó có thể dựa trên các tiêu chí có thể phòng thủ được trên cơ sở lý trí / thực nghiệm. Tôi nghĩ RSS là một ví dụ về cách bạn có thể biện minh cho p <.005 cho một số loại nghiên cứu nhất định, nhưng tôi cũng nghĩ rằng có những trường hợp khác mà một alpha khác nhau sẽ tối ưu hơn <.005 (cao hơn hoặc thấp hơn) tùy thuộc vào những gì alpha là khả thi và mục đích của nghiên cứu là gì. Vì vậy, ví dụ: nếu bạn có 5.000 người tham gia và kích thước hiệu ứng quan tâm nhỏ nhất là 10, bạn có thể muốn sử dụng p <.001 và có 90% năng lượng (tất cả đều được tạo thành) Ngược lại, giả sử bạn chạy một thử nghiệm nhỏ như bằng chứng ban đầu về khái niệm của người dùng cho dòng nghiên cứu. Bạn có thể có N = 100, p <.10, 90% năng lượng,


1

Gần đây tôi đã suy nghĩ về cùng một câu hỏi và tôi đoán nhiều người khác trong tâm lý học cũng vậy.

Trước hết, mỗi câu hỏi của bạn liên quan đến việc một lựa chọn được đưa ra một cách khách quan so với chủ quan, nhưng (như những người khác ở đây đã lưu ý) bạn chưa giải thích đầy đủ những gì sẽ tạo thành (theo quan điểm của bạn) một lựa chọn khách quan so với chủ quan.

Bạn có thể quan tâm đến bài báo Gelman & Hennig 2015 giải nén nhiều giá trị được gói gọn trong cách sử dụng phổ biến của nhãn mục tiêu và các mục tiêu chủ đề của Khoa trong trò chơi. Trong công thức của họ, mục tiêu của Hồi giáo liên quan đến các giá trị về tính minh bạch, sự đồng thuận, sự công bằng và sự tương ứng với thực tế có thể quan sát được, trong khi đó, chủ quan của Keith liên quan đến các giá trị của nhiều quan điểm và sự phụ thuộc vào bối cảnh.

Liên quan đến Câu hỏi 3 của bạn, theo quan điểm Bayes, xác suất được xác định là định lượng không chắc chắn về thế giới. Theo những gì tôi hiểu, có một sự căng thẳng rõ ràng trên chủ nghĩa duy tâm của Bayes Bayes (xác suất phản ánh các trạng thái niềm tin riêng lẻ) và các trường phái tư tưởng của Bayesian Bay (xác suất phản ánh sự hợp lý). Trong trường phái khách quan, có sự nhấn mạnh hơn vào sự biện minh của phân phối trước (và mô hình nói chung hơn) một cách minh bạch, bắt buộc phải có sự đồng thuận và có thể được kiểm tra, nhưng sự lựa chọn mô hình chắc chắn phụ thuộc vào ngữ cảnh (nghĩa là , phụ thuộc vào trạng thái của kiến ​​thức đồng thuận cho một vấn đề cụ thể).

Trong quan niệm thường xuyên, xác suất phản ánh số lần một sự kiện sẽ xảy ra với các bản sao độc lập vô hạn. Trong khuôn khổ Neyman-Pearson, người ta quy định một giả thuyết thay thế chính xác và một alpha chính xác, chấp nhận null chính xác hoặc thay thế chính xác (rằng hiệu ứng dân số chính xác bằng với quy định) trên cơ sở dữ liệu, sau đó báo cáo tần số dài hạn làm như vậy trong lỗi.

Trong khuôn khổ này, chúng tôi hiếm khi có ước tính điểm chính xác về kích thước hiệu ứng dân số mà thay vào đó là một loạt các giá trị hợp lý. Do đó, có điều kiện trên một alpha nhất định, chúng tôi không có ước tính chính xác về tỷ lệ lỗi Loại 2, mà là một phạm vi tỷ lệ lỗi Loại 2 hợp lý. Tương tự, tôi đồng ý với quan điểm chung của bạn rằng chúng tôi thường không có ý thức chính xác về chi phí và lợi ích của lỗi Loại 1 hoặc lỗi Loại 2 thực sự sẽ là gì. Có nghĩa là chúng ta thường phải đối mặt với một tình huống mà chúng ta có thông tin rất không đầy đủ về giả thuyết của chúng ta nên ở đâu ngay từ đầu, và thậm chí còn ít thông tin về những gì sẽ là chi phí và lợi ích tương đối của việc chấp nhận so với giả thuyết này.

cho câu hỏi của bạn:

  1. Tỷ lệ dương tính giả / âm tính giả và tỷ lệ chi phí của chúng có thể được chứng minh một cách khách quan trong hầu hết các bối cảnh khoa học xã hội?

Tôi nghĩ như vậy, trong đó một sự biện minh có thể minh bạch, có thể ép buộc với sự đồng thuận, có thể vô tư và có thể tương ứng với thực tế (đến mức chúng ta đang sử dụng thông tin tốt nhất có sẵn về chi phí và lợi ích).

Tuy nhiên, tôi nghĩ rằng những biện minh như vậy cũng mang tính chủ quan, trong đó có thể có nhiều quan điểm hợp lệ về cách đặt alpha cho một vấn đề nhất định và trong đó những gì cấu thành một alpha thích hợp có thể phụ thuộc vào ngữ cảnh một cách có ý nghĩa.

Ví dụ, trong những năm gần đây, rõ ràng là nhiều hiệu ứng trong tài liệu phản ánh lỗi Loại M hoặc Loại S. Chúng cũng có thể phản ánh lỗi Loại 1, đến mức mà một nghiên cứu sao chép có thể cung cấp bằng chứng cho giá trị không có hiệu lực chính xác bằng không.

Liên quan đến quan sát này, có một sự đồng thuận mới nổi rằng ngưỡng giá trị p cho yêu cầu một cách chắc chắn nên được giữ nguyên hoặc thực hiện nghiêm ngặt hơn (nghĩa là không ai tranh cãi về việc tăng giá trị alpha lên 0,10 hoặc 0,20) . Tương tự, có một sự đồng thuận mới nổi rằng các giá trị p không nên được sử dụng làm tiêu chí để xuất bản (ví dụ: định dạng Báo cáo đã đăng ký).

Đối với tôi, điều này phản ánh một loại thông tin về mục tiêu của người Bỉ - tức là, theo tôi đọc, có một sự đồng thuận ngày càng tăng rằng các khiếu nại sai là tốn kém cho lĩnh vực này (ngay cả khi chúng tôi không thể đặt một số tiền cho các chi phí này). Theo tôi đọc, không có sự đồng thuận rõ ràng rằng việc không đạt ngưỡng giá trị p là một chi phí đáng kể cho lĩnh vực này. Nếu có chi phí, chúng có thể được giảm nhẹ nếu không đáp ứng ngưỡng giá trị p không ảnh hưởng đến việc ước tính có biến nó thành một bài báo được xuất bản hay không.

  1. Nếu vậy, những nguyên tắc khái quát nào người ta có thể làm theo để biện minh cho những lựa chọn phân tích này (và có thể là một ví dụ hoặc hai trong số chúng trong hành động)

Tôi không chắc chắn, nhưng tôi sẽ nghiêng về một số nguyên tắc rằng các quyết định nên được đưa ra trên cơ sở các phán quyết đồng thuận (địa phương hoặc toàn cầu) minh bạch về chi phí và lợi ích của các loại lựa chọn phân tích khác nhau trong một bối cảnh cụ thể, ngay cả trong bộ mặt của thông tin không đầy đủ về những chi phí và lợi ích này có thể là gì.

  1. Nếu không, sự tương đồng của tôi về tính chủ quan tiềm năng trong việc lựa chọn tỷ lệ chi phí - có giống với lựa chọn trước của Bayes - một cách hợp lý?

Vâng, trên các truyền thống thường xuyên và Bayes, có chỗ cho sự chủ quan (nghĩa là nhiều quan điểm và phụ thuộc vào bối cảnh) cũng như tính khách quan (nghĩa là minh bạch, đồng thuận, vô tư và tương ứng với thực tế có thể quan sát được) trong nhiều khía cạnh khác nhau của một mô hình thống kê và cách sử dụng mô hình đó (lựa chọn trước, khả năng được chọn, ngưỡng quyết định đã chọn, v.v.).


Đây là một câu trả lời tốt đẹp. Một điều mà tôi không chắc chắn lắm là yêu cầu về thư từ. Nếu chúng ta hiểu thuật ngữ này theo cùng một cách (tôi đang nghĩ về lý thuyết tương ứng của sự thật), thì thực ra, có vẻ như sự tương ứng có thể bị lung lay nếu chúng ta không có ý tưởng chính xác về chi phí của Loại Lỗi I / II. Thay vào đó, có vẻ như có một yêu cầu tốt hơn về sự gắn kết (với các giả định ban đầu này, phần còn lại của các con số "có ý nghĩa") hoặc chủ nghĩa thực dụng (dự đoán của chúng tôi về chi phí lỗi Loại I / II là một viễn tưởng hữu ích cho kế hoạch nghiên cứu).
jsakaluk

Có lẽ tôi đang cố gắng quá nhiều để kết hôn "biện minh" theo quan điểm tương ứng / hiện thực và theo những cách hiểu khác, tỷ lệ lỗi Loại I / II có thể được chọn theo cách "hợp lý"?
jsakaluk

Cảm ơn đã chỉ cho tôi những ý tưởng. Tôi muốn nói rằng trong bất kỳ bối cảnh cụ thể nào, chúng tôi có thể có thông tin tốt về chi phí và lợi ích trong tương lai có thể là gì, hoặc chúng tôi có thể có thông tin rất kém. Theo một nghĩa rất thô sơ, ngày càng có sự đồng thuận rằng các dương tính giả (p <ngưỡng, hiệu ứng thực sự chính xác bằng 0) có thể gây hại cho lĩnh vực này hơn các trường hợp không đáp ứng ngưỡng ý nghĩa (dù sao cũng xuất bản ước tính). Trong các trường hợp cụ thể của địa phương, có thể có các chi phí nghiêm trọng hơn liên quan đến việc không đáp ứng một ngưỡng ý nghĩa.
bột chua

Về mặt thực tế, các khái niệm về lỗi alpha alpha và lỗi Loại 2 chỉ tồn tại trong khung NP nơi nhà phân tích đã chỉ định hai giả thuyết chính xác và cam kết chấp nhận cái này hoặc cái kia ở cuối quy trình. Tuy nhiên, trong thực tế phổ biến, các nhà phân tích thường được cảnh báo không chấp nhận null trên cơ sở ước tính không có ý nghĩa với sức mạnh không chắc chắn, về cơ bản trở lại cách giải thích theo kiểu Fisher, trong đó không chấp nhận null và không có lỗi Loại 2 lỗi.
bột chua

1
Điều thú vị với tôi là các mạng xã hội, tầng lớp xã hội và các tương tác xã hội đằng sau mô tả về "sự đồng thuận" của bạn bằng cách nào đó đã ly dị với niềm tin và giá trị chủ quan làm nền tảng cho tất cả chúng.
Alexis
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.