Thống kê mà không cần kiểm tra giả thuyết


7

Trong các bài đăng trên blog của mình, Andrew Gelman nói rằng anh ta không phải là người hâm mộ thử nghiệm giả thuyết Bayes (xem tại đây: http://andrewgelman.com/2009/02/26/why_i_dont_like/ ), và nếu tôi không phán đoán sai, tôi nghĩ anh ta cũng nói rằng thử nghiệm giả thuyết thường xuyên cũng có những thiếu sót.

Câu hỏi của tôi là: bạn có thể làm các số liệu thống kê mà không cần kiểm tra giả thuyết ngay cả khi kiểm tra giả thuyết (xin lỗi vì sự lặp lại) và đưa ra quyết định không? Là giải pháp chỉ dựa vào ước tính và đưa ra quyết định dựa trên xác suất ước tính? Nếu vậy, bạn có thể chỉ ra nơi để tìm hiểu về điều này?


2
Bạn có thể thử thực hiện mô phỏng bootstrap, nhưng tôi nghĩ đó không phải là một thống kê toán học hoàn chỉnh.
Alexey Burnakov

4
Có lẽ tôi kém xa về phổ tần hơn Gelman nhưng tôi phải nói rằng kiểm tra giả thuyết hiếm khi là một cách tốt để trả lời hầu hết các câu hỏi mà nó sử dụng để giải quyết (chúng tôi nhận được rất nhiều câu hỏi được đặt ra là vấn đề ước tính, trong đó kết thúc bằng "tôi nên sử dụng bài kiểm tra nào?" ... điều đó khiến tôi rất buồn khi mọi người thậm chí không thể thấy rằng họ đã không hỏi một câu hỏi "giống như bài kiểm tra" từ xa; nhiều bài báo trông giống nhau). Thông thường các câu hỏi thực sự là các chốt vuông vức không ngừng đập vào lỗ tròn của một bài kiểm tra giả thuyết cho đến khi bạn không còn nhận thấy rằng chúng không có hình dạng giống như khi bạn bắt đầu.
Glen_b -Reinstate Monica

@Glen_b Tôi đã cố gắng trình bày kết quả (có lúc hấp dẫn, và lần khác thì không) chỉ với ước tính và đồ họa. Nó khá phổ biến mà nó phản bác lại, "Nhưng làm sao chúng ta biết nó [có ý nghĩa / có ý nghĩa / có thể kiểm chứng]?" Điều mà không bao giờ đủ để nói, "Hãy nhìn vào cái hộp này. Nó là." Mặt khác, nếu bạn trình bày không ai từng hỏi ngược lại "Làm thế nào để chúng ta biết hiệu quả có liên quan?" Tôi nghĩ rằng đó là một nghịch lý chủ yếu được thúc đẩy bởi những người không theo thống kê. p<0.05
AdamO

Tôi hiểu những khó khăn; thái độ chắc chắn là một phần của khó khăn trong việc khiến mọi người ít nhất tránh kiểm tra khi họ không có câu hỏi mà bài kiểm tra sẽ trả lời. Người ta có thể tiến hành đưa ra các lỗi tiêu chuẩn (trong các mẫu lớn) và / hoặc các khoảng để chứng minh một số hiệu ứng ước tính không chỉ đơn giản là kết quả của sự thay đổi ngẫu nhiên. Nó làm tôi tự hỏi liệu những người nói rằng những thứ đó thực sự nghĩ rằng điểm null của họ có thực sự đúng hay không (nếu họ tin vào kiểm tra thì có lẽ họ nên thực hiện các bài kiểm tra tương đương ít nhất).
Glen_b -Reinstate Monica

Tôi sẽ thêm hai điểm: kiểm tra giả thuyết được cho là sai phần chính của số liệu thống kê vì nó chiếm một lượng không nhỏ trong giảng dạy thống kê. Nó phản cảm một cách lố bịch, và những dòng chảy triết học biện minh cho điều đó khiến những người sống sót tin rằng nó quan trọng đối với bất kỳ phân tích dữ liệu nào. Thứ hai, bất kỳ khuôn khổ lý thuyết quyết định nào cũng sẽ dẫn đến dương tính giả và phủ định sai: tất cả những gì chúng ta có thể làm là tối đa hóa sức mạnh và định lượng tỷ lệ lỗi loại I.
AdamO

Câu trả lời:


8

Hãy để tôi tự do viết lại câu hỏi là "Những lý lẽ mà Andrew Gelman đưa ra để chống lại thử nghiệm giả thuyết là gì?"

Trong bài báo được liên kết trong bài đăng, các tác giả có vấn đề với việc sử dụng một quy trình cơ học để lựa chọn mô hình , hoặc, khi họ phát biểu nó:

[Raftery] hứa hẹn điều không thể: Việc lựa chọn một mô hình phù hợp với các mục đích cụ thể mà không xem xét các mục đích đó.

Kiểm tra giả thuyết thường xuyên hoặc Bayes là hai ví dụ về các thủ tục cơ học như vậy. Phương pháp cụ thể mà họ chỉ trích là lựa chọn mô hình của BIC, liên quan đến thử nghiệm giả thuyết Bayes. Họ liệt kê hai trường hợp chính khi các thủ tục như vậy có thể thất bại nặng nề:

  1. "Quá nhiều dữ liệu": Giả sử bạn có mô hình hồi quy với, giả sử, 100 hồi quy phân phối chuẩn thông thường. Giả sử rằng mục nhập đầu tiên của là và tất cả các mục nhập khác bằng . Được cung cấp đủ dữ liệu, một thử nghiệm giả thuyết sẽ mang lại rằng tất cả các ước tính của là "đáng kể". Điều này có nghĩa là chúng ta nên bao gồm trong mô hình? Nếu chúng ta quan tâm đến việc khám phá một số mối quan hệ giữa tính năng và kết quả, chúng ta sẽ không tốt hơn khi xem xét một mô hình chỉ có ?yi=βxi+ϵiβ11010βx2,x3,x100x1
  2. "Không đủ dữ liệu": Ở một thái cực khác, nếu kích thước mẫu rất nhỏ, chúng ta sẽ khó có thể tìm thấy bất kỳ mối quan hệ "đáng kể" nào. Điều này có nghĩa là mô hình tốt nhất để sử dụng là mô hình không bao gồm biến hồi quy?

Không có câu trả lời chung cho những câu hỏi này vì chúng phụ thuộc vào mục tiêu của người mẫu trong một tình huống nhất định. Thông thường, chúng ta có thể cố gắng chọn các mô hình dựa trên các tiêu chí có liên quan chặt chẽ hơn với chức năng mục tiêu của chúng tôi, ví dụ mẫu xác thực chéo khi mục tiêu của chúng tôi là dự đoán. Tuy nhiên, trong nhiều tình huống, các thủ tục dựa trên dữ liệu cần được bổ sung bằng phán đoán của chuyên gia (hoặc bằng cách sử dụng phương pháp Bayes với các linh mục được lựa chọn cẩn thận mà Gelman dường như thích).


Trên thực tế, liên quan đến điểm 1, phần lớn học máy đã quan tâm đến vấn đề này: bạn có thể tạo ra một yếu tố dự báo mạnh mẽ từ nhiều yếu tố dự đoán yếu không? Tôi nghĩ rằng có một số lời hứa hợp pháp ở đây. Chẳng hạn, các nghiên cứu của GWAS đã mài giũa những người đóng góp di truyền có thể mắc bệnh tiểu đường ở đâu đó trong khoảng từ 20 đến 100 SNP. Không ai trong số này là tiên lượng đáng chú ý như đã được phát hiện trước đây trong bệnh di truyền khác (nói gen BRCA và mối quan hệ gần như xác định của họ với ung thư vú). Khám phá này không khuyến khích các cách tiếp cận thông thường đối với liệu pháp gen để phòng ngừa.
AdamO

đây là một quan điểm tốt. Sự sẵn có của một quy trình chung và tự động tạo ra các dự đoán mạnh mẽ sẽ làm giảm vai trò của nhà phân tích hơn nữa và thậm chí có thể loại bỏ nó trong nhiều bối cảnh.
Matthias Schmidtblomsher

5

Cách tiếp cận lý thuyết quyết định của Neyman-Pearson đối với thử nghiệm giả thuyết (từ chối / chấp nhận) được kết hợp chặt chẽ với Giả mạo của Popper . Phương pháp này không phải là không hợp lệ, nó chỉ không đáp ứng được lòng tham của con người ngày càng tăng đối với việc tiêu thụ kiến ​​thức, sản phẩm và lợi ích chuyên nghiệp.

Tính hợp lệ của phương pháp tiếp cận khoa học của Popper dựa trên 1. Giả thuyết được chỉ định 2. Chỉ tiến hành nghiên cứu với sức mạnh đầy đủ và 3. Sử dụng kết quả của các nghiên cứu tích cực / tiêu cực với mức độ nghiêm túc như nhau. Chúng ta có (trong học viện, kinh doanh, chính phủ, truyền thông, v.v.) trong thế kỷ qua không làm được điều đó.

Fisher đề xuất một cách làm "thống kê mà không cần kiểm tra giả thuyết". Ông không bao giờ đề xuất rằng giá trị p của mình được so sánh với mức cắt 0,05. Ông nói để báo cáo giá trị p, và báo cáo sức mạnh của nghiên cứu.

Một cách khác được nhiều người đề xuất là chỉ báo cáo các khoảng tin cậy (TCTD). Ý nghĩ là buộc người ta phải đánh giá kết quả của một thử nghiệm dựa trên số lượng vật lý, thay vì số lượng đơn vị (như giá trị p), sẽ khuyến khích họ xem xét các khía cạnh tinh tế hơn như kích thước hiệu ứng, tính dễ hiểu và tính khái quát. Tuy nhiên, ngay cả điều này đã giảm xuống: xu hướng ngày càng tăng là kiểm tra xem CI có vượt qua 0 (hoặc 1 đối với thang tỷ lệ) hay không và tuyên bố kết quả có ý nghĩa thống kê nếu không. Tim Lash gọi đây là thử nghiệm giả thuyết cửa sau.

Có những tranh luận quanh co và vô tận về một kỷ nguyên mới của thử nghiệm giả thuyết. Không ai đã không đề cập đến sự tham lam mà tôi đã nói trước đó. Tôi ấn tượng rằng chúng ta không cần thay đổi cách chúng ta thống kê, chúng ta cần thay đổi cách chúng ta làm khoa học .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.