Làm thế nào để bạn xác minh các giả định kiểm tra trong các trường hợp thực tế, mà không kiểm tra chúng


9

Chúng tôi biết rằng, về mặt chính thức, các giả định của thử nghiệm không thể được kiểm tra, bởi vì nếu chúng tôi chọn thử nghiệm nào sẽ sử dụng dựa trên kết quả của thử nghiệm, thử nghiệm tổng hợp kết quả có các thuộc tính không xác định (tỷ lệ lỗi Loại I và II). Tôi nghĩ rằng đây là một trong những lý do tại sao cách tiếp cận thống kê "Six Sigma" (sử dụng cây quyết định dựa trên kết quả kiểm tra để chọn sử dụng thử nghiệm nào) có được một bản rap tệ trong số các nhà thống kê chuyên nghiệp.

Tuy nhiên, với dữ liệu trong thế giới thực, chúng ta thường lấy các mẫu mà các giả định cổ điển có thể không giữ được, và do đó chúng ta cần kiểm tra theo cách này hay cách khác. Vì vậy, những gì bạn thực sự làm trong công việc / nghiên cứu của bạn? Thực hiện kiểm tra không chính thức, ví dụ, hãy xem phân phối dữ liệu và sử dụng t-test khi phân phối theo kinh nghiệm dường như không quá sai lệch? Đây là những gì tôi thấy được thực hiện hầu hết thời gian. Tuy nhiên, miễn là chúng tôi đưa ra quyết định dựa trên kết quả của "thử nghiệm không chính thức" này, chúng tôi vẫn ảnh hưởng đến các thuộc tính thử nghiệm và tất nhiên nếu chúng tôi không sử dụng séc để đưa ra quyết định, thì séc là vô dụng và chúng tôi Không nên lãng phí thời gian quý báu để làm điều đó. Tất nhiên, bạn có thể trả lời tôi rằng các thuộc tính kiểm tra chính thức được đánh giá cao và trong thực tế, chúng ta không cần phải tôn giáo về điều đó. Đây là lý do tại sao tôi quan tâm đến những gì bạn làm trong thực tế, không chỉ từ nền tảng lý thuyết.

Một cách tiếp cận khác là luôn luôn sử dụng thử nghiệm với ít giả định hơn. Thông thường, tôi đã thấy cách tiếp cận này được đóng khung là thích các thử nghiệm không theo tỷ lệ hơn so với các thử nghiệm tham số , vì trước đây không cho rằng các thống kê kiểm tra xuất phát từ một họ các phân phối được lập chỉ mục bởi một vectơ tham số, do đó sẽ mạnh mẽ hơn (ít giả định hơn ). Điều này nói chung có đúng không? Với phương pháp này, chúng ta không mạo hiểm sử dụng các bài kiểm tra thiếu năng lực trong một số trường hợp? Tôi không chắc. Có một tài liệu tham khảo hữu ích (có thể đơn giản) cho các thống kê được áp dụng, liệt kê một danh sách các thử nghiệm / mô hình sẽ sử dụng, như là các lựa chọn thay thế tốt hơn cho các thử nghiệm cổ điển (t-test, Chi-vuông, v.v.) và khi nào nên sử dụng chúng?


Sáu phương pháp Sigma được thiết kế cho các quy trình đã và sẽ được chạy đi chạy lại, ví dụ như trong sản xuất. Họ có rất ít hoặc không có gì để nói về các vấn đề liên quan đến dữ liệu (thông tin) là tùy chỉnh và ad hoc, ex novo hoặc hoàn toàn mới lạ. Điều này có nghĩa là khám phá kiến ​​thức thực sự vốn đã có rủi ro và đòi hỏi phải nhân rộng để tận hiến.
Mike Hunter

Câu trả lời:


2

Những gì tôi đã thấy được thực hiện thường xuyên nhất (và có xu hướng tự làm) là xem xét một số bộ dữ liệu lịch sử từ cùng một khu vực cho cùng một biến và sử dụng nó làm cơ sở để quyết định điều gì là phù hợp. Khi thực hiện điều đó, tất nhiên nên nhớ rằng độ lệch nhẹ so với tính quy tắc trong phần dư hồi quy thường không quá nhiều vấn đề với các cỡ mẫu đủ lớn trong ứng dụng được lên kế hoạch. Bằng cách xem xét dữ liệu độc lập, người ta tránh được vấn đề làm rối các thuộc tính kiểm tra như kiểm soát lỗi loại I (rất quan trọng trong một số lĩnh vực như thử nghiệm lâm sàng xác nhận cho các mục đích quy định). Lý do cho (khi thích hợp) sử dụng các phương pháp tham số là, như bạn nói, hiệu quả,


Thú vị - nếu tôi có nhiều bộ dữ liệu hơn, tôi sẽ cố gắng tổng hợp để đạt được sức mạnh, nhưng không tổng hợp và dự trữ dữ liệu lịch sử để kiểm tra giả định là một ý tưởng thay thế thú vị. Cũng xem xét tài liệu có thể giúp đỡ. Chắc chắn đồng ý về thực tế là ước tính kích thước hiệu ứng từ các phương pháp tham số dễ diễn giải hơn.
DeltaIV

1
Tôi đoán đến từ ngành công nghiệp dược phẩm, tôi đã suy nghĩ về các thử nghiệm của các loại thuốc khác nhau. Nếu việc kiểm soát tỷ lệ lỗi loại I nghiêm ngặt là không cần thiết và cần nhiều hơn cho việc ra quyết định nội bộ, tôi đoán người ta vẫn có thể sử dụng các thử nghiệm trước đây của các loại thuốc khác để lấy ưu tiên cho nhóm kiểm soát, nhưng trọng tâm thường là phân tích thử nghiệm mới của một loại thuốc mới. Điều đó có thể giải thích quan điểm cụ thể của tôi.
Bjorn

0

Cá nhân, tôi thích chạy thử nghiệm tham số và tương đương không tham số của nó và kiểm tra các giả định của từng loại một. Nếu các giả định của thử nghiệm tham số không vi phạm ồ ạt hoặc nếu tôi nhận được kết quả tương tự với văn bản không tham số, tôi sẽ sử dụng thử nghiệm tham số. Ngay cả khi các giả định tham số bị vi phạm, nếu bạn nhận được kết quả quan trọng, bạn có thể khá tin tưởng vào chúng vì bài kiểm tra đã bị suy yếu do vi phạm. Ngoài ra, hãy trung thực, thật khó để đưa ra một diễn giải có ý nghĩa về kết quả như "nhóm A có điểm thứ hạng trung bình cao hơn 12 so với điểm thứ hạng trung bình của nhóm B."


Nếu bạn kiểm tra các giả định của kiểm tra tham số và sử dụng tính không tham số khi các giả định của trình định dạng bị vi phạm, thì ngược lại, trở lại tham số tham số, thì bạn đang sử dụng một phép thử tổng hợp các thuộc tính không xác định. Bạn có nghĩ rằng đây không phải là một vấn đề quan trọng? Tôi đồng ý về những khó khăn trong việc diễn giải kết quả của một số bài kiểm tra không tham số - ví dụ, trong Mann Whitney Wilcoxon, quy mô và vị trí bị nhầm lẫn, điều này chắc chắn không đơn giản hóa việc giải thích.
DeltaIV

1
Thành thật mà nói, tôi đã không nghĩ về nó theo cách đó. Nó làm tăng một điểm tốt. Cuối cùng, tôi nghĩ, ít nhất là đối với công việc mà tôi làm, kết quả rõ ràng dễ hiểu mà không vi phạm ồ ạt các giả định kiểm tra là mối quan tâm lớn nhất. Mọi người có xu hướng có một thời gian đủ khó để hiểu số liệu thống kê nào.
JRF1111
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.