Mức độ phù hợp của bài kiểm tra sức khỏe: câu hỏi về bài kiểm tra Anderson Anderson Darling và tiêu chí Cramér Kiếm von Mises


10

Tôi đang đọc các trang web về sự tốt của các bài kiểm tra sức khỏe, khi tôi đến với bài kiểm tra Anderson Anderson Darlingtiêu chí CramérTHER von Mises .

Cho đến nay tôi đã nhận được điểm; có vẻ như bài kiểm tra Anderson Anderson Darling và tiêu chí CramérTHER von Mises là tương tự nhau, chỉ dựa trên một hàm trọng số khác nhau . Ngoài ra còn có một biến thể của tiêu chí Cramérôn von Mise có tên là bài kiểm tra Watson .w

Về cơ bản tôi có hai câu hỏi ở đây

  1. Không có nhiều kết quả của Google về hai phương pháp này; họ vẫn còn hiện đại? hoặc thay thế bằng một số phương pháp tốt hơn đã có?

    Đó là một chút ngạc nhiên, vì theo bài viết này về so sánh sức mạnh của Shapiro kèm Wilk, KolmogorovTHER Smirnov, Lilliefors và Anderson-Darling , AD đang hoạt động khá tốt; luôn luôn tốt hơn Lilliefors và KS, và rất gần với thử nghiệm SW, được thiết kế đặc biệt cho phân phối bình thường.

  2. Khoảng tin cậy cho các bài kiểm tra như vậy là gì?

    Đối với các thử nghiệm AD, CM và Watson, tôi đã thấy biến thống kê thử nghiệm được xác định trên các trang wiki, nhưng không tìm thấy khoảng tin cậy.

    KαK

Câu trả lời:


4

Không thể có một trạng thái duy nhất nào cho sự phù hợp (ví dụ: không có thử nghiệm UMP nào qua các lựa chọn thay thế chung, và thực sự không có gì đến gần - ngay cả các thử nghiệm omnibus được đánh giá cao cũng có sức mạnh khủng khiếp trong một số tình huống).

Nói chung khi chọn một thống kê kiểm tra, bạn chọn các loại sai lệch quan trọng nhất để phát hiện và sử dụng một thống kê kiểm tra tốt cho công việc đó. Một số thử nghiệm thực hiện rất tốt ở nhiều lựa chọn thay thế thú vị, khiến chúng trở thành những lựa chọn mặc định hợp lý, nhưng điều đó không làm cho chúng trở thành "trạng thái của nghệ thuật".

Anderson Darling vẫn rất nổi tiếng, và với lý do chính đáng. Thử nghiệm Cramer-von Mises ngày nay ít được sử dụng hơn (tôi ngạc nhiên vì nó thường tốt hơn Kolmogorov-Smirnov, nhưng đơn giản hơn Anderson-Darling - và thường có sức mạnh tốt hơn so với sự khác biệt "ở giữa" phân phối)

Tất cả các thử nghiệm này đều bị sai lệch so với một số loại thay thế và rất dễ tìm thấy các trường hợp mà Anderson-Darling làm tồi tệ hơn (thực sự khủng khiếp) so với các thử nghiệm khác. (Như tôi đề nghị, đó là "ngựa cho các khóa học" nhiều hơn một bài kiểm tra để kiểm soát tất cả chúng). Thật không may, có rất ít sự cân nhắc cho vấn đề này (điều tốt nhất trong việc chọn ra những sai lệch quan trọng nhất với tôi?), Thật không may.

Bạn có thể tìm thấy một số giá trị trong một số bài viết này:

Là Shapiro Kiến Wilk là bài kiểm tra tính bình thường tốt nhất? Tại sao nó có thể tốt hơn các thử nghiệm khác như Anderson-Darling?

2 Mẫu Kolmogorov-Smirnov so với Anderson-Darling vs Cramer-von-Mises (về các thử nghiệm hai mẫu nhưng nhiều tuyên bố mang lại

Động lực cho khoảng cách Kolmogorov giữa các bản phân phối (thảo luận nhiều hơn về lý thuyết nhưng có một số điểm quan trọng về ý nghĩa thực tiễn)


Tôi không nghĩ rằng bạn sẽ có thể hình thành khoảng tin cậy cho cdf trong thống kê Cramer-von Mises và Anderson Darline, bởi vì các tiêu chí dựa trên tất cả các độ lệch thay vì chỉ lớn nhất.


Tôi lấy "trạng thái của nghệ thuật" để chỉ một thứ gì đó tìm thấy việc sử dụng không lỗi thời. Sự tồn tại của nhiều định nghĩa về sự phù hợp sẽ báo hiệu cho chúng ta rằng lòng tốt không phù hợp không phải là một khái niệm duy nhất. Hãy xem xét rằng "tốt" phụ thuộc vào "tại sao" chúng ta đang thực hiện hồi quy. Giả sử chúng ta đang điều chỉnh Mô hình A với dữ liệu B để có được một yếu tố dự đoán tốt nhất về hiệu ứng C. Sau đó, "tốt" là yếu tố dự đoán tốt nhất của C không B. Tuy nhiên, hầu hết các câu hỏi về B và C khác nhau như thế nào đều bị bỏ qua.
Carl

1
@Carl bạn có thể muốn kiểm tra một từ điển (hoặc wikipedia) về trạng thái của nghệ thuật thường được hiểu là gì - cách giải thích của bạn về cụm từ không phải là cách hầu hết mọi người đọc cụm từ. Từ điển nói những điều như thế này: " giai đoạn phát triển gần đây nhất, kết hợp những ý tưởng mới nhất " và " mức độ phát triển cao nhất tại một thời điểm nhất định " và " tiên tiến, sử dụng công nghệ mới nhất ". Trong bối cảnh này - kiểm tra mức độ phù hợp - cụm từ ngụ ý "điều tốt nhất chúng ta có thể làm ngay bây giờ". Tôi khẳng định đó không phải là điều bạn thực sự có thể nói về bất kỳ bài kiểm tra nào. ... ctd
Glen_b -Reinstate Monica

2
... Ví dụ: Chúng ta có thể nói rằng các thử nghiệm phổ biến như Shapiro-Wilk (trong khi rất phổ biến trong thử nghiệm tính bình thường) có các đối thủ cạnh tranh có sức mạnh tốt hơn (ví dụ, xem Shapiro & Chen 1995) - nhưng không phải trong mọi tình huống. Không có lựa chọn thử nghiệm tốt nhất nào (và do đó, không có 'trạng thái nghệ thuật' thực tế). Chắc chắn tôi đồng ý rằng những gì tốt nhất (trạng thái của nghệ thuật) phụ thuộc vào hoàn cảnh --- đó là điểm trả lời của tôi; câu trả lời có thể là vô số - một cái gì đó tốt trong một tình huống có thể rất kém trong một tình huống khác. Nó trả tiền để biết khi nào các bài kiểm tra thực hiện tốt thay vì hỏi "điều gì là tốt nhất" như thể đó là một điều duy nhất.
Glen_b -Reinstate Monica

Đúng, định nghĩa của bạn là chính xác hơn. Tuy nhiên, có nhiều phương pháp hơn các thử nghiệm phương pháp và "trạng thái nghệ thuật" phần lớn là hư cấu, tức là "nghệ thuật" không có "trạng thái" tất cả những gì nó có là nhân vật chính. Bất kỳ phản ứng với một tích cực mơ hồ như vậy là không rõ ràng. Tôi nói 'có' và bạn nói 'không' và cả hai chúng tôi đều nói điều tương tự.
Carl

BTW, câu hỏi là "trạng thái của nghệ thuật" hoặc "thay thế" mà tôi đã hiểu là "lỗi thời hoặc không lỗi thời". Vì vậy, có một bối cảnh cho câu trả lời của tôi là bối cảnh nào "Hãy cho rằng 'trạng thái của nghệ thuật' và 'thay thế' là từ trái nghĩa, và vui lòng chọn một trong số đó." Bạn đúng rằng đó không phải là từ trái nghĩa, tôi đã trả lời trong ngữ cảnh và bạn đã chọn để đặt câu hỏi. Vì vậy, của tôi là câu trả lời lịch sự. Và, tôi sẽ bỏ phiếu cho câu trả lời của bạn, bởi vì tôi nghĩ nó có nhiều thông tin, nếu không muốn nói là quá lịch sự.
Carl

2

n=400 là một thử nghiệm độ tốt phù hợp với chức năng mật độ tích lũy mạnh hơn so với thử nghiệm Kolmogorov-Smirnov và có thể có sức mạnh lớn hơn hoặc thấp hơn thử nghiệm t. Chi-squared gặp khó khăn với số lượng tế bào thấp, do đó, giới hạn phạm vi được sử dụng để lắp đuôi.

** Câu hỏi 1: ... là ... hai phương pháp này ... vẫn còn hiện đại? hoặc thay thế bằng một số phương pháp tốt hơn đã có? Câu hỏi 2 Khoảng tin cậy cho các bài kiểm tra như vậy là gì? **

Trả lời: Họ là nhà nước của nghệ thuật. Tuy nhiên, đôi khi chúng tôi muốn khoảng tin cậy không phải là xác suất. Khi so sánh các phương pháp này với nhau, chúng ta nói về sức mạnh hơn là khoảng tin cậy. Đôi khi, mức độ phù hợp được phân tích bằng AIC, BIC và các tiêu chí khác trái ngược với xác suất phù hợp tốt, và đôi khi tiêu chí về mức độ phù hợp là không phù hợp, ví dụ, khi mức độ phù hợp không phải là tiêu chí phù hợp . Trong trường hợp sau, mục tiêu hồi quy của chúng tôi có thể là một đại lượng vật lý không liên quan đến sự phù hợp, ví dụ, xem Tk-GV .


NB Thử nghiệm Anderson-Darling là phiên bản có trọng số của thử nghiệm Cramer-von Mises; &, giống như nó, phù hợp cho bất kỳ phân phối liên tục.
Scortchi - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.