Kiểm tra t mạnh mẽ cho trung bình


17

Tôi đang thử kiểm tra null , dựa vào thay thế cục bộ , cho một biến ngẫu nhiên , chịu sự lệch nhẹ và trung bình của biến ngẫu nhiên. Theo đề xuất của Wilcox trong 'Giới thiệu về Ước tính mạnh mẽ và Thử nghiệm giả thuyết', tôi đã xem xét các thử nghiệm dựa trên giá trị trung bình, trung bình, cũng như ước lượng M của vị trí (thủ tục "một bước" của Wilcox). Các thử nghiệm mạnh mẽ này vượt trội hơn so với thử nghiệm t tiêu chuẩn, về mặt sức mạnh, khi thử nghiệm với phân phối không bị lệch, nhưng leptokurtotic.E[X]=0E[X]>0X

Tuy nhiên, khi thử nghiệm với phân phối bị lệch, các thử nghiệm một phía này quá tự do hoặc quá bảo thủ theo giả thuyết null, tùy thuộc vào việc phân phối bị lệch trái hay phải, tương ứng. Ví dụ, với 1000 quan sát, thử nghiệm dựa trên trung vị sẽ thực sự loại bỏ ~ 40% thời gian, ở mức 5% danh nghĩa. Lý do cho điều này là rõ ràng: đối với các phân phối sai lệch, trung vị và giá trị trung bình khá khác nhau. Tuy nhiên, trong ứng dụng của tôi, tôi thực sự cần kiểm tra giá trị trung bình, không phải trung bình, không phải trung bình cắt.

Có một phiên bản mạnh mẽ hơn của bài kiểm tra t thực sự kiểm tra giá trị trung bình, nhưng không bị xiên và kurtosis?

Lý tưởng nhất là thủ tục sẽ hoạt động tốt trong trường hợp không bị lệch, cao. Thử nghiệm 'một bước' là gần như đủ tốt, với tham số 'uốn cong' được đặt tương đối cao, nhưng nó không mạnh hơn các thử nghiệm trung bình được cắt xén khi không có độ lệch và có một số rắc rối trong việc duy trì mức độ từ chối danh nghĩa khi bị lệch .

Bối cảnh: lý do tôi thực sự quan tâm đến giá trị trung bình, chứ không phải trung bình, là thử nghiệm sẽ được sử dụng trong một ứng dụng tài chính. Ví dụ: nếu bạn muốn kiểm tra xem danh mục đầu tư có lợi nhuận nhật ký dự kiến ​​dương hay không, giá trị trung bình thực sự phù hợp bởi vì nếu bạn đầu tư vào danh mục đầu tư, bạn sẽ trải nghiệm tất cả lợi nhuận (gấp đôi số lần lấy mẫu), thay vì trùng lặp của trung vị. Đó là, tôi thực sự quan tâm đến tổng của rút ra từ RV .nnX


Có một lý do nào cấm sử dụng bài kiểm tra tiếng Wales không? Hãy nhìn vào câu trả lời của tôi cho câu hỏi này ( stats.stackexchange.com/questions/305/... ) nơi mà tôi đề cập đến một bài báo ủng hộ việc sử dụng Welch trong trường hợp không bình thường và các biến ngẫu nhiên.
Henrik

1
tốt, vấn đề là tôi muốn thử nghiệm 1 mẫu chứ không phải thử nghiệm 2 mẫu! Tôi đang thử nghiệm vô giá trị , và không E [ X 1 ] = E [ X 2 ] . Tôi sẽ tra cứu Kubinger et. al., giấy (Ich kann schlecht Deutsche). E[X]=μE[X1]=E[X2]
shabbychef

Cảm ơn đã làm rõ. Trong trường hợp này, giấy Kubinger sẽ không hữu ích cho bạn. Tôi xin lỗi.
Henrik

Câu trả lời:


5

Tại sao bạn nhìn vào các xét nghiệm không tham số? Các giả định của bài kiểm tra t có bị vi phạm không? Cụ thể, dữ liệu thứ tự hoặc không bình thường và phương sai bất tiện? Tất nhiên, nếu mẫu của bạn đủ lớn, bạn có thể chứng minh phép thử t tham số với sức mạnh lớn hơn của nó mặc dù thiếu tính quy tắc trong mẫu. Tương tự như vậy nếu mối quan tâm của bạn là phương sai không bằng nhau, có các hiệu chỉnh đối với phép thử tham số mang lại giá trị p chính xác (hiệu chỉnh tiếng Wales).

Mặt khác, so sánh kết quả của bạn với kiểm tra t không phải là một cách tốt để làm điều này, bởi vì kết quả kiểm tra t bị sai lệch khi các giả định không được đáp ứng. Mann-Whitney U là một lựa chọn không tham số thích hợp, nếu đó là những gì bạn thực sự cần. Bạn chỉ mất điện nếu bạn đang sử dụng thử nghiệm không tham số khi bạn có thể sử dụng thử nghiệm t một cách chính đáng (vì các giả định được đáp ứng).

Và, chỉ để có thêm một số nền tảng, hãy đến đây ...

http://www.jerrydallal.com/LHSP/STUDENT.HTM


dữ liệu chắc chắn là không bình thường Kurtosis dư thừa theo thứ tự 10-20, độ nghiêng theo thứ tự -0,2 đến 0,2. Tôi đang thực hiện bài kiểm tra 1 mẫu, vì vậy tôi không chắc chắn mình sẽ theo dõi bạn về 'phương sai không bằng nhau' hay bài kiểm tra U.
shabbychef

Tôi chấp nhận lời khuyên 'sử dụng thử nghiệm tham số'. nó không giải quyết chính xác câu hỏi của tôi, nhưng câu hỏi của tôi có lẽ đã quá mở.
shabbychef

12

Tôi đồng ý rằng nếu bạn thực sự muốn kiểm tra xem phương tiện của nhóm có khác nhau hay không (trái ngược với kiểm tra sự khác biệt giữa các trung bình nhóm hoặc phương tiện được cắt, v.v.), thì bạn không muốn sử dụng một bài kiểm tra không tham số để kiểm tra một giả thuyết khác.

  1. Trong các giá trị p nói chung từ phép thử t có xu hướng khá chính xác với các lần khởi hành vừa phải của giả định về tính chuẩn của phần dư. Hãy xem applet này để có trực giác về sự mạnh mẽ này: http://onlinestatbook.com/stat_sim/robustness/index.html

  2. Nếu bạn vẫn lo ngại về việc vi phạm giả định quy tắc, bạn có thể muốn bootstrap . ví dụ: http://biostat.mc.vanderbilt.edu/wiki/pub/Main/JenniferThndry/ms_mtg_18oct07.pdf

  3. Bạn cũng có thể chuyển đổi biến phụ thuộc sai lệch để giải quyết các vấn đề với các lần khởi hành từ tính quy tắc.


2
+1 câu trả lời hay và rõ ràng. Jeromy, tôi có thể hỏi một câu về điểm 3 không? Tôi hiểu lý do đằng sau việc chuyển đổi dữ liệu, nhưng điều gì đó luôn khiến tôi bận tâm về việc đó. Tính hợp lệ của việc báo cáo kết quả kiểm tra t trên dữ liệu được chuyển đổi thành dữ liệu chưa được dịch (trong trường hợp bạn không "được phép" thực hiện kiểm tra t) là gì? Nói cách khác, nếu hai nhóm khác nhau khi dữ liệu là, ví dụ, nhật ký được chuyển đổi, thì dựa trên cơ sở nào bạn có thể nói dữ liệu thô cũng khác nhau? Nghĩ thầm, tôi không phải là một nhà thống kê, vì vậy có lẽ tôi vừa nói điều gì đó hoàn toàn ngu ngốc :)
nico

2
@nico Tôi không chắc về cách báo cáo hoặc suy nghĩ về kết quả, nhưng nếu tất cả những gì bạn muốn hiển thị là đối với một số X và Y, mu_X! = mu_Y, thì điều đó đúng với tất cả X_i <X_j, log ( X_i) <log (X_j) và cho tất cả X_i> X_j, log (X_i)> log (X_j). Đó là lý do tại sao đối với các thử nghiệm không tham số hoạt động theo cấp bậc, việc chuyển đổi dữ liệu không ảnh hưởng đến kết quả. Tôi nghĩ từ điều này, bạn có thể giả sử rằng nếu một số thử nghiệm cho thấy mu_log (X)! = Mu_log (Y), thì mu_X! = Mu_Y.
JoFrhwld

cảm ơn vì câu trả lời thật vậy, thử nghiệm t dường như duy trì tỷ lệ loại I danh nghĩa dưới đầu vào xiên / kurtotic nhẹ. tuy nhiên, tôi đã hy vọng cho một cái gì đó có sức mạnh hơn. re: 2, tôi đã thực hiện Wilcox ' trimpbtrimcibt, nhưng chúng hơi chậm để thực hiện các bài kiểm tra sức mạnh của tôi, ít nhất là theo sở thích của tôi. re: 3, tôi đã nghĩ đến phương pháp này, nhưng tôi quan tâm đến ý nghĩa của dữ liệu chưa được chuyển đổi (nghĩa là tôi không so sánh 2 RV với thử nghiệm t, trong trường hợp đó, một biến đổi đơn điệu sẽ tốt cho một so sánh dựa trên xếp hạng, như được ghi nhận bởi @JoFrhwld.)
shabbychef

2
@nico Nếu sự phân bố dân số của phần dư là giống nhau ở hai nhóm, thì tôi tưởng tượng bất cứ lúc nào có sự khác biệt về nhóm dân số thô nghĩa là cũng sẽ có sự khác biệt về phương tiện của một biến đổi bảo toàn trật tự. Điều đó nói rằng, giá trị p và khoảng tin cậy sẽ có xu hướng thay đổi một chút dựa trên việc bạn đang sử dụng dữ liệu thô hoặc dữ liệu được chuyển đổi. Nói chung, tôi thích sử dụng các phép biến đổi khi chúng có vẻ như là một số liệu có ý nghĩa để hiểu biến số (ví dụ: thang Richter, decibel, nhật ký đếm, v.v.).
Jeromy Anglim

3

t

'Mới nhất và vĩ đại nhất' là do Ogaswara , với các tài liệu tham khảo trong đó đến Hall và những người khác.


0

Tôi không có đủ danh tiếng cho một nhận xét, do đó, như một câu trả lời: Hãy xem sự vôi hóa này . Tôi nghĩ rằng điều này cung cấp một câu trả lời tuyệt vời. Tóm lại:

Hiệu suất tiệm cận nhạy cảm hơn nhiều so với độ lệch so với tính bình thường ở dạng lệch so với ở dạng kurtosis ... Do đó, bài kiểm tra t của Học sinh rất nhạy cảm với độ lệch nhưng tương đối mạnh mẽ đối với các đuôi nặng, và việc sử dụng một bài kiểm tra là hợp lý tính quy phạm được hướng tới các lựa chọn thay thế trước khi áp dụng thử nghiệm t.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.