Mức độ phù hợp cho kích thước mẫu rất lớn


12

Tôi thu thập các mẫu rất lớn (> 1.000.000) dữ liệu phân loại mỗi ngày và muốn xem dữ liệu trông "khác biệt" đáng kể giữa các ngày để phát hiện lỗi trong việc thu thập dữ liệu.

Tôi nghĩ rằng sử dụng một bài kiểm tra phù hợp (đặc biệt là bài kiểm tra G) sẽ phù hợp (ý định chơi chữ) cho việc này. Phân phối dự kiến ​​được đưa ra bởi phân phối của ngày hôm trước.

Nhưng, vì kích thước mẫu của tôi quá lớn, thử nghiệm có công suất rất cao và cho ra nhiều kết quả dương tính giả. Điều đó có nghĩa là, ngay cả một biến động hàng ngày rất nhỏ sẽ cho giá trị p gần như bằng không.

Cuối cùng tôi đã nhân số liệu thống kê kiểm tra của mình với một số hằng số (0,001), có cách diễn giải tốt về việc lấy mẫu dữ liệu ở tốc độ đó. bài viết này dường như đồng ý với phương pháp này. Họ nói rằng:

Chi vuông là đáng tin cậy nhất với các mẫu từ khoảng 100 đến 2500 người

Tôi đang tìm kiếm một số ý kiến ​​có thẩm quyền hơn về điều này. Hoặc có lẽ một số giải pháp thay thế cho dương tính giả khi chạy thử nghiệm thống kê trên các tập dữ liệu lớn.


3
Đó là một câu hỏi hay. Tuy nhiên, không có cơ sở hỗ trợ khách quan cho phương pháp tiếp cận đặc biệt của bạn . Điều đó không có nghĩa là nó sẽ hoạt động kém - nhưng nó thực sự cho thấy có những quy trình tốt hơn. Để tìm ra chúng, sẽ hữu ích nếu bạn có thể chỉnh sửa câu hỏi này để giải thích loại lỗi nào bạn đang cố gắng xác định, bao gồm mức độ lớn của chúng, bao nhiêu trong số chúng có thể xảy ra và hậu quả của (a) không thành công xác định một số lỗi và (b) gắn cờ dữ liệu chính xác là lỗi.
whuber

2
Từ quan điểm toán học, một bài kiểm tra mức độ phù hợp với rất lớn là hoàn toàn tốt - chỉ là giả thuyết null tương ứng không thú vị lắm: Tại sao bạn muốn hỏi một câu hỏi "có / không" khi bạn có thể nhận được câu trả lời "bao nhiêu"? Trong trường hợp của bạn, trên cơ sở hàng ngày, bạn có thể ước tính sự thay đổi tỷ lệ cho mỗi danh mục, thêm khoảng tin cậy mỗi loại và xem liệu chúng có đạt đến vùng dung sai được xác định trước vào khoảng 0.n
Michael M

Việc bạn sử dụng các thuật ngữ như 'đáng kể' và 'dương tính giả' dường như không phù hợp với ý nghĩa thống kê của các thuật ngữ đó, đặc biệt nếu bạn đang thực hiện bài kiểm tra đúng *. Tôi đề nghị bạn tránh những thuật ngữ đó trừ khi bạn sử dụng chúng một cách nghiêm ngặt theo nghĩa kỹ thuật. Vấn đề cơ bản của bạn là một trong việc sử dụng các bài kiểm tra giả thuyết trong các tình huống mà nó có thể không có ý nghĩa gì để làm như vậy; đơn giản, phi kỹ thuật, tiếng Anh câu hỏi thực sự quan tâm của bạn là gì?* (đặc biệt, sử dụng ngày hôm trước làm 'dân số' là không đúng, nếu bạn không cho phép sự thay đổi của nó - nói chung nó cũng biến đổi như ngày nay)
Glen_b -Reinstate Monica

Câu trả lời:


4

Bài kiểm tra đang trả về kết quả chính xác. Các bản phân phối không giống nhau từ ngày này sang ngày khác. Điều này, tất nhiên, không sử dụng cho bạn. Vấn đề bạn đang phải đối mặt đã được biết đến từ lâu. Xem: Karl Pearson và RA Fisher trong các bài kiểm tra thống kê: Một cuộc trao đổi năm 1935 từ thiên nhiên

Thay vào đó, bạn có thể nhìn lại dữ liệu trước đó (của bạn hoặc từ nơi khác) và nhận phân phối thay đổi hàng ngày cho từng danh mục. Sau đó, bạn kiểm tra xem sự thay đổi hiện tại có khả năng đã xảy ra với phân phối đó không. Thật khó để trả lời cụ thể hơn mà không biết về dữ liệu và các loại lỗi, nhưng phương pháp này có vẻ phù hợp hơn với vấn đề của bạn.


4

Hãy tiếp tục và giết con bò thiêng liêng 5%.

Bạn đã (chính xác) chỉ ra rằng vấn đề là sức mạnh quá mức của bài kiểm tra. Bạn có thể muốn hiệu chỉnh lại theo hướng có sức mạnh phù hợp hơn, như nói giá trị truyền thống hơn là 80%:

  1. Quyết định kích thước hiệu ứng bạn muốn phát hiện (ví dụ: thay đổi 0,2%)
  2. 1-β= =80%)
  3. Làm việc trở lại từ lý thuyết hiện tại về kiểm tra Pearson để xác định mức độ sẽ làm cho bài kiểm tra của bạn thực tế.

p1= =p2= =p3= =p4= =p5= =0,2p+δ/n=(0.198,0.202,0.2,0.2,0.2)n=106δ=(2,+2,0,0,0)k=

λ=jδj2/pj=4/0.2+4/0.2=40
λN(μ=λ+k=44,σ2=2(k+2λ)=168)44+13Φ1(0.8)=44+130.84=54.91χ42
Prob[χ42>54.91]=3.31011

χ2

Hãy nhớ rằng mặc dù các xấp xỉ, cả cho null và thay thế, có thể hoạt động kém ở đuôi, xem cuộc thảo luận này .


2

Trong những trường hợp này, giáo sư của tôi đã đề nghị tính toán Cramér's V, đây là thước đo liên kết dựa trên thống kê chi bình phương. Điều này sẽ cung cấp cho bạn sức mạnh và giúp bạn quyết định nếu xét nghiệm quá mẫn cảm. Nhưng, tôi không chắc liệu bạn có thể sử dụng V với loại thống kê mà các bài kiểm tra G2 trả về hay không.

Đây phải là công thức cho V:

ϕc=χ2n(k1)

nkk


0

Một cách tiếp cận sẽ là làm cho sự tốt lành - kiểm tra sự phù hợp có ý nghĩa hơn bằng cách thực hiện chúng trên các khối dữ liệu nhỏ hơn.

Bạn có thể chia dữ liệu của mình từ một ngày nhất định thành ví dụ 1000 khối 1000 mẫu và chạy thử nghiệm mức độ phù hợp riêng cho từng khối, với phân phối dự kiến ​​được cung cấp bởi bộ dữ liệu đầy đủ từ ngày hôm trước. Giữ mức ý nghĩa cho từng thử nghiệm riêng lẻ ở cấp độ bạn đang sử dụng (ví dụ:α= =0,05). Sau đó tìm kiếm sự ra đi đáng kể của tổng số xét nghiệm dương tính từ số lượng dương tính giả dự kiến ​​(theo giả thuyết không có sự khác biệt trong các phân phối, tổng số xét nghiệm dương tính được phân phối nhị phân, với tham sốα).

Bạn có thể tìm thấy kích thước khối tốt để sử dụng bằng cách lấy bộ dữ liệu từ hai ngày mà bạn có thể giả sử phân phối là như nhau và xem kích thước khối nào cho tần suất kiểm tra dương gần bằng α (nghĩa là kích thước khối nào ngăn bài kiểm tra của bạn báo cáo sự khác biệt giả).


Bạn có thể vui lòng giải thích về ý nghĩa của cách tiếp cận này sẽ "có ý nghĩa hơn?"
whuber

Đó là ý nghĩa thống kê so với ý nghĩa trong thế giới thực. Bằng cách sử dụng 10 ^ 3 thay vì 10 ^ 6 mẫu, sức mạnh của một thử nghiệm bị giảm có chủ ý, do đó, các giả thuyết khống sẽ không có xu hướng tương ứng với sự thiếu phù hợp lớn. Điều này làm cho kết quả của một thử nghiệm duy nhất có ý nghĩa hơn vì OP không quan tâm đến "biến động nhỏ hàng ngày". Đối với 10 ^ 6 mẫu, thử nghiệm có thể luôn từ chối H0 vì những khác biệt nhỏ, vì vậy không rõ liệu kết quả thử nghiệm có đại diện cho thông tin có ý nghĩa hay không.
CJ Stoneking

1
Cảm ơn bạn: bình luận của bạn nêu lên những vấn đề thú vị và quan trọng bắt đầu mang đến những gì tôi nghĩ là câu hỏi thực sự tiềm ẩn; cụ thể là, làm thế nào để đo lường sự khác biệt giữa các dữ liệu để phát hiện lỗisự khác biệt lớn sẽ đáng quan ngại như thế nào? Mặc dù câu trả lời của bạn có thể phù hợp trong một số trường hợp, có vẻ như nó sẽ không phát hiện hiệu quả nhiều loại lỗi có thể xảy ra trong dữ liệu và nó cũng để ngỏ câu hỏi (tự nhiên) về việc nên sử dụng khối dữ liệu nào.
whuber

@whuber, vấn đề có thể được xác định lại theo cách sao cho null và độ lệch của nó là bất biến kích thước dữ liệu nhưng tìm kiếm một số đại diện định tính?
Vass
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.