Kiểm tra sự khác biệt đáng kể về tỷ lệ của các biến ngẫu nhiên thường được phân phối


9

Liên quan đến Phân tích tỷ lệ của các biếnLàm thế nào để tham số hóa tỷ lệ của hai biến phân phối thông thường hoặc nghịch đảo của một biến? .

Giả sử tôi có một số mẫu từ bốn phân phối ngẫu nhiên liên tục khác nhau, tất cả chúng ta có thể giả sử là gần như bình thường. Trong trường hợp của tôi, chúng tương ứng với một số số liệu hiệu suất của hai hệ thống tệp khác nhau (giả sử, ext4 và XFS), cả có và không có mã hóa. Số liệu có thể là, ví dụ, số lượng tệp được tạo mỗi giây hoặc độ trễ trung bình cho một số thao tác tệp. Chúng tôi có thể giả định rằng tất cả các mẫu được rút ra từ các bản phân phối này sẽ luôn luôn tích cực. Chúng ta hãy gọi các bản phân phối này trong đó và . fstype{xfs,ext4}encryption{crypto,nocryptPerffstype,encryptionfstype{xfs,ext4}encryption{crypto,nocrypto}

Bây giờ, giả thuyết của tôi là mã hóa làm chậm một trong các hệ thống tập tin bởi một yếu tố lớn hơn so với hệ thống khác. Có một số thử nghiệm đơn giản cho giả thuyết ?E[PerfxfS,crypto]E[Hoàn hảoxfS,nocrypto]<E[Hoàn hảoext4,crypto]E[Hoàn hảoext4,nocrypto]


Một số văn bản dường như đã bị xóa từ giữa câu hỏi này. Bạn có nghĩ rằng bạn có thể khôi phục nó?
whuber

Tôi nghĩ rằng "Như vậy," đã bị bỏ lại ở đó do nhầm lẫn, ít nhất là tôi không thể nghĩ những gì tôi sẽ muốn thêm vào đó. Có lẽ đó là thứ mà cuối cùng tôi đã chuyển sang đoạn thứ hai.
Sami đã nói dối

Bạn có thể phù hợp với một mô hình tuyến tính tổng quát cho phân phối bình thường với chức năng liên kết nhật ký.
onestop

1
"Số lượng tệp" và "độ trễ trung bình" không thể được phân phối bình thường (không thể âm tính khi bắt đầu). Cả hai đều có khả năng bị lệch một chút. Số lượng tập tin là một số lượng riêng biệt.
Glen_b -Reinstate Monica

Câu trả lời:


12

Một thay thế cho câu trả lời hay của StasK là sử dụng phép thử hoán vị. Bước đầu tiên là xác định thống kê kiểm tra , có lẽ:T

T= =Perf^ext4,cryptoPerf^ext4,nocrypto-Perf^xfS,cryptoPerf^xfS,nocrypto

trong đó , có lẽ là trung bình mẫu của các quan sát của , v.v. (Điều này phù hợp với định nghĩa của bạn về giả thuyết là tỷ lệ của kỳ vọng thay vì khả năng thay thế của kỳ vọng tỷ lệ - thay thế có thể là điều bạn thực sự muốn.) Bước thứ hai là hoán vị ngẫu nhiên các nhãn trong dữ liệu nhiều lần, giả sử, và tính cho mỗi hoán vị. Bước cuối cùng là so sánh ban đầu của bạn với được quan sát ; các giá trị p hoán vị ước tính sẽ là phần của . Perfext4,cryptođxt4,xfsi=1,...,10000TiTTiTiTPerf^ext4,cryptoHoàn hảoext4,cryptoext4, xfSTôi= =1,Giáo dục,10000TTôiTTTôiTTôiT

Thử nghiệm hoán vị giải phóng bạn khỏi sự phụ thuộc vào tiệm cận, nhưng tất nhiên tùy thuộc vào kích thước mẫu của bạn (và dữ liệu cũng vậy), phương pháp delta, đôi khi tôi cũng sử dụng, có thể hoạt động tốt.


Đó cũng là một gợi ý hay!
StasK

Lưu ý rằng tỷ lệ của hai biến thông thường tập trung là một biến Cauchy.
Tây An

1
@ Xi'an: Rõ ràng chúng ta có thể cho rằng họ độc lập ở đây? Như bạn biết, điều đó sẽ là cần thiết để giữ kết quả này (và có cơ hội hữu ích).
Đức hồng y

@cardinal: vâng, thực sự, họ sẽ phải độc lập!
Tây An

1
Là một điểm kỹ thuật rất hợm hĩnh - hoán vị hoạt động tốt hơn một chút khi thống kê kiểm tra của bạn là mấu chốt / không liên quan đến các tham số chưa biết / được ổn định phương sai ... ít nhất là dưới null. Với tỷ lệ, bạn có thể thực hiện chuyển đổi sin hình cung. Với số lượng liên tục tích cực, tôi có thể sẽ bắt đầu với các bản ghi. Nhưng đây thực sự là đóng băng trên bánh.
StasK

4

Bạn có thể tính toán sai số chuẩn (tiệm cận) của tỷ lệ bằng phương pháp delta . Nếu bạn có hai biến ngẫu nhiên và Y như rằng XY trong phân phối (mà sẽ là trường hợp nếu bạn có dữ liệu độc lập, nhưng nó cũng sẽ tổ chức trong một trường hợp tổng quát hơn của dữ liệu clustered khi bạn chạy các bài kiểm tra của bạn trên các máy khác nhau), sau đó cho tỷ lệvới analogue dân sốro=μ

n(X¯-μXY¯-μY)N((00),(σXXσXYσXYσYY))
r= =Y¯/X¯ , chúng ta có ro= =μY/μX NếuXYlà độc lập, như thể là hợp lý để giả định trong trường hợp của bạn, sau đó biểu thức này đơn giản hoá phần nào bằng cách thảσXY, vì vậy chúng tôi nhận được rằng các bình phươnghệ số của các biến thểtổng hợp: CV2[r]=CV2[ ˉ X ]+CV2[ ˉ Y ]
n(r-r0)N(0,μY2μX4σXX-2μYμX3σXY+1μX2σYY)
XYσXY
CV2[r]= =CV2[X¯]+CV2[Y¯]
Nó có lợi thế bổ sung rằng kích thước mẫu có thể khác nhau. Hơn nữa, nếu RHS và LHS của bạn độc lập, bạn có thể tạo thống kê -test cho H 0 : không có sự khác biệt bằng cách lấy chênh lệch của các tỷ lệ và chia cho sai số chuẩn tương ứng thu được từ các CV này.zH0:

Tôi hy vọng bạn có thể lấy nó từ đó và thực hiện phần còn lại của các tính toán đường bao để có được công thức cuối cùng.

rr0Ôi(1/n)O(1/n)


Cảm ơn bạn cho câu trả lời tuyệt vời và khai sáng! Tôi nghĩ rằng tôi sẽ chọn bài kiểm tra hoán vị của jbowban cho các nghiên cứu của mình vì tôi nghĩ tôi hiểu nó và những hạn chế của nó tốt hơn, nhưng phương pháp delta chắc chắn trông giống như một thứ tôi cần nghiên cứu và tìm ra.
Sami Liedes

@stask điều này có thể được thực hiện? stats.stackexchange.com/questions/398436/ Mạnh
Xavier Bourret Sicotte

Xavier, tôi nghĩ @ usεr11852 đã trả lời tốt. Tôi sẽ không bận tâm thêm vào đó.
StasK

@StasK - trong những điều kiện các điều kiện bạn nêu trong câu trả lời của bạn là hợp lệ? Sự hội tụ của thống kê tỷ lệ có được đảm bảo bởi giả định trước đó và phương pháp Delta không?
Xavier Bourret Sicotte

Đó là sự không có triệu chứng ... không có gì được đảm bảo và ranh giới lỗi rất khó để có được. Tất cả phương pháp delta (hoặc bất kỳ kết quả hội tụ yếu nào khác) đang nói là khi bạn tăng kích thước mẫu, sự khác biệt giữa phân phối mẫu hữu hạn thực tế từ phân phối tiệm cận sẽ nhỏ hơn. Điều đó có thể có nghĩa là khi bạn tăng kích thước mẫu từ 1000 lên 10000, sự khác biệt theo chiều dọc giữa các cdf sẽ giảm từ 0,2 xuống 0,1 và điều này vẫn không được chấp nhận cho các mục đích thực tế. Hoặc nó có thể có nghĩa là sự khác biệt đi từ 0,01 đến 0,001.
StasK

0

Tỷ lệ của variates bình thường được phân phối Cauchy. Biết rằng, bạn chỉ cần thực hiện một bài kiểm tra yếu tố Bayes.

Đây là một ý tưởng khá tự phát. Bây giờ tôi không chắc chắn về cơ chế tạo dữ liệu. Bạn có cài đặt các hệ thống tệp khác nhau trên cùng một PC và sau đó điểm chuẩn cho hai trường hợp, để chúng tôi có thể giả định cấu trúc dữ liệu phân cấp không?

Ngoài ra tôi không chắc chắn tỷ lệ tìm kiếm thực sự có ý nghĩa.

Và sau đó bạn đã viết tỷ lệ của các giá trị dự kiến, trong khi tôi nghĩ về giá trị kỳ vọng của các tỷ lệ. Tôi đoán tôi cần thêm thông tin về việc tạo dữ liệu trước khi tiếp tục.


1
Tỷ lệ của các chỉ tiêu chỉ là Cauchy nếu (a) chúng độc lập và (b) có cùng phương sai.
Đức hồng y

Tây An có cùng suy nghĩ như tôi đoán ...
chung_p

1
Không rõ ràng (với tôi, ít nhất) rằng bất kỳ cấu trúc độc lập như vậy tồn tại hoặc chúng sẽ có ý nghĩa bằng không. Có lẽ, nếu bạn có thể mở rộng câu trả lời của mình, nó sẽ giúp làm rõ hơn cách tiếp cận mà bạn đang đề xuất. :)
Đức hồng y

1
@cardinal - Tôi nghĩ rằng đó là một tỷ lệ của các quy tắc độc lập với giá trị trung bình bằng 0 có nghĩa là trung bình không và tham số tỷ lệ bằng với tỷ lệ của độ lệch chuẩn thông thường. Nếu họ có ý nghĩa khác không thì đó không phải là khó chịu.
xác suất

@prob: (+1) Bạn nói đúng! Cảm ơn đã nắm bắt điều đó. Tôi đã bỏ "tiêu chuẩn" và "không có nghĩa" trong bình luận đầu tiên của tôi (cái sau đã xoay sở để biến nó thành cái thứ hai của tôi).
Đức hồng y

0

Trong trường hợp bạn không thể thực hiện hoán vị, ví dụ khi kích thước mẫu tạo ra hàng triệu khả năng, một giải pháp khác sẽ là lấy mẫu lại Monte Carlo.

ext4xfsnocryptocryptoext4xfsnocryptocrypto

H0:Tobserved=xnocryptonnocryptoxcryptoncrypto=0

x=ext4xfs

n=samplesize

H0nocryptocryptoTobServed= =0

TreSmộtmptôiTôing= =x1rmộtndom+xnrmộtndomnnocrypto-x1rmộtndom+xnrmộtndomncrypto

TreSmộtmptôiTôingH0nocryptocryptoTobserved(p<0.05)Tresampling

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.