CDF có thể chéo dữ liệu với CDF khác không


8

Cho hai tập dữ liệu gồm các số thực dương X và Y, cả hai cùng kích thước và 0 <= Y <= X cho mỗi hàng; CDF theo kinh nghiệm của X có thể vượt qua CDF theo kinh nghiệm của Y không?

Câu trả lời:


4

Cdf theo kinh nghiệm, là tỷ lệ của mẫu tại hoặc dưới .tF^(t)t

Xem xét việc đặt hàng của bạn bằng cách tăng (và tại một giá trị cố định của , đặt hàng bằng cách tăng ).y xyyx

Sau đó, đối với mỗi hàng như vậy (hàng , giả sử), chiều cao của mỗi cdf là * và abscissa tương ứng cho mẫu x luôn ở bên phải của abscissa cho mẫu y. Các chức năng bước có thể trùng khớp, nhưng ecdf x-sample sẽ không bao giờ ở trên / bên trái của ecdf mẫu y.i / nii/n

nhập mô tả hình ảnh ở đây

Thật vậy, hãy tưởng tượng chúng ta "vẽ lên cốt truyện" tất cả các bước nhảy thẳng đứng trong ecdf. Sau đó, một đường nằm ngang được vẽ trên ô ở một giá trị nào đó của sẽ tấn công các bước ecdf ở một giá trị cụ thể của và xuất hiện trong bảng của chúng tôi liệt kê các giá trị mẫu theo thứ tự (thực sự, với giá trị , thật dễ dàng để tìm ra hàng nào sẽ là ), hàng luôn có .y x F y ix iFyxFyixi

* (hơi phức tạp hơn khi có các giá trị trùng lặp, nhưng không phải theo cách thay đổi đáng kể đối số)

F 0,481 t y = 194,503 t x = 200,0431 Đối với đường ngang màu xám trong ô ( ), nó tấn công các bước nhảy thẳng đứng của ecdf tại và xảy ra ở hàng thứ 73 của bảng dữ liệu khi được sắp xếp như đã chỉ ra trước đó.F0.481ty=194.4503tx=200.0431


2

Câu trả lời của Glen_b là đúng, nhưng tôi nghĩ có một cách thậm chí còn đơn giản hơn để chứng minh điều này.

ECDF là một biểu đồ của ( , tỷ lệ các giá trị tại hoặc dưới ). Chúng tôi bắt đầu bằng cách sắp xếp các giá trị theo thứ tự tăng dần: gọi chúng là và . Hơn nữa, từ câu hỏi của bạn, chúng tôi biết rằng hai vectơ có cùng độ dài và cho mọi chỉ số .x x 1 , x 2 , ... , x n y 1 , y 2 , ... , y n y ix i ixxx1,x2,,xny1,y2,,ynyixii

Vì lớn hơn hoặc bằng , phải được đặt ở hoặc bên phải của và, vì chúng là những điểm nhỏ nhất trong danh sách, cả hai đều có tọa độ chiều cao / y của . Cả hai đường cong di chuyển lên trên với cùng tốc độ ( mỗi bước) và sang phải. Tuy nhiên, vì , đường cong di chuyển ít nhất sang bên phải như đường cong trên mỗi bước.x 1 y 1 x 1 1y1x1y1x1 11n yi>xiYX1nyi>xiYX

Vì đường cong bắt đầu ở hoặc ra bên phải đường cong và mỗi lần cập nhật phụ sẽ đẩy ít nhất là về phía bên phải như , các đường cong không bao giờ cắt nhau.X Y XYXYX


0

Chỉ cần chính thức hóa những gì đã được viết ở trên:

Nếu các CDF emperical được viết lần lượt là và , thìFXFY

FX(x)=1nxiI(xix) và tương tự như vậy .FY(x)=1nyiI(yix)

Bây giờ, với bất kỳ nào , chúng ta có thể chỉ ra rằng . Chứng minh điều này bằng mâu thuẫn - Giả sử có một trong đó điều này không giữ và cho thấy rằng phải có một cặp mà .xI(xix)I(yix)x(xi,yi)yi>xi

Do đó, cho tất cả .xFX(x)FY(x)x

Lưu ý: Có một số giả định ngầm định trong chứng minh này rằng số lượng điểm dữ liệu là hữu hạn. Tôi đoán có thể có các tập dữ liệu vô hạn có cùng kích thước (tức là cardinality). Tôi khá chắc chắn về kết quả, nhưng ít chắc chắn hơn về bằng chứng của kết quả đó.


Với vô số điểm dữ liệu, chính xác bạn sẽ xác định CDF theo kinh nghiệm như thế nào?
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.