Câu trả lời:
Cdf theo kinh nghiệm, là tỷ lệ của mẫu tại hoặc dưới .t
Xem xét việc đặt hàng của bạn bằng cách tăng (và tại một giá trị cố định của , đặt hàng bằng cách tăng ).y x
Sau đó, đối với mỗi hàng như vậy (hàng , giả sử), chiều cao của mỗi cdf là * và abscissa tương ứng cho mẫu x luôn ở bên phải của abscissa cho mẫu y. Các chức năng bước có thể trùng khớp, nhưng ecdf x-sample sẽ không bao giờ ở trên / bên trái của ecdf mẫu y.i / n
Thật vậy, hãy tưởng tượng chúng ta "vẽ lên cốt truyện" tất cả các bước nhảy thẳng đứng trong ecdf. Sau đó, một đường nằm ngang được vẽ trên ô ở một giá trị nào đó của sẽ tấn công các bước ecdf ở một giá trị cụ thể của và xuất hiện trong bảng của chúng tôi liệt kê các giá trị mẫu theo thứ tự (thực sự, với giá trị , thật dễ dàng để tìm ra hàng nào sẽ là ), hàng luôn có .y x F † y i ≤ x i
* (hơi phức tạp hơn khi có các giá trị trùng lặp, nhưng không phải theo cách thay đổi đáng kể đối số)
F ≈ 0,481 t y = 194,503 t x = 200,0431 Đối với đường ngang màu xám trong ô ( ), nó tấn công các bước nhảy thẳng đứng của ecdf tại và xảy ra ở hàng thứ 73 của bảng dữ liệu khi được sắp xếp như đã chỉ ra trước đó.
Câu trả lời của Glen_b là đúng, nhưng tôi nghĩ có một cách thậm chí còn đơn giản hơn để chứng minh điều này.
ECDF là một biểu đồ của ( , tỷ lệ các giá trị tại hoặc dưới ). Chúng tôi bắt đầu bằng cách sắp xếp các giá trị theo thứ tự tăng dần: gọi chúng là và . Hơn nữa, từ câu hỏi của bạn, chúng tôi biết rằng hai vectơ có cùng độ dài và cho mọi chỉ số .x x 1 , x 2 , ... , x n y 1 , y 2 , ... , y n y i ≥ x i i
Vì lớn hơn hoặc bằng , phải được đặt ở hoặc bên phải của và, vì chúng là những điểm nhỏ nhất trong danh sách, cả hai đều có tọa độ chiều cao / y của . Cả hai đường cong di chuyển lên trên với cùng tốc độ ( mỗi bước) và sang phải. Tuy nhiên, vì , đường cong di chuyển ít nhất sang bên phải như đường cong trên mỗi bước.x 1 y 1 x 1 1 1 yi>xiYX
Vì đường cong bắt đầu ở hoặc ra bên phải đường cong và mỗi lần cập nhật phụ sẽ đẩy ít nhất là về phía bên phải như , các đường cong không bao giờ cắt nhau.X Y X
Chỉ cần chính thức hóa những gì đã được viết ở trên:
Nếu các CDF emperical được viết lần lượt là và , thì
và tương tự như vậy .
Bây giờ, với bất kỳ nào , chúng ta có thể chỉ ra rằng . Chứng minh điều này bằng mâu thuẫn - Giả sử có một trong đó điều này không giữ và cho thấy rằng phải có một cặp mà .
Do đó, cho tất cả .x
Lưu ý: Có một số giả định ngầm định trong chứng minh này rằng số lượng điểm dữ liệu là hữu hạn. Tôi đoán có thể có các tập dữ liệu vô hạn có cùng kích thước (tức là cardinality). Tôi khá chắc chắn về kết quả, nhưng ít chắc chắn hơn về bằng chứng của kết quả đó.