Ý tưởng chính là phân phối lấy mẫu của trung vị là đơn giản để biểu thị theo hàm phân phối nhưng phức tạp hơn để biểu thị theo giá trị trung bình. Khi chúng ta hiểu làm thế nào hàm phân phối có thể biểu thị lại các giá trị dưới dạng xác suất và quay lại lần nữa, thật dễ dàng để lấy được phân phối lấy mẫu chính xác của trung vị. Một phân tích nhỏ về hành vi của hàm phân phối gần trung vị của nó là cần thiết để chỉ ra rằng điều này là không bình thường.
(Phân tích tương tự làm việc cho phân phối lấy mẫu của bất kỳ lượng tử nào, không chỉ trung vị.)
Tôi sẽ không cố gắng nghiêm ngặt trong việc trình bày này, nhưng tôi thực hiện nó theo các bước dễ dàng được chứng minh một cách nghiêm ngặt nếu bạn có ý định làm điều đó.
Trực giác
Đây là những bức ảnh chụp hộp chứa 70 nguyên tử khí nguyên tử nóng:
Trong mỗi hình ảnh, tôi đã tìm thấy một vị trí, được hiển thị dưới dạng một đường thẳng đứng màu đỏ, phân chia các nguyên tử thành hai nhóm bằng nhau giữa bên trái (được vẽ dưới dạng các chấm đen) và bên phải (các chấm trắng). Đây là trung vị của các vị trí: 35 nguyên tử nằm bên trái và 35 bên phải. Các trung vị thay đổi vì các nguyên tử đang di chuyển ngẫu nhiên xung quanh hộp.
Chúng tôi quan tâm đến việc phân phối vị trí giữa này. Một câu hỏi như vậy được trả lời bằng cách đảo ngược thủ tục của tôi: trước tiên hãy vẽ một đường thẳng đứng ở đâu đó, nói tại vị trí . Cơ hội mà một nửa các nguyên tử sẽ ở bên trái của x và một nửa ở bên phải của nó là gì? Các nguyên tử ở bên trái riêng lẻ có cơ hội x ở bên trái. Các nguyên tử ở bên phải riêng lẻ có cơ hội 1 - x ở bên phải. Giả sử vị trí của họ là độc lập thống kê, cơ hội sẽ nhân lên, cho x 35 ( 1 - x ) 35xxx1−xx35(1−x)35cho cơ hội của cấu hình cụ thể này. Một cấu hình tương đương có thể đạt được cho sự phân chia khác nhau của nguyên tử thành hai phần 35 tầng . Thêm các số này cho tất cả các phân chia có thể có như vậy sẽ có cơ hội7035
Pr(x is a median)=Cxn/2(1−x)n/2
Trong đó là tổng số nguyên tử và tỷ lệ thuận với số lần chia của các nguyên tử thành hai nhóm nhỏ bằng nhau.C nnCn
Công thức này xác định sự phân bố của các trung bình như một Beta phân phối(n/2+1,n/2+1) .
Bây giờ hãy xem xét một hộp có hình dạng phức tạp hơn:
Một lần nữa, trung vị khác nhau. Vì hộp thấp gần trung tâm, nên không có nhiều thể tích của nó ở đó: một sự thay đổi nhỏ trong thể tích chiếm bởi một nửa số nguyên tử (một lần nữa là màu đen) - hoặc, chúng ta cũng có thể thừa nhận, các khu vực ở phía bên trái như trong những con số - tương ứng với một sự thay đổi tương đối lớn trong vị trí nằm ngang của trung bình. Trên thực tế, do diện tích được phụ thuộc bởi một phần nằm ngang nhỏ của hộp tỷ lệ thuận với chiều cao ở đó, nên những thay đổi về trung vị được chia cho chiều cao của hộp. Điều này làm cho trung vị biến đổi nhiều hơn cho hộp này so với hộp vuông, bởi vì cái này thấp hơn rất nhiều ở giữa.
Nói tóm lại, khi chúng ta đo vị trí của dải trung vị theo diện tích (bên trái và bên phải), phân tích ban đầu (đối với hộp vuông) không thay đổi. Hình dạng của hộp chỉ làm phức tạp sự phân phối nếu chúng ta khăng khăng đo trung vị theo vị trí nằm ngang của nó. Khi chúng ta làm như vậy, mối quan hệ giữa diện tích và vị trí đại diện tỷ lệ nghịch với chiều cao của hộp.
Có nhiều hơn để học hỏi từ những hình ảnh. Rõ ràng là khi một vài nguyên tử nằm trong hộp (một trong hai), có nhiều khả năng một nửa trong số chúng có thể vô tình cuộn lại thành cụm ở hai bên. Khi số lượng nguyên tử tăng lên, khả năng mất cân bằng cực độ như vậy sẽ giảm. Để theo dõi điều này, tôi đã lấy "phim" - một chuỗi dài 5000 khung hình - cho hộp cong chứa đầy , rồi , , và cuối cùng là nguyên tử, và ghi chú các trung vị. Dưới đây là biểu đồ của các vị trí trung bình:15 75 37531575375
Rõ ràng, với số lượng nguyên tử đủ lớn, sự phân bố vị trí trung bình của chúng bắt đầu trông giống hình chuông và ngày càng hẹp hơn: trông giống như một kết quả Định lý giới hạn trung tâm, phải không?
Kết quả định lượng
"Hộp", tất nhiên, mô tả mật độ xác suất của một số phân phối: trên cùng của nó là biểu đồ của hàm mật độ (PDF). Do đó, các khu vực đại diện cho xác suất. Đặt điểm ngẫu nhiên và độc lập trong một hộp và quan sát vị trí nằm ngang của chúng là một cách để lấy mẫu từ phân phối. (Đây là ý tưởng đằng sau lấy mẫu từ chối. )n
Hình tiếp theo kết nối những ý tưởng này.
Điều này có vẻ phức tạp, nhưng nó thực sự khá đơn giản. Có bốn lô liên quan ở đây:
Biểu đồ trên cùng hiển thị bản PDF của bản phân phối cùng với một mẫu ngẫu nhiên có kích thước . Các giá trị lớn hơn trung vị được hiển thị dưới dạng các chấm trắng; các giá trị nhỏ hơn trung vị là các chấm đen. Nó không cần tỷ lệ dọc vì chúng ta biết tổng diện tích là sự thống nhất.n
Biểu đồ giữa là hàm phân phối tích lũy cho cùng một phân phối: nó sử dụng chiều cao để biểu thị xác suất. Nó chia sẻ trục ngang của nó với cốt truyện đầu tiên. Trục dọc của nó phải đi từ đến vì nó đại diện cho xác suất.101
Cốt truyện bên trái có nghĩa là được đọc sang một bên: đó là bản PDF của bản phân phối Beta . Nó cho thấy trung vị trong hộp sẽ thay đổi như thế nào, khi trung vị được đo theo các khu vực ở bên trái và bên phải của giữa (thay vì được đo bởi vị trí nằm ngang của nó). Tôi đã rút ra điểm ngẫu nhiên từ bản PDF này, như được hiển thị và kết nối chúng với các đường đứt nét ngang với các vị trí tương ứng trên CDF gốc: đây là cách các khối lượng (được đo ở bên trái) được chuyển đổi sang các vị trí (được đo trên đỉnh, giữa và đồ họa phía dưới). Một trong những điểm này thực sự tương ứng với trung vị được hiển thị trong cốt truyện hàng đầu; Tôi đã vẽ một đường thẳng đứng vững chắc để thể hiện điều đó.16(n/2+1,n/2+1)16
Biểu đồ dưới cùng là mật độ lấy mẫu của trung vị, được đo bằng vị trí nằm ngang của nó. Nó có được bằng cách chuyển đổi khu vực (trong ô bên trái) sang vị trí. Công thức chuyển đổi được đưa ra bởi nghịch đảo của CDF gốc: đây đơn giản là định nghĩa của CDF nghịch đảo! (Nói cách khác, CDF chuyển đổi vị trí thành khu vực bên trái; CDF nghịch đảo chuyển đổi từ khu vực này sang vị trí khác.) Tôi đã vẽ các đường đứt nét dọc cho thấy cách các điểm ngẫu nhiên từ ô bên trái được chuyển đổi thành các điểm ngẫu nhiên trong ô dưới cùng . Quá trình đọc qua và sau đó xuống cho chúng ta biết làm thế nào để đi từ khu vực này đến vị trí khác.
Đặt là CDF của phân phối gốc (lô giữa) và là CDF của phân phối Beta. Để tìm cơ hội trung vị nằm ở bên trái của một số vị trí , trước tiên, sử dụng để lấy khu vực bên trái của trong hộp: đây là chính . Phân phối Beta ở bên trái cho chúng ta cơ hội rằng một nửa số nguyên tử sẽ nằm trong tập này, cho : đây là CDF của vị trí trung bình . Để tìm tệp PDF của nó (như được hiển thị trong ô dưới cùng), hãy lấy đạo hàm:FGxFxF(x)G(F(x))
ddxG(F(x))=G′(F(x))F′(x)=g(F(x))f(x)
Trong đó là PDF (âm mưu trên cùng) và là Beta PDF (âm mưu bên trái).fg
Đây là một công thức chính xác để phân phối trung vị cho bất kỳ phân phối liên tục. (Với sự cẩn thận trong diễn giải, nó có thể được áp dụng cho bất kỳ phân phối nào, dù liên tục hay không.)
Kết quả tiệm cận
Khi là rất lớn và không có một bước nhảy tại trung bình của nó, là trung bình mẫu phải thay đổi chặt chẽ xung quanh đúng trung bình của phân phối. Ngoài ra, giả sử PDF liên tục gần , trong công thức trước sẽ không thay đổi nhiều so với giá trị của nó tại được đưa ra bởi Hơn nữa, sẽ không thay đổi nhiều so với giá trị của nó ở đó: theo thứ tự đầu tiên,nFμfμ f(x)μ,f(μ).F
F(x)=F(μ+(x−μ))≈F(μ)+F′(μ)(x−μ)=1/2+f(μ)(x−μ).
Do đó, với một xấp xỉ ngày càng hoàn thiện khi phát triển lớn hơn,n
g(F(x))f(x)≈g(1/2+f(μ)(x−μ))f(μ).
Đó chỉ đơn thuần là sự thay đổi vị trí và quy mô phân phối Beta. Việc thay đổi kích thước theo sẽ chia phương sai của nó cho (tốt hơn là không khác!). Ngẫu nhiên, phương sai của Beta rất gần với .f(μ)f(μ)2(n/2+1,n/2+1)n/4
Phân tích này có thể được xem như là một ứng dụng của Phương pháp Delta .
Cuối cùng, Beta xấp xỉ Bình thường đối với lớn . Có nhiều cách để thấy điều này; có lẽ đơn giản nhất là nhìn vào logarit của tệp PDF gần :(n/2+1,n/2+1)n1/2
log(C(1/2+x)n/2(1/2−x)n/2)=n2log(1−4x2)+C′=C′−2nx2+O(x4).
(Các hằng số và chỉ đơn giản hóa tổng diện tích thành thống nhất.) Thông qua thứ tự thứ ba trong sau đó, đây giống như nhật ký của PDF bình thường với phương sai (Đối số này được thực hiện nghiêm ngặt bằng cách sử dụng các hàm tạo đặc trưng hoặc tích lũy thay vì nhật ký của PDF.)CC′x,1/(4n).
Đặt điều này hoàn toàn, chúng tôi kết luận rằng
Phân bố trung vị mẫu có phương sai xấp xỉ ,1/(4nf(μ)2)
và nó là khoảng bình thường cho lớn ,n
tất cả được cung cấp PDF là liên tục và khác không ở trung vịfμ.