Làm thế nào để tìm chế độ của hàm mật độ xác suất?

14

Lấy cảm hứng từ câu hỏi khác của tôi , tôi muốn hỏi làm thế nào để tìm thấy chế độ của hàm mật độ xác suất (PDF) của hàm ? $f(x)$

Có bất kỳ thủ tục "sách nấu ăn" cho việc này? Rõ ràng, nhiệm vụ này khó khăn hơn nhiều so với lúc đầu.

— mmh
nguồn

3

Trong trường hợp bạn băn khoăn về những câu trả lời rất khác nhau mà bạn nhận được, hãy lưu ý rằng câu trả lời của Nick * liên quan đến ước tính từ một mẫu , thay vì tình huống mà bạn có bản pdf đã biết; Tôi đọc câu hỏi của bạn khi hỏi về trường hợp pdf đã biết, nhưng đó là một bài viết rất hữu ích nếu bạn muốn xem cách làm mọi thứ từ các mẫu. ... (* Pierre's cũng là về ước tính từ một mẫu)

$\qquad\:$

— Glen_b -Reinstate Monica

13

Nói "chế độ" ngụ ý rằng phân phối có một và chỉ một. Nói chung, một bản phân phối có thể có nhiều chế độ, hoặc (không thể tranh cãi).

Nếu có nhiều hơn một chế độ, bạn cần chỉ định nếu bạn muốn tất cả chúng hoặc chỉ chế độ toàn cầu (nếu có chính xác một chế độ).

Giả sử chúng ta hạn chế mình để unimodal phân phối *, vì vậy chúng tôi có thể nói về "chế độ", họ đang tìm thấy trong cùng một cách như tìm cực đại của các chức năng tổng quát hơn.

* lưu ý rằng trang nói " như thuật ngữ" chế độ "có nhiều nghĩa, vì vậy thuật ngữ" unimodal " " và cung cấp một số định nghĩa về chế độ - có thể thay đổi chính xác, được tính là một chế độ, cho dù có 0 1 hay nhiều hơn - và cũng thay đổi chiến lược để xác định chúng. Đặc biệt lưu ý cách nói chung của cụm từ "tổng quát hơn" về tính không đồng nhất trong đoạn mở đầu " unimodality có nghĩa là chỉ có một giá trị cao nhất, được xác định theo cách nào đó "

Một định nghĩa được cung cấp trên trang đó là:

Chế độ phân phối xác suất liên tục là một giá trị tại đó hàm mật độ xác suất (pdf) đạt được giá trị tối đa của nó

Vì vậy, đưa ra một định nghĩa cụ thể về chế độ mà bạn tìm thấy như bạn sẽ thấy định nghĩa cụ thể đó về "giá trị cao nhất" khi xử lý các hàm nói chung hơn (giả sử rằng phân phối là không chính thống theo định nghĩa đó).

Có nhiều chiến lược trong toán học để xác định những điều đó, tùy thuộc vào hoàn cảnh. Xem, phần "Tìm cực đại và cực tiểu chức năng" của trang Wikipedia trên Maxima và cực tiểu sẽ thảo luận ngắn gọn.

Ví dụ: nếu mọi thứ đủ tốt - giả sử chúng ta đang xử lý một biến ngẫu nhiên liên tục, trong đó hàm mật độ có đạo hàm đầu tiên liên tục - bạn có thể tiến hành bằng cách tìm vị trí của hàm mật độ bằng 0 và kiểm tra đó là loại điểm quan trọng nào (điểm cực đại, cực tiểu, điểm ngang). Nếu có chính xác một điểm như vậy là cực đại cục bộ, thì đó sẽ là chế độ phân phối không chính thống.

Tuy nhiên, nói chung mọi thứ phức tạp hơn (ví dụ chế độ có thể không phải là điểm quan trọng) và các chiến lược rộng hơn để tìm cực đại của các hàm được đưa vào.

Đôi khi, việc tìm kiếm các dẫn xuất bằng 0 đại số có thể khó khăn hoặc ít nhất là cồng kềnh, nhưng vẫn có thể xác định cực đại theo những cách khác. Ví dụ, có thể người ta có thể gọi các cân nhắc đối xứng trong việc xác định chế độ phân phối không chính thống. Hoặc người ta có thể gọi một số dạng thuật toán số trên máy tính, để tìm một chế độ số.

Dưới đây là một số trường hợp minh họa những điều điển hình mà bạn cần kiểm tra - ngay cả khi chức năng này không chính thống và ít nhất là từng phần liên tục.

Vì vậy, ví dụ, chúng ta phải kiểm tra các điểm cuối (sơ đồ trung tâm), các điểm trong đó dấu thay đổi đạo hàm (nhưng có thể không bằng 0; sơ đồ đầu tiên) và các điểm gián đoạn (sơ đồ thứ ba).

Trong một số trường hợp, mọi thứ có thể không gọn gàng như ba người này; bạn phải cố gắng hiểu các đặc điểm của chức năng cụ thể mà bạn đang xử lý.

Tôi đã không đụng đến trường hợp đa biến, trong đó ngay cả khi các hàm khá "đẹp", chỉ cần tìm cực đại cục bộ có thể phức tạp hơn nhiều (ví dụ: các phương pháp số để làm như vậy có thể thất bại theo nghĩa thực tế, ngay cả khi chúng phải thành công về mặt logic cuối cùng).

— Glen_b -Reinstate Monica
nguồn

1

+1 Là một quan sát nhỏ, chế độ toàn cầu cũng có thể không phải là duy nhất; ví dụ: mật độ hỗn hợp có trọng số bằng nhau của một biến ngẫu nhiên

và

.

N (1, 1)

$N(1,1)$

N (- 1, 1)

$N(-1,1)$

— Dilip Sarwate

@Dilip Tôi sẽ thêm một ít văn bản về điều đó.

— Glen_b -Reinstate Monica

1

@DilipSarwate Ngoài ra các chế độ từ phân phối chung có thể khác với các chế độ từ phân phối biên.

— Marcelo Ventura

17

Câu trả lời này tập trung hoàn toàn vào ước tính chế độ từ một mẫu, nhấn mạnh vào một phương pháp cụ thể. Nếu có bất kỳ ý nghĩa mạnh mẽ nào mà bạn đã biết mật độ, phân tích hoặc bằng số, thì câu trả lời ưa thích là, tóm lại, để tìm trực tiếp một cực đại hoặc nhiều cực đại, như trong câu trả lời từ @Glen_b.

"Chế độ nửa mẫu" có thể được tính bằng cách sử dụng lựa chọn đệ quy của nửa mẫu với độ dài ngắn nhất. Mặc dù nó có gốc rễ dài hơn, một bài thuyết trình tuyệt vời về ý tưởng này đã được đưa ra bởi Bickel và Frühwirth (2006).

Ý tưởng ước tính chế độ là trung điểm của khoảng thời gian ngắn nhất có chứa một số lượng quan sát cố định quay trở lại ít nhất là với Dalenius (1965). Xem thêm Robertson và Casher (1974), Bickel (2002) và Bickel và Frühwirth (2006) về các công cụ ước tính khác của chế độ.

Số liệu thống kê thứ tự của một mẫu giá trị của được định nghĩa bởi . $n$ $x$ $x_{(1)} \le x_{(2)} \le \cdots \le x_{(n-1)} \le x_{(n)}$

Chế độ nửa mẫu được xác định ở đây bằng hai quy tắc.

Quy tắc 1. Nếu , chế độ nửa mẫu là . Nếu , chế độ nửa mẫu là . Nếu , chế độ nửa mẫu là nếu và $n = 1$ $x_{(1)}$ $n = 2$ $(x_{(1)} + x_{(2)}) / 2$ $n = 3$ $(x_{(1)} + x_{(2)}) / 2$ $x_{(1)}$ gần hơn và ,nếu ngược lại là đúng và nếu không. $x_{(2)}$ $x_{(2)}$ $x_{(3)}$ $(x_{(2)} + x_{(3)}) / 2$ $x_{(2)}$

Quy tắc 2. Nếu , chúng tôi áp dụng lựa chọn đệ quy cho đến khi còn lại giá trị trở xuống. Đầu tiên chúng ta hãy . Nửa ngắn nhất của dữ liệu từ thứ hạng đến thứ hạng được xác định để giảm thiểu trên . Sau đó, một nửa ngắn nhất trong số đó $n \ge 4$ $3$ $h_1 = \lfloor n / 2\rfloor$ $k$ $k + h_1$ $x_{(k + h_1)} - x_{(k)}$ $k = 1, \cdots, n - h_1$ giá trị được xác định bằng , và vân vân. Để kết thúc, sử dụng Quy tắc 1. $h_1 + 1$ $h_2 = \lfloor h_1 / 2\rfloor$

Ý tưởng xác định một nửa ngắn nhất được áp dụng trong "tốc ký" được đặt tên bởi JW Tukey và được giới thiệu trong nghiên cứu về tính mạnh mẽ của Princeton về các công cụ ước tính vị trí của Andrew, Bickel, Hampel, Huber, Rogers và Tukey (1972, p.26) là nghĩa của nửa chiều dài ngắn nhất cho . Rousseeuw (1984), dựa trên đề xuất của Hampel (1975), đã chỉ ra rằng trung điểm của nửa ngắn nhất $x_{(k)}, \cdots, x_{(k + h)}$ $h = \lfloor n / 2 \rfloor$ là ước lượng trung bình bình phương nhỏ nhất (LMS) của vị trí cho . Xem Rousseeuw (1984) và Rousseeuw và Leroy (1987) để biết các ứng dụng của LMS và các ý tưởng liên quan đến hồi quy và các vấn đề khác. Lưu ý rằng điểm giữa LMS này cũng được gọi là tốc ký trong một số tài liệu gần đây (ví dụ Maronna, Martin và Yohai 2006, tr.48). Hơn nữa, bản thân một nửa ngắn nhất đôi khi cũng được gọi là tốc ký, như tiêu đề của Grzigel (1988) chỉ ra. Để biết cách triển khai Stata và biết thêm chi tiết, xem từ SSC. $(x_k + x_{(k + h)}) / 2$ $x$ shorth

Một số nhận xét bàn chải rộng theo các ưu điểm và nhược điểm của chế độ nửa mẫu, từ quan điểm của các nhà phân tích dữ liệu thực tế nhiều như các nhà thống kê toán học hoặc lý thuyết. Dù là dự án nào, sẽ luôn khôn ngoan khi so sánh kết quả với các biện pháp tóm tắt tiêu chuẩn (ví dụ: trung bình hoặc phương tiện, bao gồm cả phương tiện hình học và điều hòa) và liên kết kết quả với biểu đồ phân phối. Hơn nữa, nếu mối quan tâm của bạn là sự tồn tại hoặc mức độ của lưỡng tính hoặc đa phương thức, tốt nhất là xem trực tiếp các ước tính được làm mịn phù hợp của hàm mật độ.

Ước tính chế độ Bằng cách tóm tắt nơi dữ liệu dày nhất, chế độ nửa mẫu sẽ thêm một công cụ ước tính tự động của chế độ vào hộp công cụ. Các ước tính truyền thống hơn về chế độ dựa trên việc xác định các đỉnh trên biểu đồ hoặc thậm chí các ô mật độ hạt nhân rất nhạy cảm với các quyết định về nguồn gốc bin hoặc chiều rộng hoặc loại nhân và nửa chiều rộng của hạt nhân và khó tự động hóa hơn trong mọi trường hợp. Khi được áp dụng cho các bản phân phối không đồng đều và xấp xỉ đối xứng, chế độ nửa mẫu sẽ gần với giá trị trung bình và trung bình, nhưng có khả năng chống lại cao hơn giá trị trung bình ở cả hai đuôi. Khi được áp dụng cho các bản phân phối không đồng nhất và không đối xứng, chế độ nửa mẫu thường sẽ gần hơn chế độ được xác định bởi các phương thức khác hơn là giá trị trung bình hoặc trung bình.

Đơn giản Ý tưởng về chế độ nửa mẫu khá đơn giản và dễ giải thích cho sinh viên và nhà nghiên cứu, những người không coi mình là chuyên gia thống kê.

Giải thích đồ họa Chế độ nửa mẫu có thể dễ dàng liên quan đến hiển thị tiêu chuẩn của các bản phân phối, chẳng hạn như ô mật độ hạt nhân, phân bố tích lũy và sơ đồ lượng tử, biểu đồ và sơ đồ thân và lá.

Đồng thời, lưu ý rằng

Không hữu ích cho tất cả các bản phân phối Khi được áp dụng cho các bản phân phối có hình chữ J, chế độ nửa mẫu sẽ xấp xỉ mức tối thiểu của dữ liệu. Khi được áp dụng cho các bản phân phối có hình chữ U, chế độ nửa mẫu sẽ nằm trong khoảng một nửa phân phối xảy ra có mật độ trung bình cao hơn. Không có hành vi nào có vẻ đặc biệt thú vị hoặc hữu ích, nhưng cũng có rất ít lời kêu gọi tóm tắt giống như chế độ cho các bản phân phối hình chữ J hoặc hình chữ U. Đối với hình dạng U, bimodality làm cho ý tưởng về một chế độ đơn lẻ, nếu không không hợp lệ.

Ties Nửa ngắn nhất có thể không được xác định duy nhất. Ngay cả với dữ liệu đo được, làm tròn các giá trị được báo cáo có thể thường xuyên làm phát sinh mối quan hệ. Phải làm gì với hai hoặc nhiều nửa ngắn nhất đã được thảo luận rất ít trong tài liệu. Lưu ý rằng các nửa buộc có thể chồng chéo hoặc rời rạc.

hsmode $t$ $t$ $\lceil t/ 2\rceil$

$-9, -4, -1 , 0, -1, 4, 9$ $-0.5$ $0$ $1 + \lfloor n / 2\rfloor$ $n$ $n$ , rất khó để đạt được các desiderata khác, đáng chú ý là chiều dài cửa sổ không bao giờ nên giảm theo kích thước mẫu. Chúng tôi muốn tin rằng đây là một vấn đề nhỏ với các bộ dữ liệu có kích thước hợp lý.

$1 + \lfloor n / 2\rfloor$ $n$ $n$ $n = 1,$ $n = 2$ $\lceil n / 2\rceil$

$1.6, 3.11, 3.95, 4.2, 4.2, 4.62, 4.62, 4.62, 4.7, 4.87, 5.04, 5.29, 5.3, 5.38, 5.38, 5.38, 5.54, 5.54, 5.63, 5.71, 6.13, 6.38, 6.38, 6.67, 6.69, 6.97, 7.22, 7.72, 7.98, 7.98, 8.74, 8.99, 9.27, 9.74, 10.66.$ hsmode $5.00, 5.02, 5.04$

Andrew, DF, PJ Bickel, FR Hampel, PJ Huber, WH Rogers và JW Tukey. Năm 1972. Ước tính mạnh mẽ của địa điểm: khảo sát và tiến bộ. Princeton, NJ: Nhà xuất bản Đại học Princeton.

Bickel, DR 2002. Công cụ ước tính mạnh mẽ của chế độ và độ lệch của dữ liệu liên tục. Thống kê tính toán & phân tích dữ liệu 39: 153-163.

Bickel, DR và R. Frühwirth. 2006. Trên một công cụ ước tính nhanh, mạnh mẽ của chế độ: so sánh với các công cụ ước tính khác với các ứng dụng. Thống kê tính toán & phân tích dữ liệu 50: 3500-3530.

Dalenius, T. 1965. Chế độ - Một tham số thống kê bị bỏ quên. Tạp chí, Hiệp hội Thống kê Hoàng gia A 128: 110-117.

Grzigel, R. 1988. Chiều dài của tốc ký. Biên niên sử Thống kê 16: 619-628.

Hampel, FR 1975. Ngoài các tham số vị trí: các khái niệm và phương pháp mạnh mẽ. Bản tin, Viện thống kê quốc tế 46: 375-382.

Maronna, RA, RD Martin và VJ Yohai. 2006. Thống kê mạnh mẽ: lý thuyết và phương pháp . Chichester: John Wiley.

Robertson, T. và JD Casher. 1974. Một thủ tục lặp để ước tính chế độ. Tạp chí, Hiệp hội Thống kê Hoa Kỳ 69: 1012-1016.

Rousseeuw, PJ 1984. Ít nhất trung bình của hồi quy bình phương. Tạp chí, Hiệp hội Thống kê Hoa Kỳ 79: 871-880.

Rousseeuw, PJ và AM Leroy. 1987. Hồi quy mạnh mẽ và phát hiện ngoại lệ . New York: John Wiley.

Tài khoản này dựa trên tài liệu cho

Cox, NJ 2007. HSMODE: Mô-đun Stata để tính toán các chế độ nửa mẫu, http://EconPapers.repec.org/RePEc:boc:bocode:s456818 .

Xem thêm trang web của David R. Bickel tại đây để biết thông tin về việc triển khai trong phần mềm khác.

— Nick Cox
nguồn

5

Nếu bạn có các mẫu từ phân phối trong một vectơ "x", tôi sẽ làm:

 mymode <- function(x){
   d<-density(x)
   return(d$x[which(d$y==max(d$y)[1])])
 }

Bạn nên điều chỉnh chức năng mật độ để nó đủ mượt trên đỉnh ;-).

Nếu bạn chỉ có mật độ phân phối, tôi sẽ sử dụng trình tối ưu hóa để tìm chế độ (REML, LBFGS, đơn giản, v.v.) ...

 fx <- function(x) {some density equation}
 mode <- optim(inits,fx)

Hoặc sử dụng bộ lấy mẫu Monte-Carlo để lấy một số mẫu từ bản phân phối (gói rstan) và sử dụng quy trình trên. (Dù sao, gói Stan là một chức năng "tối ưu hóa" để có được chế độ phân phối).

— Pierre Lebrun
nguồn

Dường như những ước tính như vậy không bao giờ được sử dụng nữa. Bạn phải chỉ định chiều rộng của kernel để sử dụng các công cụ ước tính mật độ kernel. Mặt khác, HSM và HRM không cần điều chỉnh gì cả và hoạt động theo thời gian tuyến tính.

— Viktor