Truy xuất chiều rộng tối thiểu có chứa phần được chỉ định của tất cả các giá trị


8

Tôi muốn tìm ranh giới tối thiểu / tối đa của cửa sổ trượt có kích thước tối thiểu chứa một phần nhất định của tổng số phần tử trong một mảng hoặc tập hợp số.

Ví dụ: lấy số nguyên để dễ giải thích hơn, giả sử tỷ lệ các phần tử mà chúng tôi đang tìm kiếm là 50% trên mảng này:

[1,1,2,3,3,3,3,3,3,4,5,6,7,8,9,10]

Hàm bí ẩn sẽ trả về một cái gì đó như (2, 4), có nghĩa là giá trị tối thiểu là 2 và giá trị tối đa là 4 (giả sử nó bao gồm và lưu ý rằng đây là các GIÁ TRỊ, không phải chỉ số). Cửa sổ nhỏ đó chứa 8 trong số 16 giá trị và nó chỉ rộng 2 đơn vị, cửa sổ hẹp nhất chứa một nửa số lượng giá trị.

Lưu ý: các phần tư là [1,1,2,3], [3,3,3,3], [3,4,5,6], [7,8,9,10] vì vậy chúng KHÔNG phải là những gì tôi Tôi đang tìm kiếm.

Tôi có thể mã nó ... có thể mất một chút thời gian để làm cho nó tốt đẹp. Hy vọng ai đó đã chạy qua nó trước đây. Nó có tên không? Có một phương pháp hiện có mà ai đó biết về?

Tôi quan tâm đến việc triển khai Python.

CẬP NHẬT:

Nhờ Glen_b, người đã đưa ra các tên 'nửa ngắn' và 'khoảng thời gian ngắn nhất' tôi đã có thể đưa ra điều này: Tìm các khoảng mật độ xác suất


1
" Tôi hy vọng bạn có thể đưa thông tin này lên thống kê VÀ stackoverflow " - Điều đó không được khuyến khích, vì trợ giúp chỉ ra: " Tuy nhiên, xin lưu ý rằng việc đăng chéo không được khuyến khích trên các trang SE. Chọn một địa điểm tốt nhất để đăng câu hỏi của bạn. , nếu nó chứng minh sự phù hợp tốt hơn trên một trang web khác, nó có thể được di chuyển. ". Vì vậy, chọn một, xóa cái khác.
Glen_b -Reinstate Monica

Khi đó là 50% một khoảng thời gian như vậy đôi khi được gọi là một nửa ngắn . Nói chung, đôi khi nó có thể được gọi là một khoảng thời gian ngắn nhất.
Glen_b -Reinstate Monica

Giáo sư. cảm ơn cho những người đứng đầu lên. Tôi đã xóa bài đăng trên stackoverflow. Tôi sẽ tra cứu 'một nửa ngắn'
1269942

(nhìn vào liên kết) Thật thú vị, tôi đã tranh luận khi đề cập đến các khoảng HPD, nhưng chúng thực sự áp dụng cho các bản phân phối; Tôi cho rằng mọi người sẽ không áp dụng thuật ngữ tương tự cho các mẫu nhưng không thể tìm thấy cái mà họ nên gọi. Hóa ra tôi đã sai.
Glen_b -Reinstate Monica

Ngẫu nhiên, những gì bạn nghĩ là tứ phân vị không phải là tứ phân vị, nhưng dữ liệu giữa các tứ phân liên tiếp (và dưới / trên thứ nhất và thứ ba tương ứng)
Glen_b -Reinstate Monica

Câu trả lời:


12

Tiêu đề:

  • Một từ khóa là tốc ký .

  • Để biết cách triển khai R và liên kết đến một dự án hiện tại với các ấn phẩm, hãy xem trang của Günther Sawitzki tại http://www.statlab.uni-heidelberg.de/people/gs/

  • Có một triển khai Stata, có thể được cài đặt bởi ssc inst shorth.

Chậm hơn và không cố gắng thực thi công lý đối với công việc của Sawitzki:

nx

x(1)x(2)x(n1)x(n).

h=n/2kk+hx(k+h)x(k)k=1,,nh

x(k),,x(k+h)

(x(k)+x(k+h))/2x. Xem Rousseeuw (1984) và Rousseeuw và Leroy (1987) để biết các ứng dụng của LMS và các ý tưởng liên quan đến hồi quy và các vấn đề khác. Lưu ý rằng trung điểm LMS này cũng được gọi là tốc ký trong một số tài liệu gần đây (ví dụ David và Nagaraja 2003, tr.223; Maronna, Martin và Yohai 2006, p.48). Hơn nữa, bản thân một nửa ngắn nhất đôi khi cũng được gọi là tốc ký, như tiêu đề của Grzigel (1988) chỉ ra.

Độ dài của một nửa ngắn nhất là thước đo hoặc tỷ lệ lan truyền mạnh mẽ: xem Rousseeuw và Leroy (1988), Grzigel (1988), Rousseeuw và Croux (1993) và Martin và Zamar (1993) để phân tích và thảo luận thêm.

Độ dài của nửa ngắn nhất trong Gaussian (bình thường) với giá trị trung bình 0 và độ lệch chuẩn 1 là 1.349 đến 3 dp Do đó để ước tính độ lệch chuẩn từ độ dài quan sát được, chia cho chiều dài Gaussian này.

Một số ý kiến ​​bàn chải rộng theo các ưu điểm và nhược điểm của một nửa ý tưởng ngắn nhất, từ quan điểm của các nhà phân tích dữ liệu thực tế nhiều như các nhà thống kê toán học hoặc lý thuyết. Dù là dự án nào, sẽ luôn khôn ngoan khi so sánh kết quả nhanh với các biện pháp tóm tắt tiêu chuẩn (bao gồm các phương tiện khác, đáng chú ý là phương tiện hình học và hài hòa) và liên kết kết quả với biểu đồ phân phối. Hơn nữa, nếu mối quan tâm của bạn là sự tồn tại hoặc mức độ của lưỡng tính hoặc đa phương thức, tốt nhất là xem trực tiếp các ước tính được làm mịn phù hợp của hàm mật độ.

  • Đơn giản Ý tưởng về một nửa ngắn nhất là đơn giản và dễ giải thích cho sinh viên và các nhà nghiên cứu, những người không coi mình là chuyên gia thống kê. Nó dẫn trực tiếp đến hai biện pháp vị trí và một trong những sự lây lan khá trực quan. Nó cũng tương đối phù hợp để tính toán bằng tay với các công cụ nguyên thủy (bút chì và giấy, máy tính, bảng tính).

  • Kết nối Sự tương đồng và khác biệt giữa độ dài của nửa ngắn nhất, phạm vi liên dải và độ lệch tuyệt đối trung vị so với trung vị (MAD) (hoặc cho vấn đề đó là lỗi có thể xảy ra) ngay lập tức. Do đó, một nửa ý tưởng ngắn nhất được liên kết với các ý tưởng thống kê khác vốn đã quen thuộc với nhiều nhà phân tích dữ liệu.

  • Giải thích đồ họa Nửa ngắn nhất có thể dễ dàng liên quan đến hiển thị tiêu chuẩn của các bản phân phối, chẳng hạn như phân phối tích lũy và sơ đồ lượng tử, biểu đồ và sơ đồ thân và lá.

  • Chế độ Bằng cách tính trung bình nơi dữ liệu dày nhất, tốc độ trung bình và cũng là trung điểm LMS giới thiệu một hương vị chế độ để tóm tắt vị trí. Khi được áp dụng cho các phân phối gần như đối xứng, tốc độ sẽ gần với giá trị trung bình và trung bình, nhưng có khả năng chống lại các giá trị trung bình ở các đuôi và hiệu quả hơn so với trung bình cho các phân phối gần Gaussian (bình thường). Khi được áp dụng cho các bản phân phối không đồng nhất và không đối xứng, tốc độ và LMS thường sẽ ở gần chế độ hơn giá trị trung bình hoặc trung bình. Lưu ý rằng ý tưởng ước tính chế độ là trung điểm của khoảng thời gian ngắn nhất có chứa một số lượng quan sát cố định quay trở lại ít nhất là với Dalenius (1965). Xem thêm Robertson và Casher (1974), Bickel (2002) và Bickel và Frühwirth (2006) về các công cụ ước tính khác của chế độ. Công cụ ước tính chế độ nửa mẫu của Bickel và Frühwirth đặc biệt thú vị khi lựa chọn đệ quy của nửa ngắn nhất. Người dùng Stata có thể tải xuống bản triển khai Stata bằng cáchssc inst hsmode.

  • Nhận dạng ngoại lệ Một tiêu chuẩn hóa kháng như (giá trị - tốc độ) / chiều dài có thể giúp xác định các ngoại lệ. Để thảo luận về các ý tưởng liên quan, xem Carey et al. (1997) và bao gồm các tài liệu tham khảo.

  • Tổng quát hóa thành phần ngắn nhất Ý tưởng có thể được khái quát theo tỷ lệ khác với một nửa.

Đồng thời, lưu ý rằng

  • Không hữu ích cho tất cả các bản phân phối Khi được áp dụng cho các bản phân phối có hình chữ J, tốc ký sẽ xấp xỉ giá trị trung bình của nửa dưới của dữ liệu và điểm giữa LMS sẽ khá cao. Khi được áp dụng cho các bản phân phối có hình chữ U, điểm trung bình và LMS sẽ nằm trong khoảng một nửa phân phối xảy ra có mật độ trung bình cao hơn. Không có hành vi nào có vẻ đặc biệt thú vị hoặc hữu ích, nhưng cũng có rất ít lời kêu gọi tóm tắt giống như chế độ cho các bản phân phối hình chữ J hoặc hình chữ U; đối với hình dạng J, chế độ là, hoặc nên là tối thiểu và đối với hình dạng U, lưỡng tính làm cho ý tưởng về một chế độ đơn lẻ, nếu không không hợp lệ.

  • Ties Nửa ngắn nhất có thể không được xác định duy nhất. Ngay cả với dữ liệu đo được, làm tròn các giá trị được báo cáo có thể thường xuyên làm phát sinh mối quan hệ. Phải làm gì với hai hoặc nhiều nửa ngắn nhất đã được thảo luận rất ít trong tài liệu. Lưu ý rằng các nửa buộc có thể chồng chéo hoặc rời rạc. Việc thực hiện khác nhau có thể giải quyết điều này theo những cách hơi khác nhau.

  • 1+n/2nnn=1n=2n/21+n/2

  • Sử dụng với dữ liệu có trọng số Xác định nửa ngắn nhất dường như chỉ mở rộng khá lộn xộn cho các tình huống trong đó các quan sát có liên quan đến các trọng số không bằng nhau.

  • Độ dài khi hầu hết các giá trị giống nhau Khi có ít nhất một nửa giá trị trong một mẫu bằng một hằng số, độ dài của nửa ngắn nhất là 0. Vì vậy, ví dụ, nếu hầu hết các giá trị là 0 và một số lớn hơn, thì độ dài của ngắn nhất một nửa không đặc biệt hữu ích như một thước đo tỷ lệ hoặc lây lan.

Andrew, DF, PJ Bickel, FR Hampel, PJ Huber, WH Rogers và JW Tukey. Năm 1972. Ước tính mạnh mẽ của địa điểm: khảo sát và tiến bộ. Princeton, NJ: Nhà xuất bản Đại học Princeton.

Bickel, DR 2002. Công cụ ước tính mạnh mẽ của chế độ và độ lệch của dữ liệu liên tục. Thống kê tính toán & phân tích dữ liệu 39: 153-163.

Bickel, DR và ​​R. Frühwirth. 2006. Trên một công cụ ước tính nhanh, mạnh mẽ của chế độ: so sánh với các công cụ ước tính khác với các ứng dụng. Thống kê tính toán & phân tích dữ liệu 50: 3500-3530.

Carey, VJ, EE Walters, CG Wager và BA Rosner. 1997. Từ chối ngoại lệ dựa trên thử nghiệm và dựa trên thử nghiệm: ảnh hưởng đến suy luận một và hai mẫu của Gaussian. Technometrics 39: 320-330.

Christmann, A., U. Gather và G. Scholz. 1994. Một số tính chất của chiều dài của nửa ngắn nhất. Statistica Neerlandica 48: 209-213.

Dalenius, T. 1965. Chế độ - Một tham số thống kê bị bỏ quên. Tạp chí, Hiệp hội Thống kê Hoàng gia A 128: 110-117.

Grzigel, R. 1988. Chiều dài của tốc ký. Biên niên sử Thống kê 16: 619-628.

Hampel, FR 1975. Ngoài các tham số vị trí: các khái niệm và phương pháp mạnh mẽ. Bản tin, Viện thống kê quốc tế 46: 375-382.

Hampel, FR 1997. Một số ghi chú bổ sung về "Năm mạnh mẽ của Princeton". Trong Brillinger, DR, LT Fernholz và S. Morgenthaler (chủ biên) Việc thực hành phân tích dữ liệu: các bài tiểu luận vinh danh John W. Tukey. Princeton, NJ: Nhà xuất bản Đại học Princeton, 133-153.

Kim, J. và D. Pollard. 1990. Không có triệu chứng gốc rễ. Biên niên sử Thống kê 18: 191-219.

Maronna, RA, RD Martin và VJ Yohai. 2006. Thống kê mạnh mẽ: lý thuyết và phương pháp. Chichester: John Wiley.

Martin, RD và RH Zamar. 1993. Ước tính mạnh mẽ của quy mô. Biên niên sử Thống kê 21: 991-1017.

Robertson, T. và JD Casher. 1974. Một thủ tục lặp để ước tính chế độ. Tạp chí, Hiệp hội Thống kê Hoa Kỳ 69: 1012-1016.

Rousseeuw, PJ 1984. Ít nhất trung bình của hồi quy bình phương. Tạp chí, Hiệp hội Thống kê Hoa Kỳ 79: 871-880.

Rousseeuw, PJ và C. Croux. 1993. Các lựa chọn thay thế cho độ lệch tuyệt đối trung vị. Tạp chí, Hiệp hội Thống kê Hoa Kỳ 88: 1273-1283.

Rousseeuw, PJ và AM Leroy. 1987. Hồi quy mạnh mẽ và phát hiện ngoại lệ. New York: John Wiley.

Rousseeuw, PJ và AM Leroy. 1988. Một công cụ ước tính quy mô mạnh mẽ dựa trên một nửa ngắn nhất. Statistica Neerlandica 42: 103-116.

Shorack, GR và JA Wellner. 1986. Quá trình thực nghiệm với các ứng dụng để thống kê. New York: John Wiley.


Cảm ơn; Tôi biết có một thuật ngữ viết tắt khi tôi đề cập đến một nửa ngắn , nhưng không thể nghĩ nó là gì.
Glen_b -Reinstate Monica

3
+6 Bài đăng tuyệt vời: nhiều thông tin, sâu sắc và thú vị để đọc.
whuber

@whuber Cảm ơn rất nhiều; khen ngợi từ lời khen là thực sự khen ngợi. Đây chủ yếu là một phiên bản tài liệu để triển khai Stata của tôi có thể tải xuống cho người dùng Stata bằng cách ssc inst shorthkhác có thể nhìn thấy tại econ con.repec.org/software/bocbocode/s456728.html (người dùng không phải Stata sẽ không nhận được gì thêm bằng cách xem ở đó).
Nick Cox

rất đẹp! xin lỗi vì mất quá nhiều thời gian để chấp nhận nó như câu trả lời ... nó đã rơi ra khỏi radar khá nhanh.
1269942
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.