Lịch sử của các ô hộp là gì, và thiết kế của hộp và râu ria đã phát triển như thế nào?


19

Nhiều nguồn tin đề cập đến thiết kế "cốt truyện hộp" cổ điển cho John Tukey và "sơ đồ nguyên lý" của ông năm 1970. Thiết kế này dường như vẫn ở trạng thái tĩnh kể từ đó, với phiên bản cắt xuống của âm mưu hộp của Edward Tufte không bắt kịp, trong khi âm mưu violin - mặc dù một biến thể nhiều thông tin hơn của âm mưu hộp - vẫn ít phổ biến hơn. Đề xuất của Cleveland rằng râu ria mở rộng đến phần trăm thứ 10 và 90 có một số người ủng hộ, xem Cox (2009) , nhưng không phải là tiêu chuẩn.

Hadley Wickham và Lisa Stryjewski đã viết một bài báo chưa xuất bản về lịch sử của các ô vuông nhưng dường như nó không bao gồm các tiền thân lịch sử của các ô hộp.

Vậy làm thế nào mà cốt truyện "hộp và râu ria" hiện tại, có mặt ở khắp nơi? Nó đã phát triển từ loại hình trực quan dữ liệu nào, những thiết kế trước đó có bất kỳ lợi thế đáng kể nào không, và tại sao chúng dường như bị lu mờ trong cách sử dụng theo sơ đồ của Tukey? Một câu trả lời minh họa sẽ là một phần thưởng, nhưng được chuyển đến một tài liệu tham khảo lặn sâu hơn trong lịch sử so với Wickham và Stryjewski sẽ hữu ích.

Tài liệu tham khảo


1
Một số thảo luận có liên quan về một số tiền chất ở đây: stats.stackexchange.com/questions/125521/iêu ... Tukey đã biết về Mary Spears hoạt động nhưng có thể anh ta đã không thấy bất kỳ ai trong số những người trước đó
Glen_b -Reinstate Monica

Cảm ơn @Glen_b, đó thực sự là cuộc thảo luận mà tôi đã đọc đã truyền cảm hứng cho câu hỏi này, nhưng tôi đã mất 4 năm để đi vòng quanh để hỏi nó và tôi không thể theo dõi cuộc thảo luận! (Thật không may là các bình luận không xuất hiện trong tìm kiếm trang web, đó là lý do tại sao cố gắng đưa nó vào một câu hỏi và trả lời thích hợp sẽ hữu ích.)
Silverfish

1
Tôi sử dụng tìm kiếm google với site:stats.stackexchange.comthiết lập để theo dõi các công cụ trong các bình luận. Tôi đã có thể nhớ đủ chi tiết (đó là cuộc thảo luận giữa Nick và tôi liên quan đến các ô vuông và tôi đã đề cập đến Schmid) để có được tác phẩm đầu tiên.
Glen_b -Reinstate Monica

1
Nhận xét tiếp tuyến về các ngoại lệ boxplot. Hai quy tắc đã được sử dụng rộng rãi. Một điều thường được mặc định (trong R và phần mềm khác) là các quan sát bên dưới hoặc cao hơn được chỉ định là ngoại lệ; quy tắc "1.5IQR." Trong các phiên bản đầu, Minitab cũng đã sử dụng quy tắc , gọi các ngoại lệ cực đoan hơn là "các ngoại lệ có thể xảy ra" và các ngoại lệ cực đoan hơn là "các ngoại lệ có thể". Ít nhất là đối với dữ liệu gần như bình thường, cả hai quy tắc đều hiển thị tỷ lệ phần trăm của các ngoại lệ khác nhau rất nhiều với cỡ mẫuCó bằng chứng từ các mô phỏng rằng quy tắc sẽ ổn định hơn đến 1000 . Q11.5IQRQ3+1.5IQR3IQRn.2.25IQR
BruceET

1
github.com/hadley/boxplots-apers bao gồm nhiều tài liệu, chẳng hạn như báo cáo của người đánh giá ẩn danh từ một tạp chí (? _American Statistician_) (ngắn gọn và không khuyến khích) và các đánh giá độc lập nhưng chồng chéo của David Hoaglin và tôi
Nick Cox

Câu trả lời:


18

Tổng giám đốc điều hành

Lịch sử dài hơn và phức tạp hơn nhiều người nghĩ.

Tóm tắt

Lịch sử của cái mà Tukey gọi là các ô hình hộp được gắn với các ô mà ngày nay thường được gọi là các ô chấm hoặc dải (hàng chục tên khác) và với các biểu diễn của hàm lượng tử theo kinh nghiệm.

Các ô hộp trong các hình thức phổ biến hiện nay được biết đến nhiều nhất qua tác phẩm của John Wilder Tukey (1970, 1972, 1977).

Nhưng ý tưởng hiển thị trung vị và tứ phân là các tóm tắt cơ bản - thường xuyên với nhau nhưng không phải lúc nào cũng có các chấm hiển thị tất cả các giá trị - quay trở lại ít nhất là các sơ đồ phân tán (nhiều tên biến thể) được giới thiệu bởi nhà địa lý học Percy Robert Crowe (1933). Đây là giá vé chủ yếu cho các nhà địa lý và được sử dụng trong nhiều sách giáo khoa cũng như các tài liệu nghiên cứu từ cuối những năm 1930 trở đi.

Bibby (1986, tr.56, 59) thậm chí còn đưa ra các tài liệu tham khảo trước đó cho các ý tưởng tương tự được dạy bởi Arthur Lyon Bowley (sau này là Sir Arthur) trong các bài giảng của ông về năm 1897 và theo khuyến nghị của ông (Bowley, 1910, p.62; 1952, p.73 ) để sử dụng tối thiểu và tối đa và 10, 25, 50, 75 và 90% điểm làm cơ sở cho tóm tắt đồ họa.

Các thanh phạm vi thể hiện thái cực và tứ phân thường được quy cho Mary Eleanor Spear (1952) nhưng trong bài đọc của tôi, ít người trích dẫn Kenneth W. Haemer (1948). Các bài viết của Haemer về đồ họa thống kê trong Thống kê Hoa Kỳ vào khoảng năm 1950 là sáng tạo và có ý nghĩa quan trọng và vẫn đáng để đọc lại. (Nhiều độc giả sẽ có thể truy cập chúng thông qua jstor.org.) Ngược lại, sách của Spear (Spear 1969 là một bản phát lại) có thể truy cập và hợp lý nhưng được giới thiệu một cách có chủ ý thay vì đổi mới hoặc học thuật.

Các biến thể của các ô hình hộp trong đó râu ria mở rộng đến các phần trăm được chọn là phổ biến hơn nhiều người nghĩ. Một lần nữa, các ô tương đương đã được sử dụng bởi các nhà địa lý từ những năm 1930 trở đi.

Những gì nguyên bản nhất trong phiên bản ô vuông của Tukey trước hết là tiêu chí để xác định các điểm trong đuôi được vẽ riêng và được xác định là đáng xem xét chi tiết - và thường đánh dấu rằng một biến cần được phân tích theo thang đo được chuyển đổi. Quy tắc ngón tay cái 1,5 IQR của anh ta nổi lên chỉ sau nhiều thử nghiệm. Nó đã bị đột biến trong một số trường hợp thành một quy tắc cứng để xóa các điểm dữ liệu, đó không bao giờ là ý định của Tukey. Một cái tên đáng nhớ, đáng nhớ - cốt truyện hộp - không có hại trong việc đảm bảo tác động rộng lớn hơn nhiều của những ý tưởng này. Biểu đồ phân tán ngược lại là một thuật ngữ buồn tẻ và buồn tẻ.

Danh sách các tài liệu tham khảo khá dài ở đây, có thể trái với vẻ bề ngoài, không có ý định toàn diện. Mục đích chỉ là để cung cấp tài liệu cho một số tiền thân và giải pháp thay thế của âm mưu hộp. Tài liệu tham khảo cụ thể có thể hữu ích cho các truy vấn chi tiết hoặc nếu chúng ở gần với lĩnh vực của bạn. Ngược lại, học về thực hành trong các lĩnh vực khác có thể được chào đón. Đồ họa - không chỉ là bản đồ - chuyên môn của các nhà địa lý thường bị đánh giá thấp.

Thêm chi tiết

Các lô hộp lai được sử dụng bởi Crowe (1933, 1936), Matthews (1936), Hogg (1948), Monkhouse và Wilkinson (1952), Farmer (1956), Gregory (1963), Hammond và McCullagh (1974), Lewis (1975), Matthews (1981), Wilkinson (1992, 2005), Ellison (1993, 2001), Wild and Seber (2000), Quinn và Keough (2002), Young et al. (2006) và Hendry và Nielsen (2007) và nhiều người khác. Xem thêm Miller (1953, 1964).

Vẽ râu ria cho các phần trăm cụ thể, thay vì các điểm dữ liệu trong rất nhiều IQR của các tứ phân vị, đã được nhấn mạnh bởi Cleveland (1985), nhưng được dự đoán bởi Matthews (1936) và Grove (1956), người đã vẽ ra phạm vi xen kẽ, nghĩa là giữa lần đầu tiên và quãng tám thứ bảy, cũng như phạm vi và phạm vi liên vùng. Dury (1963), Johnson (1975), Harris (1999), Myatt (2007), Myatt và Johnson (2009, 2011) và Davino et al. (2014) cho thấy phương tiện cũng như tối thiểu, tứ phân vị, trung bình và tối đa. Schmid (1954) đã cho thấy các biểu đồ tóm tắt với trung vị, tứ phân vị và 5 và 95% điểm. Bentley (1985, 1988), Davis (2002), Spence (2007, 2014) và Motulsky (2010, 2014, 2018) âm mưu râu ria tới 5 và 95% điểm. Morgan và Henrion (1990, tr.221, 241), Spence (2001, tr.36) và Gotelli và Ellison (2004, 2013, tr.72, 110, 213, 416) âm mưu râu ria đến 10% và 90% điểm. Harris (1999) cho thấy các ví dụ về cả 5 và 95% và 10 và 90% điểm. Altman (1991, tr.34, 63) và Greenacre (2016) âm mưu râu ria tới 2,5% và 97,5% điểm. Reimann và cộng sự. (2008, tr.46-47) âm mưu râu ria đến 5% và 95% và 2% và 98% điểm.

Parzen (1979a, 1979b, 1982) hộp lai và các ô lượng tử dưới dạng các ô hộp lượng tử. Xem thêm (ví dụ) Shera (1991), Militký và Meloun (1993), Meloun và Militký (1994). Tuy nhiên, lưu ý rằng âm mưu hộp lượng tử của Keen (2010) chỉ là một âm mưu hộp với râu ria kéo dài đến cực đoan. Ngược lại, các ô hộp lượng tử của JMP rõ ràng là các ô hình hộp có các dấu ở mức 0,5%, 2,5%, 10%, 90%, 97,5%, 99,5%: xem Sall et al. (2014, tr.143-4).

Dưới đây là một số lưu ý về các biến thể của ô hộp lượng tử.

(A) Biểu đồ phần trăm hộp của Esty và Banfield (2003) vẽ các thông tin giống nhau theo cách khác nhau, vẽ dữ liệu dưới dạng các đường liên tục và tạo ra màn hình đối xứng trong đó trục dọc hiển thị các lượng tử và trục ngang hiển thị không vẽ vị trí , nhưng cả hai min ( ) và hình ảnh phản chiếu của nó min ( ). Chi tiết nhỏ: trong các vị trí vẽ giấy của họ được mô tả sai là "phần trăm". Xem thêm Martinez và cộng sự. (2011, 2017), kéo dài sự nhầm lẫn đó.pp,1pp,1-p

Ý tưởng về âm mưu min ( ) (hoặc phần trăm tương đương của nó) xuất hiện độc lập trong (B) "các lô núi" (Krouwer 1992; Monti 1995; Krouwer và Monti 1995; Goldstein 1996) và trong (C) các ô của "chức năng phân phối theo kinh nghiệm" (Huh 1995). Xem thêm Xue và Titterington (2011) để biết phân tích chi tiết về việc gấp một hàm phân phối ở bất kỳ định lượng nào. p,1-p

Từ tài liệu mà tôi nhìn thấy, dường như không có chủ đề nào trong số này - các ô hộp lượng tử hoặc các biến thể sau này (A) (B) (C) - trích dẫn lẫn nhau.

!!! vào ngày 3 tháng 10 năm 2018 chi tiết cho một số tài liệu tham khảo cần được cung cấp trong lần chỉnh sửa tiếp theo.

Altman, DG 1991. Thống kê thực tế trong nghiên cứu y học. Luân Đôn: Chapman và Hội trường.

Bentley, JL 1985. Lập trình ngọc trai: Tuyển chọn. Truyền thông của ACM 28: 1121-1127.

Bentley, JL 1988. Ngọc trai lập trình khác: Lời thú tội của một người giải mã. Đọc, MA: Addison-Wesley.

Bibby, J. 1986. Ghi chú hướng tới lịch sử giảng dạy thống kê. Edinburgh: John Bibby (Sách).

Bowley, AL 1910. Một sổ tay thống kê tiểu học. Luân Đôn: Macdonald và Evans. (ấn bản thứ bảy năm 1952)

Cleveland, WS 1985. Các yếu tố của dữ liệu đồ thị. Monterey, CA: Wadsworth.

Crowe, PR 1933. Phân tích xác suất mưa: Một phương pháp đồ họa và ứng dụng của nó vào dữ liệu châu Âu. Tạp chí Địa lý Scotland 49: 73-91.

Crowe, PR 1936. Chế độ mưa của đồng bằng phương Tây. Đánh giá địa lý 26: 463-484.

Davis, JC 2002. Phân tích thống kê và dữ liệu trong địa chất. New York: John Wiley.

Dickinson, GC 1963. Lập bản đồ thống kê và trình bày số liệu thống kê. Luân Đôn: Edward Arnold. (ấn bản thứ hai năm 1973)

Dury, GH 1963. Vùng trung du phía đông và đỉnh núi. Luân Đôn: Thomas Nelson.

Nông dân, BH 1956. Lượng mưa và cấp nước ở Vùng khô Ceylon. Trong các tiểu luận địa lý của Steel, RW và CA Fisher (chủ biên) về vùng đất nhiệt đới của Anh. Luân Đôn: George Philip, 227-268.

Gregory, S. 1963. Phương pháp thống kê và nhà địa lý học. Luân Đôn: Longman. (các phiên bản sau này là 1968, 1973, 1978; nhà xuất bản sau Longman)

Grove, AT 1956. Xói mòn đất ở Nigeria. Trong các tiểu luận địa lý của Steel, RW và CA Fisher (chủ biên) về vùng đất nhiệt đới của Anh. Luân Đôn: George Philip, 79-111.

HaTable, KW 1948. Biểu đồ dải thanh. Thống kê người Mỹ 2 (2): 23.

Hendry, DF và B. Nielsen. Năm 2007 Mô hình hóa kinh tế: Phương pháp tiếp cận khả năng. Princeton, NJ: Nhà xuất bản Đại học Princeton.

Hogg, WH 1948. Sơ đồ phân tán lượng mưa: một cuộc thảo luận về những lợi thế và bất lợi của chúng. Địa lý 33: 31-37.

Ibrekk, H. và MG Morgan. 1987. Truyền thông đồ họa về số lượng không chắc chắn cho những người không kỹ thuật. Phân tích rủi ro 7: 519-529.

Johnson, BLC 1975. Bangladesh. Luân Đôn: Giáo dục Heinemann.

Keen, KJ 2010. Đồ họa cho thống kê và phân tích dữ liệu với R. Boca Raton, FL: CRC Press. (Phiên bản 2 năm 2018)

Lewis, CR 1975. Phân tích những thay đổi về tình trạng đô thị: một nghiên cứu trường hợp ở Mid-Wales và vùng biên giới giữa xứ Wales. Giao dịch của Viện Địa lý Anh 64: 49-65.

Martinez, WL, AR Martinez và JL Solka. 2011. Phân tích dữ liệu thăm dò với MATLAB. Boca Raton, FL: Báo chí CRC.

Matthews, HA 1936. Một cái nhìn mới về một số cơn mưa quen thuộc của Ấn Độ. Tạp chí Địa lý Scotland 52: 84-97.

Matthews, JA 1981. Phương pháp định lượng và thống kê về địa lý: Cẩm nang thực hành. Oxford: Pergamon.

Meloun, M. và J. Militký. 1994. Xử lý dữ liệu với sự trợ giúp của máy tính trong hóa học phân tích. I. Phân tích thăm dò dữ liệu đơn biến. Giấy tờ hóa học 48: 151-157.

Militký, J. và M. Meloun. 1993. Một số công cụ hỗ trợ đồ họa để phân tích dữ liệu thăm dò đơn biến. Phân tích Chimica Acta 277: 215-221.

Miller, AA 1953. Da của Trái đất. Luân Đôn: Methuen. (Tái bản lần 2 năm 1964)

Monkhouse, FJ và HR Wilkinson. 1952. Bản đồ và Sơ đồ: Biên soạn và Xây dựng. Luân Đôn: Methuen. (phiên bản sau 1963, 1971)

Morgan, MG và M. Henrion. 1990. Sự không chắc chắn: Hướng dẫn Xử lý sự không chắc chắn trong Phân tích Chính sách và Rủi ro Định lượng. Cambridge: Nhà xuất bản Đại học Cambridge.

Myatt, GJ 2007. Tạo cảm giác về dữ liệu: Hướng dẫn thực tế để phân tích dữ liệu khám phá và khai thác dữ liệu. Hoboken, NJ: John Wiley.

Myatt, GJ và Johnson, WP 2009. Ý thức về dữ liệu II: Hướng dẫn thực tế về trực quan hóa dữ liệu, phương pháp khai thác dữ liệu nâng cao và ứng dụng. Hoboken, NJ: John Wiley.

Myatt, GJ và Johnson, WP 2011. Tạo cảm giác về dữ liệu III: Hướng dẫn thực tế để thiết kế trực quan hóa dữ liệu tương tác. Hoboken, NJ: John Wiley.

Ottaway, B. 1973. Sơ đồ phân tán: một cách tiếp cận mới để hiển thị ngày carbon-14. Khảo cổ học 15: 5-12.

Parzen, E. 1979a. Mô hình dữ liệu thống kê phi trắc nghiệm. Tạp chí, Hiệp hội Thống kê Hoa Kỳ 74: 105-121.

Parzen, E. 1979b. Một phối cảnh hàm mật độ - lượng tử về ước lượng mạnh mẽ. Trong Launer, RL và GN Wilkinson (chủ biên) Tính mạnh mẽ trong Thống kê. New York: Nhà xuất bản học thuật, 237-258.

Parzen, E. 1982. Mô hình hóa dữ liệu bằng cách sử dụng các hàm lượng tử và mật độ - lượng tử. Trong Tiago de Oliveira, J. và Epstein, B. (chủ biên) Một số tiến bộ gần đây trong thống kê. Luân Đôn: Báo chí học thuật, 23-52.

Quinn, GP và MJ Keough. 2002. Thiết kế thí nghiệm và phân tích dữ liệu cho các nhà sinh học. Cambridge: Nhà xuất bản Đại học Cambridge.

Reimann, C., P. Filzmoser, RG Garrett và R. Dutter. 2008 Giải thích dữ liệu thống kê: Thống kê môi trường ứng dụng với R. Chichester: John Wiley.

Sall, J., A. Lehman, M. Stephens và L. Creighton. 2014. Thống kê bắt đầu JMP: Hướng dẫn phân tích dữ liệu và thống kê sử dụng JMP. Cary, NC: Viện SAS.

Shera, DM 1991. Một số sử dụng các lô lượng tử để tăng cường trình bày dữ liệu. Khoa học máy tính và thống kê 23: 50-53.

Spear, ME 1952. Thống kê biểu đồ. New York: McGraw-Hill.

Spear, ME 1969. Kỹ thuật vẽ biểu đồ thực tế. New York: McGraw-Hill.

Tukey, JW 1970.
Phân tích dữ liệu thăm dò. Phiên bản sơ bộ giới hạn. Tập I. Đọc, MA: Addison-Wesley.

Tukey, JW 1972. Một số màn hình đồ họa và bán đồ họa. Trong Bancroft, TA và Brown, SA (eds) Các giấy tờ thống kê để vinh danh George W. Snedecor. Ames, IA: Nhà in Đại học bang Iowa, 293-316. (cũng có thể truy cập tại http://www.edwardtufte.com/tufte/tukey )

Tukey, JW 1977. Phân tích dữ liệu thăm dò. Đọc, MA: Addison-Wesley.

Wild, CJ và GAF Seber. 2000. Cơ hội gặp gỡ: Một khóa học đầu tiên về phân tích và suy luận dữ liệu. New York: John Wiley.


Tôi có tài liệu khác về các ô phần trăm, ô núi và các dạng lai khác, sẽ được thêm vào sau.
Nick Cox

Thực sự đánh giá cao câu trả lời này, cảm ơn Nick - mong muốn được bổ sung về các lựa chọn thay thế và giống lai. Tôi nghĩ có lẽ công bằng khi nói "hộp âm mưu" và bạn bè "tạo thành một" gia đình "trực quan hóa dữ liệu, mặc dù tôi không biết gia đình đó nên được gọi là gì
Silverfish

Cảm ơn! nếu việc sở hữu các dòng hoặc các dấu hiệu khác biểu thị trung vị và các phần tư xác định một hộp, thì đã có các ô hộp từ lâu trước khi Tukey đặt tên cho chúng, và tôi tin rằng anh ta không bao giờ tuyên bố khác. Tuy nhiên, nhiều lịch sử thu nhỏ trong sách giáo khoa và các nơi khác dường như nhấn mạnh vào điểm; chủ yếu, đó chỉ là một meme lặp đi lặp lại mà không có bằng chứng như câu chuyện về những kẻ lem luốc nhảy ra khỏi vách đá là tự sát tập thể. Nhiều lựa chọn thay thế cho các ô hộp thậm chí không hiển thị một hộp theo bất kỳ ý nghĩa nào, do đó, trường này được mở rộng để bao gồm bất kỳ biểu diễn đồ họa nào của các bản phân phối đơn biến.
Nick Cox
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.