Các bộ dữ liệu giống như Anscombe với cùng một ô và biểu đồ râu (trung bình / std / median / MAD / min / max)

EDIT: Khi câu hỏi này được đưa ra, một bản tóm tắt: tìm các bộ dữ liệu có ý nghĩa và có thể diễn giải khác nhau với cùng một số liệu thống kê hỗn hợp (trung bình, trung bình, trung bình và phân tán liên quan của chúng và hồi quy).

Bộ tứ Anscombe (xem Mục đích trực quan hóa dữ liệu chiều cao? ) Là một ví dụ nổi tiếng về bốn bộ dữ liệu - , với cùng độ lệch trung bình / độ lệch chuẩn (trên bốn và bốn , riêng biệt) và cùng một tuyến tính OLS , hồi quy và tổng dư của bình phương và hệ số tương quan . Do đó, thống kê -type (biên và khớp) là như nhau, trong khi các bộ dữ liệu khá khác nhau. $x$ $y$ $x$ $y$ $R^2$ $\ell_2$

EDIT (từ các bình luận của OP) Để tách kích thước tập dữ liệu nhỏ, hãy để tôi đề xuất một số giải thích. Tập 1 có thể được xem như là một mối quan hệ tuyến tính (affine, chính xác) tiêu chuẩn với nhiễu phân tán. Bộ 2 cho thấy một mối quan hệ rõ ràng có thể là mối quan hệ phù hợp ở mức độ cao hơn. Tập 3 cho thấy một sự phụ thuộc thống kê tuyến tính rõ ràng với một ngoại lệ. Tập 4 khó hơn: nỗ lực "dự đoán" từ dường như bị ràng buộc với thất bại. Thiết kế của có thể cho thấy hiện tượng trễ với phạm vi giá trị không đủ, hiệu ứng lượng tử hóa ( có thể được định lượng quá nhiều) hoặc người dùng đã chuyển các biến phụ thuộc và độc lập. $y$ $x$ $x$ $x$

Vì vậy, các tính năng tóm tắt ẩn các hành vi rất khác nhau. Bộ 2 có thể được xử lý tốt hơn với sự phù hợp đa thức. Bộ 3 với các phương pháp chống ngoại lệ ( hoặc tương tự), cũng như Bộ 4. Người ta có thể tự hỏi liệu các hàm chi phí hoặc chỉ số chênh lệch khác có thể giải quyết hay ít nhất là cải thiện sự phân biệt dữ liệu. EDIT (từ bình luận của OP): bài đăng trên blog Curious Regressions nói rằng: $\ell_2$ $\ell_1$

Tình cờ, tôi nói rằng Frank Anscombe không bao giờ tiết lộ cách anh ấy đưa ra các bộ dữ liệu này. Nếu bạn nghĩ rằng đó là một nhiệm vụ dễ dàng để có được tất cả các số liệu thống kê tóm tắt và kết quả hồi quy như nhau, thì hãy thử xem!

Trong các Bộ dữ liệu được xây dựng cho một mục đích tương tự như bộ tứ của Anscombe , một số bộ dữ liệu thú vị được đưa ra, ví dụ với cùng một biểu đồ dựa trên lượng tử. Tôi không thấy một hỗn hợp có ý nghĩa và thống kê hỗn hợp.

Câu hỏi của tôi là: có bivariate (hoặc trivariate, để giữ trực quan hóa) Các bộ dữ liệu giống như Anscombe sao cho có thêm số liệu thống kê -type $\ell_2$ :

âm mưu của chúng có thể hiểu là mối quan hệ giữa và , như thể người ta đang tìm kiếm một định luật giữa các phép đo, $x$ $y$
chúng sở hữu các thuộc tính cận biên (mạnh hơn) (cùng trung vị và trung bình độ lệch tuyệt đối), $\ell_1$
chúng có cùng các hộp giới hạn: cùng min, max (và do đó -type thống kê giữa và trung bình nhịp). $\ell_\infty$

Các bộ dữ liệu như vậy sẽ có các tóm tắt cốt truyện "hộp và râu" giống nhau (với độ lệch tuyệt đối tối thiểu / trung bình, trung bình, trung bình / trung bình / trung bình, trên mỗi biến và vẫn sẽ khác nhau về cách hiểu.

Sẽ còn thú vị hơn nữa nếu một số hồi quy tuyệt đối ít nhất giống nhau cho các bộ dữ liệu (nhưng có lẽ tôi đã hỏi quá nhiều). Họ có thể phục vụ như một lời cảnh báo khi nói về hồi quy mạnh mẽ chứ không phải hồi quy mạnh mẽ và giúp ghi nhớ câu nói của Richard Hamming:

Mục đích của điện toán là cái nhìn sâu sắc, không phải con số

EDIT (từ các bình luận của OP) Các vấn đề tương tự được giải quyết trong việc Tạo dữ liệu với Thống kê giống hệt nhưng Đồ họa không giống nhau , Sangit Chatterjee & Aykut Firata, Thống kê người Mỹ, 2007 hoặc Nhân bản dữ liệu: tạo bộ dữ liệu với chính xác cùng một hồi quy tuyến tính, J. Áo. N.-Z. Thống kê J. 2009.

Trong Chatterjee (2007), mục đích là tạo ra các cặp tiểu thuyết có cùng phương tiện và độ lệch chuẩn so với tập dữ liệu ban đầu, trong khi tối đa hóa các hàm mục tiêu "khác biệt / khác biệt" khác nhau. Vì các hàm này có thể không lồi hoặc không phân biệt, chúng sử dụng thuật toán di truyền (GA). Các bước quan trọng bao gồm chuẩn hóa trực giao, rất phù hợp với bảo toàn phương sai và (đơn vị-). Số liệu của giấy (một nửa nội dung giấy) xếp chồng dữ liệu đầu vào và đầu ra GA. Ý kiến của tôi là đầu ra GA mất rất nhiều cách giải thích trực quan ban đầu. $(x,y)$

Và về mặt kỹ thuật, cả trung bình và trung bình đều không được giữ nguyên và bài báo không đề cập đến các quy trình tái chuẩn hóa sẽ bảo toàn các số liệu thống kê , và . $\ell_2$ $\ell_1$ $\ell_\infty$

— Laurent Duval
nguồn

Nếu bạn chỉ sau các tập dữ liệu đơn biến với cùng các ô vuông, tôi đã đưa ra một câu trả lời cho một câu hỏi một lúc trước, dựa trên sự phát triển trong một bài báo. Giữ lấy, tôi sẽ đào nó ra. (chỉnh sửa) ... tại đây . Thật dễ dàng để tạo ra nhiều tập dữ liệu có cùng thuộc tính ... Tôi giải quyết điều đó trong một câu trả lời khác ở đây .

— Glen_b -Reinstate Monica

x

$x$

y

$y$

x

$x$

y

$y$

Chatterjee & Firat ( The American Statistician , 2007) , liên quan đến trong câu trả lời này đến câu hỏi này , cung cấp một thuật toán di truyền chứ không phải chung bạn sẽ có thể thích ứng một cách đơn giản để mục đích của bạn.

— S. Kolassa - Tái lập Monica

Các lô là ví dụ về các khoảnh khắc dân số là vô nghĩa khi các khoảnh khắc phân phối bị bỏ qua. Giá trị trung bình, độ lệch chuẩn, độ lệch và các khoảnh khắc dân số khác không tương ứng với các giá trị dự kiến, độ lệch chuẩn, độ lệch và các khoảnh khắc khác của các phân phối mô tả đúng nhất các quần thể đó. Khi các ô trên được xem là phân phối của giá trị x và giá trị y, tất cả chúng đều khác nhau và do đó có các thời điểm phân phối khác nhau. Điều này tệ hơn là chỉ cần bỏ qua cấu trúc còn lại, có lẽ là vấn đề, người ta có thể bỏ qua không bị trừng phạt.

— Carl

Để cụ thể, tôi đang xem xét vấn đề tạo hai bộ dữ liệu, mỗi bộ gợi ý một mối quan hệ nhưng mối quan hệ của mỗi bộ là khác nhau và cũng có khoảng cách giống nhau:

nghĩa là x
có nghĩa là y
SD x
SD y
trung vị x
trung bình y
tối thiểu x
tối thiểu y
tối đa x
tối đa y
độ lệch tuyệt đối trung vị so với trung vị của x
độ lệch tuyệt đối trung vị so với trung vị của y
hệ số từ hồi quy tuyến tính đơn giản của y trên x

$\operatorname{mean} y = 0$ $\min y = -\max y$

Hãy xem xét, ví dụ,

\begin{array}{ccccccccccc} x & 0 & \frac{1}{9} & \frac{2}{9} & \frac{3}{9} & \frac{4}{9} & \frac{5}{9} & \frac{6}{9} & \frac{7}{9} & \frac{8}{9} & 1 \\ y & - 1 & - \frac{1}{2} & 0 & \frac{1}{2} & 1 & 1 & \frac{1}{2} & 0 & - \frac{1}{2} & - 1 \end{array}

$\begin{array}{ccccccccccc} x & 0 & \tfrac{1}{9} & \tfrac{2}{9} & \tfrac{3}{9} & \tfrac{4}{9} & \tfrac{5}{9} & \tfrac{6}{9} & \tfrac{7}{9} & \tfrac{8}{9} & 1 \\ \hline y & -1 & -\tfrac{1}{2} & 0 & \tfrac{1}{2} & 1 & 1 & \tfrac{1}{2} & 0 & -\tfrac{1}{2} & -1 \end{array}$

có đồ thị hình chữ V hướng lên như thế này:

đồ thị

Thay thế bằng và bạn nhận được V giảm xuống với tất cả các số liệu thống kê tương tự, và không chỉ xấp xỉ, mà chính xác. $y$ $-y$

— Nhà quang học học
nguồn

Đóng góp tốt đẹp. Thật vậy, tôi rơi xuống đường ngang là một chút gian lận OLS. Việc lật là một ý tưởng tốt, tuy nhiên nếu các bộ dữ liệu khác nhau, chúng vẫn giống nhau. Nhưng tôi nghĩ bạn có một ý tưởng hay, có lẽ hình dạng "N" và hình chữ "W" theo cùng một kiểu có thể là khởi đầu của một con đường

— Laurent Duval