EDIT: Khi câu hỏi này được đưa ra, một bản tóm tắt: tìm các bộ dữ liệu có ý nghĩa và có thể diễn giải khác nhau với cùng một số liệu thống kê hỗn hợp (trung bình, trung bình, trung bình và phân tán liên quan của chúng và hồi quy).
Bộ tứ Anscombe (xem Mục đích trực quan hóa dữ liệu chiều cao? ) Là một ví dụ nổi tiếng về bốn bộ dữ liệu - , với cùng độ lệch trung bình / độ lệch chuẩn (trên bốn và bốn , riêng biệt) và cùng một tuyến tính OLS , hồi quy và tổng dư của bình phương và hệ số tương quan . Do đó, thống kê -type (biên và khớp) là như nhau, trong khi các bộ dữ liệu khá khác nhau.y x y R 2 ℓ 2
EDIT (từ các bình luận của OP) Để tách kích thước tập dữ liệu nhỏ, hãy để tôi đề xuất một số giải thích. Tập 1 có thể được xem như là một mối quan hệ tuyến tính (affine, chính xác) tiêu chuẩn với nhiễu phân tán. Bộ 2 cho thấy một mối quan hệ rõ ràng có thể là mối quan hệ phù hợp ở mức độ cao hơn. Tập 3 cho thấy một sự phụ thuộc thống kê tuyến tính rõ ràng với một ngoại lệ. Tập 4 khó hơn: nỗ lực "dự đoán" từ dường như bị ràng buộc với thất bại. Thiết kế của có thể cho thấy hiện tượng trễ với phạm vi giá trị không đủ, hiệu ứng lượng tử hóa ( có thể được định lượng quá nhiều) hoặc người dùng đã chuyển các biến phụ thuộc và độc lập.x x x
Vì vậy, các tính năng tóm tắt ẩn các hành vi rất khác nhau. Bộ 2 có thể được xử lý tốt hơn với sự phù hợp đa thức. Bộ 3 với các phương pháp chống ngoại lệ ( hoặc tương tự), cũng như Bộ 4. Người ta có thể tự hỏi liệu các hàm chi phí hoặc chỉ số chênh lệch khác có thể giải quyết hay ít nhất là cải thiện sự phân biệt dữ liệu. EDIT (từ bình luận của OP): bài đăng trên blog Curious Regressions nói rằng:ℓ 1
Tình cờ, tôi nói rằng Frank Anscombe không bao giờ tiết lộ cách anh ấy đưa ra các bộ dữ liệu này. Nếu bạn nghĩ rằng đó là một nhiệm vụ dễ dàng để có được tất cả các số liệu thống kê tóm tắt và kết quả hồi quy như nhau, thì hãy thử xem!
Trong các Bộ dữ liệu được xây dựng cho một mục đích tương tự như bộ tứ của Anscombe , một số bộ dữ liệu thú vị được đưa ra, ví dụ với cùng một biểu đồ dựa trên lượng tử. Tôi không thấy một hỗn hợp có ý nghĩa và thống kê hỗn hợp.
Câu hỏi của tôi là: có bivariate (hoặc trivariate, để giữ trực quan hóa) Các bộ dữ liệu giống như Anscombe sao cho có thêm số liệu thống kê -type :
- âm mưu của chúng có thể hiểu là mối quan hệ giữa và , như thể người ta đang tìm kiếm một định luật giữa các phép đo,y
- chúng sở hữu các thuộc tính cận biên (mạnh hơn) (cùng trung vị và trung bình độ lệch tuyệt đối),
- chúng có cùng các hộp giới hạn: cùng min, max (và do đó -type thống kê giữa và trung bình nhịp).
Các bộ dữ liệu như vậy sẽ có các tóm tắt cốt truyện "hộp và râu" giống nhau (với độ lệch tuyệt đối tối thiểu / trung bình, trung bình, trung bình / trung bình / trung bình, trên mỗi biến và vẫn sẽ khác nhau về cách hiểu.
Sẽ còn thú vị hơn nữa nếu một số hồi quy tuyệt đối ít nhất giống nhau cho các bộ dữ liệu (nhưng có lẽ tôi đã hỏi quá nhiều). Họ có thể phục vụ như một lời cảnh báo khi nói về hồi quy mạnh mẽ chứ không phải hồi quy mạnh mẽ và giúp ghi nhớ câu nói của Richard Hamming:
Mục đích của điện toán là cái nhìn sâu sắc, không phải con số
EDIT (từ các bình luận của OP) Các vấn đề tương tự được giải quyết trong việc Tạo dữ liệu với Thống kê giống hệt nhưng Đồ họa không giống nhau , Sangit Chatterjee & Aykut Firata, Thống kê người Mỹ, 2007 hoặc Nhân bản dữ liệu: tạo bộ dữ liệu với chính xác cùng một hồi quy tuyến tính, J. Áo. N.-Z. Thống kê J. 2009.
Trong Chatterjee (2007), mục đích là tạo ra các cặp tiểu thuyết có cùng phương tiện và độ lệch chuẩn so với tập dữ liệu ban đầu, trong khi tối đa hóa các hàm mục tiêu "khác biệt / khác biệt" khác nhau. Vì các hàm này có thể không lồi hoặc không phân biệt, chúng sử dụng thuật toán di truyền (GA). Các bước quan trọng bao gồm chuẩn hóa trực giao, rất phù hợp với bảo toàn phương sai và (đơn vị-). Số liệu của giấy (một nửa nội dung giấy) xếp chồng dữ liệu đầu vào và đầu ra GA. Ý kiến của tôi là đầu ra GA mất rất nhiều cách giải thích trực quan ban đầu.
Và về mặt kỹ thuật, cả trung bình và trung bình đều không được giữ nguyên và bài báo không đề cập đến các quy trình tái chuẩn hóa sẽ bảo toàn các số liệu thống kê , và .ℓ 1 ℓ ∞