Làm cách nào tôi có thể nhóm dữ liệu số thành các dấu ngoặc đơn hình thành tự nhiên? (ví dụ: thu nhập)


14

Phần sau đây mô tả những gì tôi đang cố gắng thực hiện, nhưng có thể một tuyên bố vấn đề thay thế có thể mô tả mục tiêu của tôi:

tôi muốn

  1. chia các số sau thành các nhóm trong đó phương sai của các số trong mỗi nhóm không quá lớn và sự khác biệt giữa trung bình của các nhóm không quá nhỏ

  2. so sánh sự phân phối thu được cuối cùng với những cái "hoàn hảo" và xem nó "khác biệt" như thế nào so với sự hoàn hảo.


Giải thích về mục tiêu của Layman

Tôi đang cố gắng tính toán phân phối thu nhập và xác định "khung thu nhập" cho mỗi dân số. Khung thu nhập được cho là tự điều chỉnh dựa trên dữ liệu đầu vào.

Mục tiêu của tôi là cuối cùng là đo lường hoặc tính toán sự khác biệt giữa các khung thu nhập. Tôi giả sử sẽ có nhiều dấu ngoặc và muốn xem mỗi tầng cách nhau bao xa.

Dưới đây là mẫu thu nhập hàng giờ cho một nhóm mẫu gồm dân số 20 và tổng thu nhập là 3587:

Population= 10                   pop=2   population=5              population =3
10, 11,13,14,14,14,14,14,15,20,  40,50  ,90,91,92,93,94      999,999,900 

Làm cách nào tôi có thể sử dụng các khái niệm toán học để nhóm, sắp xếp và phân tích dữ liệu hoạt động như phân phối thu nhập trên một dân số nhất định?

Khi kết thúc tính toán, tôi muốn xác định phân phối thu nhập theo từng cấp, trong đó một phân phối hoàn hảo sẽ trông như thế nào (một cái gì đó) như thế này

(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279

hoặc này:

(evenly distributed groups of people make the same per hour) 
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99   129 129 129   159 159 159   199 199 199  229 229 229  269 269 269 

Câu hỏi

Tôi nên phân tích các nhóm dân số như thế nào và đo khoảng cách theo cách sẽ cho tôi biết cần bao nhiêu để làm cho nó giống với hai bộ mô hình cuối cùng được liệt kê ở trên?


Cảm ơn @svidgen về đề xuất đăng bài ở đây thay vì Lập trình
viên.SE

Lưu ý: Tôi đã nhận được phản hồi này trong khi đặt câu hỏi này: It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.
goodguys_activate

Tôi dường như đã tìm thấy một cái gì đó rất giống với những gì tôi cần ... được gọi là dữ liệu binning: msdn.microsoft.com/en-us/magazine/dn342876.aspx
goodguys_activate

Có, vui lòng chuyển câu hỏi (và bao gồm lời giải thích tốt hơn của bạn từ các bình luận nếu có thể).
goodguys_activate

Tìm kiếm những lỗ hổng trong phân phối thu nhập, nếu bạn may mắn, bạn có thể tìm thấy các đỉnh (hơi nhân tạo) mà sau đó bạn có thể sử dụng làm dấu ngoặc. Điều này có thể hoạt động tương đối tốt cho thu nhập thấp hơn.
Marc Claesen

Câu trả lời:


18

Phân tích cụm với một biến duy nhất có ý nghĩa hoàn hảo bất cứ khi nào có một số chiều dọc theo đó các giá trị có thể được sắp xếp. Đây có thể là thang đo , thời gian hoặc không gian .

Đưa ra dữ liệu theo một số thang đo , có thể có hứng thú tìm kiếm các ngắt tương đối trong phân phối tần số (antimode, trong một thuật ngữ).

Lưu ý thận trọng: Tuy nhiên, việc phá vỡ các thùng xác định, hoặc có vẻ như tùy tiện bị xa lánh trong một số lĩnh vực của khoa học thống kê, và có sự ưu tiên rộng rãi và được đánh dấu cho việc đóng thùng với các khoảng bằng nhau và rất thường xuyên để tránh việc đóng thùng hoàn toàn khi có thể . Đây là một phần của vấn đề hương vị, một phần của quy ước: thực tiễn đã thay đổi khi việc lưu trữ toàn bộ bộ dữ liệu trở nên dễ dàng hơn.

Một chuỗi thời gian có thể được chia thành các phép thuật, kỷ nguyên, thời kỳ, bất cứ điều gì, lý tưởng với sự khác biệt tương đối nhỏ trong các tiểu mục và sự khác biệt tương đối lớn giữa các tiểu mục. Vấn đề tương tự phát sinh cho không gian bất cứ khi nào một chiều không gian duy nhất (ngang hoặc dọc) được chia nhỏ. Trong địa chất và các ngành khoa học khác, điều này thường được nghiên cứu dưới tiêu đề phân vùng.

Lưu ý rằng bất kỳ phân cụm chính thức nào cũng phải luôn đi kèm với biểu đồ dữ liệu thích hợp (ví dụ: sử dụng dấu chấm hoặc lượng tử hoặc biểu đồ đường), điều này thực sự có thể làm rõ rằng các ngắt là rõ ràng (vì vậy phân cụm chính thức chỉ là trang trí) hoặc rằng phá vỡ thuyết phục không tồn tại (để phân cụm chính thức có thể là vô nghĩa).

Xem xét một ví dụ đồ chơi về các giá trị được sắp xếp theo độ lớn:

    14 15 16 23 24 25 56 57 58 

trong đó rõ ràng là một nhóm ba nhóm

    14 15 16 | 23 24 25 | 56 57 58 

knk-1k-1= =2n-1(n-1k-1)k2n-1n

Vấn đề có thể được thực hiện chính xác (Fisher 1958; Hartigan 1975) bằng cách đặt các điểm đánh dấu để giảm thiểu, cho một số nhóm nhất định,

tổng hợp trên các nhóm biến đổi xung quanh trung tâm nhóm.

Tổng số sai lệch bình phương từ phương tiện nhóm sẽ xuất hiện trong tâm trí là khả năng rõ ràng nhất. Tổng các sai lệch tuyệt đối từ trung vị nhóm và các biện pháp khác, có thể được giải trí.

Hartigan (1975) đã chỉ ra cách tiếp cận lập trình động làm cho việc tính toán như vậy trở nên đơn giản và trình bày mã Fortran. Việc triển khai Stata (Cox 2007) sẽ group1dđược cài đặt từ SSC.

Cox, NJ 2007. GROUP1D: Mô-đun Stata để nhóm hoặc phân cụm theo một chiều. http://ideas.repec.org/c/boc/bocode/s456844.html

Fisher, WD 1958. Về việc nhóm để đạt được sự đồng nhất tối đa. Tạp chí, Hiệp hội Thống kê Hoa Kỳ 53: 789-98.

Hartigan, JA 1975. Thuật toán phân cụm. New York: John Wiley. Kịch.

Postcript Cách tiếp cận này dường như phù hợp với phần đầu tiên của câu hỏi cụ thể. Tôi đã nói chung về nó bởi vì tôi nghĩ rằng công thức này là một mối quan tâm chung (và vì tôi dễ dàng tái chế một phần tài liệu của Cox 2007). Nhưng nếu mục tiêu cụ thể là so sánh phân phối thu nhập với phân phối đồng phục tham chiếu, tôi không thấy rằng binning có bất kỳ phần nào để chơi cả. Đó là một vấn đề tiêu chuẩn trong kinh tế học mà Lorenz đường cong và các biện pháp bất bình đẳng là điểm khởi đầu. Về bản chất, bạn có thể so sánh lượng tử với lượng tử hoặc điểm phần trăm với điểm phần trăm.


1

Hãy xem Jenks Natural Break:

https://en.wikipedia.org/wiki/Jenks_natural_breaks_optimization

Tôi nghĩ đó là những gì bạn cần, và có nhiều triển khai bằng nhiều ngôn ngữ.


5
Mặc dù có thể không rõ ràng ngay lập tức, nhưng đây chính xác là gợi ý của Nick Cox rằng "một tổng sai lệch bình phương so với phương tiện nhóm sẽ xuất hiện trong tâm trí là khả năng rõ ràng nhất". Anh ta nói chung chung hơn một phần (tôi nghi ngờ) bởi vì đối với thu nhập, đây sẽ là một giải pháp kém: người ta thường tốt hơn là thực hiện tính toán theo thu nhập log.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.