Phần sau đây mô tả những gì tôi đang cố gắng thực hiện, nhưng có thể một tuyên bố vấn đề thay thế có thể mô tả mục tiêu của tôi:
tôi muốn
chia các số sau thành các nhóm trong đó phương sai của các số trong mỗi nhóm không quá lớn và sự khác biệt giữa trung bình của các nhóm không quá nhỏ
so sánh sự phân phối thu được cuối cùng với những cái "hoàn hảo" và xem nó "khác biệt" như thế nào so với sự hoàn hảo.
Giải thích về mục tiêu của Layman
Tôi đang cố gắng tính toán phân phối thu nhập và xác định "khung thu nhập" cho mỗi dân số. Khung thu nhập được cho là tự điều chỉnh dựa trên dữ liệu đầu vào.
Mục tiêu của tôi là cuối cùng là đo lường hoặc tính toán sự khác biệt giữa các khung thu nhập. Tôi giả sử sẽ có nhiều dấu ngoặc và muốn xem mỗi tầng cách nhau bao xa.
Dưới đây là mẫu thu nhập hàng giờ cho một nhóm mẫu gồm dân số 20 và tổng thu nhập là 3587:
Population= 10 pop=2 population=5 population =3
10, 11,13,14,14,14,14,14,15,20, 40,50 ,90,91,92,93,94 999,999,900
Làm cách nào tôi có thể sử dụng các khái niệm toán học để nhóm, sắp xếp và phân tích dữ liệu hoạt động như phân phối thu nhập trên một dân số nhất định?
Khi kết thúc tính toán, tôi muốn xác định phân phối thu nhập theo từng cấp, trong đó một phân phối hoàn hảo sẽ trông như thế nào (một cái gì đó) như thế này
(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279
hoặc này:
(evenly distributed groups of people make the same per hour)
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99 129 129 129 159 159 159 199 199 199 229 229 229 269 269 269
Câu hỏi
Tôi nên phân tích các nhóm dân số như thế nào và đo khoảng cách theo cách sẽ cho tôi biết cần bao nhiêu để làm cho nó giống với hai bộ mô hình cuối cùng được liệt kê ở trên?
It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.