Tôi đang xem xét sự phong phú có liên quan đến kích thước. Kích thước là (tất nhiên) liên tục, tuy nhiên, sự phong phú được ghi lại trên một tỷ lệ sao cho
A = 0-10
B = 11-25
C = 26-50
D = 51-100
E = 101-250
F = 251-500
G = 501-1000
H = 1001-2500
I = 2501-5000
J = 5001-10,000
etc...
Từ A đến Q ... 17 cấp độ. Tôi đã nghĩ một cách tiếp cận khả thi sẽ là gán cho mỗi chữ cái một số: tối thiểu, tối đa hoặc trung bình (tức là A = 5, B = 18, C = 38, D = 75,5 ...).
Những cạm bẫy tiềm năng là gì - và như vậy, sẽ tốt hơn nếu coi dữ liệu này là phân loại?
Tôi đã đọc qua câu hỏi này cung cấp một số suy nghĩ - nhưng một trong những chìa khóa của bộ dữ liệu này là các danh mục không đồng đều - vì vậy coi nó là phân loại sẽ cho rằng sự khác biệt giữa A và B giống như sự khác biệt giữa B và C ... (có thể được sửa chữa bằng cách sử dụng logarit - cảm ơn Ẩn danh)
Cuối cùng, tôi muốn xem liệu kích thước có thể được sử dụng như một yếu tố dự báo cho sự phong phú sau khi xem xét các yếu tố môi trường khác. Dự đoán cũng sẽ nằm trong một phạm vi: Với kích thước X và các yếu tố A, B và C, chúng tôi dự đoán rằng Sự dư thừa Y sẽ nằm giữa Min và Max (mà tôi cho rằng có thể vượt qua một hoặc nhiều điểm tỷ lệ: Nhiều hơn Min D và nhỏ hơn Max F ... mặc dù càng chính xác thì càng tốt).