Thực hành tốt nhất khi xử lý dữ liệu phạm vi là liên tục


9

Tôi đang xem xét sự phong phú có liên quan đến kích thước. Kích thước là (tất nhiên) liên tục, tuy nhiên, sự phong phú được ghi lại trên một tỷ lệ sao cho

A = 0-10
B = 11-25
C = 26-50
D = 51-100
E = 101-250
F = 251-500
G = 501-1000
H = 1001-2500
I = 2501-5000
J = 5001-10,000
etc... 

Từ A đến Q ... 17 cấp độ. Tôi đã nghĩ một cách tiếp cận khả thi sẽ là gán cho mỗi chữ cái một số: tối thiểu, tối đa hoặc trung bình (tức là A = 5, B = 18, C = 38, D = 75,5 ...).

Những cạm bẫy tiềm năng là gì - và như vậy, sẽ tốt hơn nếu coi dữ liệu này là phân loại?

Tôi đã đọc qua câu hỏi này cung cấp một số suy nghĩ - nhưng một trong những chìa khóa của bộ dữ liệu này là các danh mục không đồng đều - vì vậy coi nó là phân loại sẽ cho rằng sự khác biệt giữa A và B giống như sự khác biệt giữa B và C ... (có thể được sửa chữa bằng cách sử dụng logarit - cảm ơn Ẩn danh)

Cuối cùng, tôi muốn xem liệu kích thước có thể được sử dụng như một yếu tố dự báo cho sự phong phú sau khi xem xét các yếu tố môi trường khác. Dự đoán cũng sẽ nằm trong một phạm vi: Với kích thước X và các yếu tố A, B và C, chúng tôi dự đoán rằng Sự dư thừa Y sẽ nằm giữa Min và Max (mà tôi cho rằng có thể vượt qua một hoặc nhiều điểm tỷ lệ: Nhiều hơn Min D và nhỏ hơn Max F ... mặc dù càng chính xác thì càng tốt).

Câu trả lời:


13

Giải pháp phân loại

Việc coi các giá trị là phân loại sẽ làm mất thông tin quan trọng về kích thước tương đối . Một phương pháp tiêu chuẩn để khắc phục điều này được ra lệnh hồi quy logistic . Trong thực tế, phương pháp này "biết" rằng và sử dụng các mối quan hệ quan sát với hồi quy (như kích thước) phù hợp (hơi độc đoán) giá trị cho mỗi danh mục tôn trọng trật tự.A<B<<J<

Như một minh họa, hãy xem xét 30 cặp (kích thước, loại phong phú) được tạo như

size = (1/2, 3/2, 5/2, ..., 59/2)
e ~ normal(0, 1/6)
abundance = 1 + int(10^(4*size + e))

với sự phong phú được phân loại thành các khoảng [0,10], [11,25], ..., [10001,25000].

Scatterplot của thể loại phong phú so với kích thước

Hồi quy logistic theo thứ tự tạo ra phân phối xác suất cho mỗi loại; sự phân phối phụ thuộc vào kích thước. Từ thông tin chi tiết như vậy, bạn có thể tạo ra các giá trị ước tính và khoảng xung quanh chúng. Dưới đây là sơ đồ của 10 tệp PDF được ước tính từ các dữ liệu này (không thể ước tính cho loại 10 do thiếu dữ liệu ở đó):

Mật độ xác suất theo thể loại

Giải pháp liên tục

Tại sao không chọn một giá trị số để thể hiện từng danh mục và xem sự không chắc chắn về sự phong phú thực sự trong danh mục như là một phần của thuật ngữ lỗi?

faf(a)a

fαiiβiif(βi)αiαi+1f(a)

εa+εaf(βi)f(βi)f(a)

error=f(a+ε)f(a)(f(a+ε)f(βi)).

f(a+ε)f(a)fεεεif(βi)<0i+1f(βi)0fβif(βi)ii+1βif1(i+1/2)

f

4log(10)9.21

Kết quả hồi quy

Biểu đồ này cho thấy sự phong phú chưa được phân loại cùng với sự phù hợp dựa trên mức độ phong phú được phân loại (sử dụng các phương tiện hình học của các điểm cuối danh mục theo khuyến nghị) và sự phù hợp dựa trên chính sự phong phú. Sự phù hợp rất gần, chỉ ra phương pháp thay thế các danh mục bằng các giá trị số được chọn phù hợp hoạt động tốt trong ví dụ .

βif1025000


+1 câu trả lời xuất sắc! Tôi đặc biệt thích cách 2 tùy chọn khác nhau được mô tả cùng với lời biện minh của họ. Tôi cũng tập hợp lấy nhật ký của sự phong phú, không phải kích thước, nên là điểm nhấn, đó cũng là suy nghĩ của tôi. Một câu hỏi, trong phần 1, bạn nêu "bạn có thể tạo ra các giá trị ước tính và khoảng xung quanh chúng". Làm thế nào để làm điều này?
gung - Phục hồi Monica

Câu hỏi hay, @gung. Một cách thô thiển, có thể có hiệu quả, là coi các danh mục là dữ liệu có giá trị trong khoảng thời gian và kết quả logit được đặt hàng đang cung cấp phân phối (riêng biệt) trong các khoảng đó cho bất kỳ giá trị nhất định nào về 'kích thước'. Kết quả là một phân phối có giá trị giữa các khoảng thời gian, sẽ có giới hạn tin cậy trung bình và giá trị khoảng thời gian có giá trị trung bình.
whuber

3
@whuber, đáng để đề cập đến các tùy chọn phần mềm. Tôi đoán rằng bạn đã sử dụng Stata (nếu tôi được đào tạo đủ tốt về đồ thị Stata và nói với họ từ đồ thị R và SAS), nơi mô hình này được trang bị ologit. Trong R, bạn có thể làm điều này với polrtrong MASSgói.
StasK

1
Bạn nói đúng, @Stask. Cảm ơn đã tham khảo giải pháp R. (Các biểu đồ là tất cả các biểu đồ mặc định trong Stata 11; chỉ có các kiểu chú thích và dòng trong phần cuối cùng được tùy chỉnh vì sự khác biệt màu đỏ-xanh có thể không rõ ràng với khoảng 3% trong số tất cả các độc giả.)
whuber

2
@StasK rms::lrmvà gói ordinal ( clm) cũng là những lựa chọn tốt.
chl

2

Xem xét sử dụng logarit của kích thước.


Hà - Câu trả lời đó gợi ra một phần lòng bàn tay. Đúng là quan tâm đến vấn đề tỷ lệ - nhưng vẫn trong tầm tay: để phân loại hay không, và con số nào để chốt "giá trị". Nếu những câu hỏi này không liên quan, tôi cũng có thể xử lý việc đó.
Plants4theForest

1
Vâng, bạn đã đặt nhiều vấn đề khác nhau thành một. Dữ liệu bạn có dường như có ý nghĩa hơn trên thang logarit. Cho dù bạn có muốn thực hiện binning hay không là một câu hỏi riêng biệt, và ở đó tôi chỉ có một câu trả lời lòng bàn tay khác cho bạn: phụ thuộc vào dữ liệu của bạn và vào những gì bạn muốn đạt được. Sau đó, có một câu hỏi ẩn khác: làm thế nào để tôi tính toán sự khác biệt giữa các khoảng - tính toán sự khác biệt của phương tiện của họ? hoặc khoảng cách tối thiểu (khi đó A đến B sẽ là 0, B đến C sẽ là 0, nhưng A đến C thì không). vv
Có QUIT - Anony-Mousse

Điểm tốt, tôi đã cập nhật câu hỏi của tôi với nhiều thông tin hơn để giải quyết các mục tiêu. Đối với sự khác biệt trong các khoảng thời gian, tôi nghĩ đó là câu hỏi của tôi - đâu là lợi thế / bất lợi tương đối của việc tính toán khoảng thời gian dựa trên sự khác biệt của phương tiện, khoảng cách tối thiểu, khoảng cách tối đa, khoảng cách giữa phút, khoảng cách giữa các mức tối đa, v.v. về những điều tôi cần xem xét để đưa ra quyết định này (hoặc thậm chí nếu cần phải xem xét) sẽ rất tuyệt.
Plants4theForest

Có rất nhiều lựa chọn khác. Ví dụ: để loại bỏ tất cả các hiệu ứng tỷ lệ, bạn có thể cố gắng dự đoán vị trí xếp hạng thay thế. Ngoài ra, đó là một câu hỏi về đo lường lỗi. Bằng cách lấy logarit, bạn cũng thường cân nhắc các lỗi theo cách này. Vì vậy, khi giá trị thực là 10000 và giá trị dự đoán là 10100, giá trị này thấp hơn nhiều so với khi giá trị dự đoán là 1 và giá trị thực là 101. Ngoài ra, việc tạo thùng và tính toán tư duy giữa các thùng, bạn thậm chí còn có trọng lượng nhỏ lỗi với 0.
Có QUIT - Anony-Mousse
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.