Tại sao hệ số biến đổi không hợp lệ khi sử dụng dữ liệu có giá trị dương và âm?


10

Tôi dường như không thể tìm thấy một câu trả lời dứt khoát cho câu hỏi của tôi.

Dữ liệu của tôi bao gồm một số lô với các phương tiện đo được thay đổi từ 0,27 đến 0,57. Trong trường hợp của tôi, tất cả các giá trị dữ liệu đều dương, nhưng bản thân phép đo dựa trên tỷ lệ giá trị phản xạ có thể nằm trong khoảng từ -1 đến +1. Các ô đại diện cho các giá trị của NDVI , một chỉ số "năng suất" thực vật có nguồn gốc từ xa.

Ý định của tôi là so sánh sự thay đổi của các giá trị ở mỗi ô, nhưng vì mỗi ô có một giá trị trung bình khác nhau, tôi đã chọn sử dụng CV để đánh giá độ phân tán tương đối của các giá trị NDVI trên mỗi ô.

Theo những gì tôi hiểu, việc lấy CV của các lô này không nghiêm trọng hơn vì mỗi ô có thể có cả giá trị dương và âm. Tại sao nó không thích hợp để sử dụng CV trong những trường hợp như vậy? Điều gì sẽ là một số lựa chọn thay thế khả thi (ví dụ, thử nghiệm tương tự về độ phân tán tương đối, biến đổi dữ liệu, v.v.)?


1
Mục đích của việc so sánh sự thay đổi là gì? Tại sao bạn không so sánh các biện pháp biến đổi thực tế, như SD, MAD, phạm vi hoặc bất cứ điều gì, thay vì một biện pháp tương đối như CV (không có ý nghĩa gì ở đây)?
whuber

Tôi đang sử dụng CV để tính toán sự khác biệt về phương tiện giữa các lô. Nó không có ý nghĩa gì vì các giá trị nằm trong phạm vi -1 đến +1 trong tất cả các ô? tức là "sự biến thiên thực tế" sẽ biểu thị nhiều hơn về sự khác biệt giữa các lô?
Tiên tri60091

2
CV là một thước đo tương đối của sự thay đổi, theo định nghĩa. Nó mang lại kết quả vô nghĩa cho bất kỳ giá trị trung bình tiêu cực nào (bạn không thể giải thích một mức độ phân tán hoặc lan truyền âm). Đối với các phương tiện tích cực, nó làm cho một lượng chênh lệch nhất định trông lớn hơn nhiều khi giá trị trung bình nhỏ. Khi điều này là muốn, những gì bạn đang làm tương đương với việc so sánh dữ liệu của bạn theo thang logarit - và điều đó không có nghĩa lý gì mỗi khi bất kỳ dữ liệu nào có thể bằng 0 hoặc âm. Có thể dữ liệu của bạn có thể cần một số biểu thức lại để cho phép so sánh tốt về tính biến đổi; nó phụ thuộc vào cách chúng được tạo ra.
whuber

+1 để giải thích. Mặc dù các phương tiện của âm mưu của tôi đều tích cực, nhưng có thể có các giá trị âm trong mỗi ô. Dựa trên những điều trên và câu trả lời của Peter dưới đây, nó sẽ xuất hiện khi sử dụng CV không được bảo hành. Tôi sẽ xem xét khả năng thay đổi kích thước các giá trị và / hoặc sử dụng các biện pháp biến đổi thực tế.
Tiên tri60091

1
Nếu bạn có thể điều chỉnh lại dữ liệu của mình một cách hợp lý bằng cách thêm một hằng số, thì điều đó cũng có nghĩa là CV không phải là một ý tưởng tốt. Điều này là do thêm hằng số sẽ thay đổi CV nhưng không thay đổi biến thể.
Peter Flom - Tái lập Monica

Câu trả lời:


11

Hãy suy nghĩ về CV là gì: Tỷ lệ độ lệch chuẩn có nghĩa. Nhưng nếu biến có thể có giá trị dương và âm, giá trị trung bình có thể rất gần với 0; do đó, CV không còn làm những gì nó phải làm: Nghĩa là, hãy cho biết mức độ lớn của sd, so với giá trị trung bình.

EDIT: Trong một bình luận, tôi đã nói rằng nếu bạn có thể thêm một hằng số vào biến, thì CV không tốt. Đây là một ví dụ:

set.seed(239920)
x <- rnorm(100, 10, 2)
min(x)#To check that none are negative
(CVX <- sd(x)/mean(x))
x2 <- x + 10
(CVX2 <- sd(x2)/mean(x2))

x2 chỉ đơn giản là x + 10. Tôi nghĩ rằng rõ ràng bằng trực giác rằng chúng có thể thay đổi như nhau; nhưng CV thì khác.

Một ví dụ thực tế về điều này sẽ là nếu x là nhiệt độ tính bằng độ C và x2 là nhiệt độ tính bằng độ K (mặc dù người ta có thể lập luận rằng K là thang đo phù hợp, vì nó có 0 xác định).


cám ơn! Vì vậy, mối quan tâm nhiều hơn là có một giá trị trung bình gần bằng 0 và không nhất thiết phải có giá trị dương và âm trong dữ liệu của bạn. Nếu vậy, gần với giá trị trung bình của số 0 được coi là "rất gần"? Trong trường hợp của tôi, tôi sẽ nói rằng tôi không có phương tiện của mình gần bằng không. Có một cách xác định chắc chắn này?
Tiên tri60091

Không, mối quan tâm là CV không còn làm những gì nó phải làm, ngay cả khi chỉ có 1 giá trị âm. Nếu bạn có giá trị âm, không sử dụng CV. Ngoài ra, nếu giá trị của bạn ở mức tùy ý, không sử dụng CV.
Peter Flom - Tái lập Monica

Để đầy đủ, bạn có thể cung cấp thêm một chút giải thích về lý do tại sao sử dụng thang đo tùy ý làm mất hiệu lực sử dụng CV? Cám ơn!
Tiên tri60091

Nói một cách công bằng, tôi nghĩ rằng @whuber không ủng hộ việc so sánh dữ liệu được chuyển đổi so với dữ liệu chưa được xử lý, nhưng quan điểm của bạn vẫn được thực hiện: chia tỷ lệ sẽ ảnh hưởng đến CV, khi người ta có thể nghĩ rằng kết quả sẽ giữ nguyên. +1 cho mã R đồ chơi!
Tiên tri60091

Tôi không có tranh luận với ý kiến ​​của @whuber về chủ đề này.
Peter Flom - Tái lập Monica

0

Tôi nghĩ về những điều này như các mô hình khác nhau của biến thể. Có các mô hình thống kê trong đó CV là không đổi. Trường hợp những người làm việc có thể báo cáo một CV. Có những mô hình trong đó độ lệch chuẩn là hàm công suất của giá trị trung bình. Có những mô hình mà độ lệch chuẩn là không đổi. Theo quy tắc, mô hình CV không đổi là dự đoán ban đầu tốt hơn mô hình SD không đổi, đối với các biến tỷ lệ tỷ lệ. Bạn có thể suy đoán tại sao điều đó là đúng, có lẽ dựa trên mức độ phổ biến của phép nhân chứ không phải là tương tác cộng gộp.

Mô hình Constant-CV thường được kết hợp với chuyển đổi logarit. (Một ngoại lệ quan trọng là phản hồi không âm đôi khi bằng không.) Có một vài cách để xem xét điều đó. Đầu tiên, nếu CV không đổi thì các bản ghi là biến đổi ổn định phương sai thông thường. Ngoài ra, nếu mô hình lỗi của bạn là bất thường với hằng số SD trong thang đo nhật ký, thì CV là một biến đổi đơn giản của SD đó. CV gần bằng SD quy mô log khi cả hai đều nhỏ.

Hai cách áp dụng thống kê 101 phương pháp như độ lệch chuẩn là dữ liệu theo cách bạn có được chúng hoặc (đặc biệt nếu đó là tỷ lệ tỷ lệ) cho nhật ký của chúng. Bạn đưa ra dự đoán đầu tiên tốt nhất bạn có thể biết rằng thiên nhiên có thể phức tạp hơn và nghiên cứu sâu hơn có thể theo thứ tự. Hãy tính đến những gì mọi người trước đây đã thấy hiệu quả với loại dữ liệu của bạn.

Đây là một trường hợp mà công cụ này là quan trọng. Nồng độ hóa học đôi khi được tóm tắt bằng CV hoặc được mô hình hóa trong thang đo log. Tuy nhiên, pH là một nồng độ log.


3
Cảm ơn bạn đã đóng góp, và chào mừng đến với trang web của chúng tôi! Bạn có thể làm rõ hơn cách câu trả lời của bạn giải quyết câu hỏi về tính hợp lệ của việc sử dụng CV để mô tả dữ liệu có thể có giá trị âm không? Tình huống đó dường như sẽ không được bao phủ bởi bất kỳ nhận xét nào của bạn.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.