Làm thế nào để giải thích hệ số biến đổi?


33

Tôi đang cố gắng để hiểu hệ số biến đổi . Khi tôi cố gắng áp dụng nó cho hai mẫu dữ liệu sau đây, tôi không thể hiểu làm thế nào để diễn giải kết quả.

Giả sử mẫu 1 là và mẫu 2 là . Ở đây mẫu 2 mẫu 1 như bạn có thể thấy.10 , 15 , 17 , 22 , 21 , 27 = + 100,5,7,12,11,1710,15,17,22,21,27=+ 10

Cả hai đều có cùng độ lệch chuẩn nhưng và .σ2=σ1=5.95539μ2=18.67μ1=8.66667

Bây giờ hệ số biến đổi sẽ khác. Đối với mẫu 2, nó sẽ ít hơn mẫu 1. Nhưng làm thế nào để tôi diễn giải kết quả đó? Về phương sai cả hai đều giống nhau; chỉ có phương tiện của họ là khác nhau. Vậy việc sử dụng hệ số biến đổi ở đây là gì? Nó chỉ gây hiểu lầm cho tôi hoặc có thể tôi không thể giải thích kết quả.σ/μ


Nếu thay vì thêm 10, bạn thêm 1000, bộ số thứ hai sẽ khác nhau ít hơn nhiều so với giá trị trung bình so với bộ thứ nhất. Hệ số biến đổi là một biểu hiện của điều này.

Liên quan rất chặt chẽ: stats.stackexchange.com/questions/113437/ .
whuber

Câu trả lời:


42

Trong các ví dụ như của bạn khi dữ liệu khác nhau chỉ là cộng, tức là chúng ta thêm một số không đổi vào mọi thứ, sau đó khi bạn chỉ ra độ lệch chuẩn không thay đổi, giá trị trung bình được thay đổi theo chính xác hằng số đó và do đó, hệ số biến đổi thay đổi từ to , không thú vị cũng không hữu ích.kσ/μσ/(μ+k)

Đó là sự thay đổi nhân lên rất thú vị và ở đó hệ số biến đổi có một số sử dụng. Để nhân mọi thứ với một số hằng số ngụ ý rằng hệ số biến đổi trở thành , tức là giữ nguyên như trước. Thay đổi đơn vị đo lường là một trường hợp điển hình, như trong câu trả lời của @Aksalal và @Macond.kkσ/kμ

Vì hệ số biến đổi là không có đơn vị, nên nó cũng không có thứ nguyên, vì bất kỳ đơn vị hoặc kích thước nào được sở hữu bởi biến cơ bản đều bị phân chia. Điều đó làm cho hệ số biến thiên là thước đo độ biến thiên tương đối , do đó độ biến thiên tương đối của độ dài có thể được so sánh với trọng số, v.v. Một lĩnh vực mà hệ số biến đổi đã tìm thấy một số sử dụng mô tả là hình thái kích thước sinh vật trong sinh học.

Về nguyên tắc và thực hành, hệ số biến thiên chỉ được xác định đầy đủ và hoàn toàn hữu ích cho các biến hoàn toàn dương. Do đó, chi tiết mẫu đầu tiên của bạn có giá trị không phải là một ví dụ thích hợp. Một cách khác để thấy điều này là lưu ý rằng trung bình là 0, hệ số sẽ không xác định và trung bình là âm bao giờ hệ số sẽ âm, giả sử trong trường hợp sau đó độ lệch chuẩn là dương. Một trong hai trường hợp sẽ làm cho các biện pháp trở nên vô dụng như một thước đo của sự thay đổi tương đối, hoặc thực sự cho bất kỳ mục đích nào khác. 0

Một tuyên bố tương đương là hệ số biến đổi chỉ thú vị và hữu ích nếu logarit được xác định theo cách thông thường cho tất cả các giá trị và thực sự sử dụng các hệ số biến đổi tương đương với việc xem xét độ biến thiên của logarit.

Mặc dù nó có vẻ khó tin đối với độc giả ở đây, tôi đã thấy các ấn phẩm khí hậu và địa lý trong đó các hệ số biến đổi của nhiệt độ Celsius đã khiến các nhà khoa học ngây thơ bối rối, lưu ý rằng các hệ số có thể bùng nổ khi nhiệt độ có nghĩa là gần C và trở nên âm nhiệt độ trung bình dưới mức đóng băng. Thậm chí kỳ lạ hơn, tôi đã thấy những gợi ý rằng vấn đề được giải quyết bằng cách sử dụng Fahrenheit thay thế. Ngược lại, hệ số biến thiên thường được đề cập chính xác như một thước đo tóm tắt được xác định khi và chỉ khi thang đo đo đủ điều kiện là thang tỷ lệ. Khi nó xảy ra, hệ số biến đổi không đặc biệt hữu ích ngay cả đối với nhiệt độ được đo bằng kelvin, nhưng vì lý do vật lý hơn là toán học hoặc thống kê.0

Như trong trường hợp của những ví dụ kỳ lạ từ khí hậu học, điều mà tôi không để ý vì các tác giả không xứng đáng với sự tín nhiệm cũng như sự xấu hổ, hệ số biến đổi đã được sử dụng quá mức trong một số lĩnh vực. Đôi khi có một xu hướng coi nó như một loại phép đo tóm tắt ma thuật gói gọn cả độ lệch trung bình và độ lệch chuẩn. Đây là suy nghĩ nguyên thủy tự nhiên, vì ngay cả khi tỷ lệ có ý nghĩa, độ lệch trung bình và độ lệch chuẩn không thể được phục hồi từ nó.

Trong thống kê, hệ số biến thiên là một tham số khá tự nhiên nếu biến thể tuân theo gamma hoặc logic bất thường, như có thể thấy bằng cách nhìn vào dạng hệ số biến đổi cho các phân phối đó.

Mặc dù hệ số biến đổi có thể được sử dụng, trong trường hợp áp dụng bước hữu ích hơn là làm việc trên thang logarit, bằng cách chuyển đổi logarit hoặc bằng cách sử dụng hàm liên kết logarit trong mô hình tuyến tính tổng quát.

EDIT: Nếu tất cả các giá trị là âm, thì chúng ta có thể coi dấu hiệu chỉ là một quy ước có thể bị bỏ qua. Tương tự trong trường hợp đó,thực sự là một cặp song sinh của hệ số biến thiên.σ/|μ|


3
+1 Bài đăng này bao gồm các điểm chính về logarit và tính tích cực phải là một phần của bất kỳ cuộc thảo luận nào về vấn đề này. "Những câu chuyện chiến tranh" cũng khiến nó được đọc tốt.
whuber

Tôi nghĩ bạn không thể tính CV nếu một biến là = 0?

1
@Jerf: Hãy suy nghĩ kỹ. Nếu tất cả các giá trị là 0, thì không có biến thể và không có gì để tính toán. Không có vấn đề gì chỉ vì một số giá trị riêng lẻ là 0, vì bản thân nó không loại trừ giá trị trung bình là 0. Tuy nhiên, bạn luôn có thể tìm thấy các ví dụ trong đó một số giá trị không bằng 0 nhưng giá trị trung bình là 0, ví dụ: 1, 0, 1 trong trường hợp CV không xác định. Nhưng trong thực tế, CV hữu ích nhất khi tất cả các giá trị đều dương.
Nick Cox

13

Hãy tưởng tượng tôi đã nói "Có 1.625.330 người trong thị trấn này. Cộng hoặc trừ năm." Bạn sẽ bị ấn tượng bởi kiến ​​thức nhân khẩu học chính xác của tôi.

Nhưng nếu tôi nói "Có năm người trong ngôi nhà này. Cộng hoặc trừ năm." Bạn sẽ nghĩ rằng tôi không biết có bao nhiêu người trong nhà.

Độ lệch chuẩn giống nhau, nhiều CV khác nhau.


1
Đây là một cách hợp lý để giải thích CoV là gì, nhưng không rõ nó liên quan đến câu hỏi của OP như thế nào.
gung - Phục hồi Monica

OP hỏi: "Xét về phương sai cả hai đều giống nhau; chỉ có phương tiện của chúng là khác nhau. Vậy việc sử dụng hệ số biến đổi ở đây là gì?" Tôi nghĩ rằng ví dụ của tôi minh họa việc sử dụng CV như một cách giải thích phương sai.
Bart

1
Tôi đã không đánh giá thấp bạn. 2 câu hỏi rõ ràng của OP là: "làm thế nào để tôi diễn giải kết quả đó?", & "Việc sử dụng hệ số biến đổi ở đây là gì?". Bạn giải thích là tốt, nhưng hiểu CoV là gì, chỉ là bước đầu tiên để trả lời những câu hỏi đó, không phải là toàn bộ câu trả lời cho những câu hỏi đó.
gung - Phục hồi Monica

4

Thông thường, bạn sử dụng hệ số biến thiên cho các biến số của các đơn vị đo lường khác nhau hoặc các thang đo rất khác nhau. Bạn có thể nghĩ về nó như tỷ lệ nhiễu / tín hiệu. Chẳng hạn, bạn có thể muốn so sánh sự thay đổi về cân nặng và chiều cao của học sinh; sự thay đổi của GDP của Hoa Kỳ và Monaco.

Trong trường hợp của bạn, hệ số biến đổi có thể không có nhiều ý nghĩa, vì các giá trị không khác nhau nhiều.


2

Mẫu có giá trị cao hơn có ít biến đổi hơn so với giá trị trung bình của nó, như định nghĩa ( ) gợi ý. Nó thực sự là khá đơn giản. Hệ số biến đổi rất hữu ích khi so sánh sự biến đổi giữa các mẫu (hoặc quần thể) của các thang đo khác nhau. Hãy xem xét bạn đang đối phó với tiền lương giữa các quốc gia. So sánh sự khác biệt về tiền lương ở Mỹ và Nhật Bản sẽ ít thông tin hơn nếu bạn sử dụng phương sai thay vì hệ số biến thiên như thống kê của bạn, bởi vì 1 USD ~ = 100 JPY và chênh lệch 1 đơn vị tiền lương không có nghĩa giống nhau ở cả hai mẫu. Chà, trong ví dụ này, bạn có thể chuyển đổi mọi thứ sang USD và sau đó thực hiện các phép tính, nhưng không phải lúc nào cũng rõ ràng làm thế nào để chuyển đổi giữa các quy mô khác nhau. Khi so sánh sự thay đổi về trọng lượng cơ thể của các loài khác nhau chẳng hạn.s/x¯


2

Trong thực tế, cả hai số liệu thống kê có thể gây hiểu nhầm nếu bạn không biết hoặc không hiểu giả thuyết và thử nghiệm của mình. Hãy xem xét ví dụ khủng khiếp này ... Đi bộ qua hai tòa nhà cao tầng trên một đường dây đối lập với việc đi trên một tấm ván. Chúng ta hãy nói rằng dây buộc có đường kính 1 inch, trong khi tấm ván rộng 12 inch. 5 người được yêu cầu đi dây và 5 người được yêu cầu đi ván. Chúng tôi đã tìm thấy các kết quả sau:

Khoảng cách trung bình của mỗi bước từ mép (hoặc cạnh) của dây (inch): 0,5, 0,2, 0,3, 0,6, 0,1

Khoảng cách trung bình của mỗi bước từ cạnh (hoặc cạnh) của tấm ván (inch): 5.5, 5.2, 5.3, 5.6, 5.1

Giống như trong ví dụ của bạn, ví dụ này sẽ dẫn đến độ lệch chuẩn bằng nhau vì các giá trị cho tấm ván chỉ đơn giản là chênh lệch +5 so với giá trị cho dây buộc. Tuy nhiên, nếu tôi nói với bạn rằng độ lệch chuẩn cho mỗi thí nghiệm là 0,2074 thì bạn có thể nói tốt thì hai thí nghiệm là tương đương nhau. Tuy nhiên, nếu tôi nói với bạn rằng CV cho thí nghiệm chặt chẽ gần bằng 61% so với dưới 4% cho tấm ván, bạn có thể có xu hướng hỏi tôi có bao nhiêu người rơi khỏi sợi dây.


0

CV là một biến thiên tương đối được sử dụng để so sánh độ biến thiên của các tập dữ liệu mẫu khác nhau. Đối với một ví dụ của bạn, cùng độ lệch / phương sai tiêu chuẩn với giá trị trung bình nhỏ hơn sẽ tạo ra một CV nhỏ hơn. nó chỉ ra rằng tập dữ liệu CV nhỏ hơn có độ biến thiên tương đối nhỏ hơn. Giả sử Bạn kiếm được 10000 hàng tháng và tôi kiếm được 100. (nghĩa là khác nhau) tất cả chúng ta có thể mất 100 hàng tháng (vriation), tôi sẽ bị tổn thương nhiều hơn bạn vì tôi nhận được CV lớn hơn (cv = 1 so với 0,01 của bạn) biến đổi lớn hơn.


1
Tôi phải nói rằng điều này không thêm bất cứ điều gì vào câu trả lời hiện có.
Nick Cox

0

trong trường hợp này, cv không phải là công cụ thống kê phù hợp để giải thích kết quả.

tùy thuộc vào bản chất của nghiên cứu được thực hiện do đó mục tiêu, nhà nghiên cứu có một giả thuyết cụ thể hoặc chỉ ra bằng chứng. Người đó phải thiết kế, thực hiện thử nghiệm và phân tích dữ liệu bằng công cụ thống kê phù hợp và tốt nhất, ví dụ nếu thử nghiệm là so sánh sự tăng trưởng của nhóm 1 và nhóm 2, mặc dù cv của cả hai đều giống nhau, nhưng sử dụng T-test hoặc ghép T- thử nghiệm hoặc Anova (thử nghiệm lớn hơn) nó có thể dễ dàng chứng minh sự khác biệt giữa hai nhóm.

Chìa khóa ở đây là áp dụng công cụ thống kê phù hợp để đưa ra lời giải thích có ý nghĩa về kết quả. Hãy nhớ cv chỉ là một trong những lựa chọn trong thống kê mô tả.

2 xu của tôi

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.