Một biện pháp mạnh mẽ (không tham số) như Hệ số biến đổi - IQR / trung vị, hoặc thay thế?


12

Đối với một tập hợp dữ liệu nhất định, mức chênh lệch thường được tính là độ lệch chuẩn hoặc là IQR (phạm vi giữa các nhóm).

Trong khi a standard deviationđược chuẩn hóa (điểm z, v.v.) và do đó có thể được sử dụng để so sánh sự lây lan từ hai quần thể khác nhau, đây không phải là trường hợp của IQR vì các mẫu từ hai quần thể khác nhau có thể có giá trị ở hai thang đo khá khác nhau,

 e.g. 
 Pop A:  100, 67, 89, 75, 120, ...
 Pop B:  19, 22, 43, 8, 12, ...

Những gì tôi đang theo là một biện pháp mạnh mẽ (không tham số) mà tôi có thể sử dụng để so sánh sự thay đổi trong các quần thể khác nhau.

Lựa chọn 1: IQR / Median- đây sẽ là bằng cách tương tự với hệ số biến thiên , tức là để .σμ

Lựa chọn 2: Range / IQR

Câu hỏi: Biện pháp nào có ý nghĩa hơn để so sánh sự khác biệt giữa các quần thể? Và nếu đó là Lựa chọn 1, thì Lựa chọn 2 có hữu ích cho bất cứ điều gì / có ý nghĩa hay đó là một biện pháp thiếu sót cơ bản?


Cảm ơn các cuộc thảo luận rất hữu ích. Một số theo dõi hữu ích - các định nghĩa khác nhau về tứ phân vị và do đó IQR (John), độ lệch chuẩn không thực sự tiêu chuẩn hóa (Harvey) và QQ âm mưu như một công cụ để so sánh hai phân phối (Peter). (+1 cho cả ba câu trả lời!)
Assad Ebrahim

Câu trả lời:


13

Câu hỏi ngụ ý rằng độ lệch chuẩn (SD) bằng cách nào đó được chuẩn hóa bằng cách nào đó có thể được sử dụng để so sánh sự biến đổi của hai quần thể khác nhau. Không phải vậy. Như Peter và John đã nói, việc chuẩn hóa này được thực hiện như khi tính hệ số biến đổi (CV), bằng SD / Trung bình. SD ở cùng đơn vị với dữ liệu gốc. Ngược lại, CV là một tỷ lệ đơn vị.

Lựa chọn của bạn 1 (IQR / Median) tương tự như CV. Giống như CV, nó sẽ chỉ có ý nghĩa khi dữ liệu là dữ liệu tỷ lệ. Điều này có nghĩa là số 0 thực sự bằng không. Một trọng lượng bằng không là không có trọng lượng. Độ dài bằng 0 là không có chiều dài. Như một ví dụ ngược lại, sẽ không có ý nghĩa đối với nhiệt độ trong C hoặc F, vì nhiệt độ 0 độ (C hoặc F) không có nghĩa là không có nhiệt độ. Chỉ cần chuyển đổi giữa việc sử dụng thang đo C hoặc F sẽ cung cấp cho bạn một giá trị khác cho CV hoặc cho tỷ lệ IQR / Median, điều này làm cho cả hai tỷ lệ này đều vô nghĩa.

Tôi đồng ý với Peter và John rằng ý tưởng thứ hai của bạn (Range / IQR) sẽ không mạnh mẽ cho những người ngoài cuộc, vì vậy có lẽ sẽ không hữu ích.


2
Harvey - cảm ơn - bạn nói đúng, SD hoàn toàn không được bình thường hóa ... Tôi đã nhầm lẫn khái niệm z-scoreschuẩn hóa các giá trị và bình thường hóa vị trí của chúng trong một phân phối về độ lệch trung bình và độ lệch chuẩn, với vấn đề này, là về việc có thể xếp hạng các nhóm sản phẩm theo thứ tự biến đổi của chúng. Chọn câu trả lời của bạn là câu trả lời đúng bởi vì trong khi cả Peter và John đều rất hữu ích, bạn đã cảnh báo tôi về sự pha trộn khái niệm. Điểm hay của Lựa chọn 1 là sử dụng hạn chế gần trung vị 0. May mắn thay, trong vấn đề của tôi, tôi không phải lo lắng về điều này.
Assad Ebrahim

Tôi muốn sử dụng nó trong một bài báo. Có một nơi tốt mà nó được tham chiếu (cuốn sách / một nơi nào đó được đánh giá ngang hàng)?
Ben Bolker

15

Điều quan trọng là phải nhận ra mức tối thiểu và tối đa thường không phải là số liệu thống kê rất tốt để sử dụng (nghĩa là chúng có thể dao động rất nhiều từ mẫu này sang mẫu khác và không tuân theo phân phối bình thường như, có thể là do Định lý giới hạn trung tâm) . Do đó, phạm vi hiếm khi là một lựa chọn tốt cho bất cứ điều gì ngoài việc nêu phạm vi của mẫu chính xác này . Đối với một thống kê đơn giản, không theo tỷ lệ để biểu thị tính biến thiên, Phạm vi giữa các nhóm là tốt hơn nhiều. Tuy nhiên, trong khi tôi thấy sự tương đồng giữa IQR / trung vị và hệ số biến đổi, tôi không nghĩ rằng đây có thể là lựa chọn tốt nhất.

MMộtDM= =Trung bình(|xTôi-Trung bình(x)|)

1
Lựa chọn thú vị của MADM/median, về cơ bản là sự khác biệt giữa từ giá trị trung bình. Hãy gọi đây là Lựa chọn 3. Đồng ý với đánh giá của bạn về Lựa chọn 1, vì vậy, cảm ơn. Khi bạn đề xuất 'tốt hơn', những thuộc tính nào người ta có thể sử dụng để so sánh Lựa chọn 2 với Lựa chọn 3 để xem cái nào tốt hơn?
Assad Ebrahim

1
Các thuộc tính bạn sẽ sử dụng sẽ phụ thuộc vào mục tiêu của bạn cho số liệu là gì. Tuy nhiên, tôi chỉ có nghĩa là nó là một sự tương tự tốt hơn cho CoV. Lưu ý rằng phần tư thứ 3 là trung vị của dữ liệu của bạn ở trên mức trung bình, và q thứ nhất là trung vị của những phần dưới đây, vì vậy về lâu dài IQR / 2 sẽ bằng MADM (nb, chúng không được đảm bảo bằng nhau trong một mẫu nhất định). IQR sẽ thay đổi hơn nữa, trên ave, từ giá trị thực của nó trong pop, nhưng tôi không chắc chắn, nếu có, những hàm ý nào sẽ có, và giá đỡ. lỗi IQR / 2 phải giống với SE của MADM.
gung - Phục hồi Monica

Tôi thấy, cảm ơn đã làm rõ. Điểm hay về cách giải thích trung bình của quý 3 và quý 1. Tôi sẽ MADM/medianthử cùng IQR/median. Sự so sánh bên cạnh có thể thú vị. (+1 cho đề xuất thú vị)
Assad Ebrahim

6

"Lựa chọn 1" là những gì bạn muốn nếu bạn đang sử dụng phi tham số cho mục đích chung là giảm hiệu ứng của các ngoại lệ. Ngay cả khi bạn đang sử dụng nó vì bị lệch cũng có tác dụng phụ là thường có các giá trị cực đoan ở đuôi, đó có thể là ngoại lệ. "Lựa chọn 2" của bạn có thể bị ảnh hưởng đáng kể bởi các ngoại lệ hoặc bất kỳ giá trị cực đoan nào trong khi các thành phần của phương trình đầu tiên của bạn tương đối mạnh mẽ đối với chúng.

[Điều này sẽ phụ thuộc một chút vào loại IQR bạn chọn (xem trợ giúp R ​​về lượng tử).]


Bạn nói đúng, tôi nên đã nói "đây là analagous để định nghĩa của hệ số biến thiên ... (bây giờ cố định trong câu hỏi)!
Assad Ebrahim

Cảm ơn vì nhận xét phụ thuộc vào loại IQR bạn chọn ... - Tôi đã không nhận ra có rất nhiều định nghĩa sở hữu cho tứ phân / lượng tử! Tôi đang sử dụng quartile( )hàm dựng sẵn của Excel , rồi dùng IQR := Q3 - Q1. Số của tôi đến từ một chuỗi thời gian đo hàng tuần trong một năm. Các phép đo là các biện pháp hiệu suất công nghiệp và do đó là từ một phân phối liên tục. Các quần thể khác nhau là các nhóm sản phẩm khác nhau. Trong tình huống này, tôi không nghĩ rằng các định nghĩa khác nhau sẽ khác nhau nhiều trong thực tế?
Assad Ebrahim

6

Tôi không thích tính các số đo như CV vì hầu như tôi luôn có nguồn gốc tùy ý cho biến ngẫu nhiên. Liên quan đến việc lựa chọn một biện pháp phân tán mạnh mẽ, rất khó để đánh bại sự khác biệt trung bình của Gini, đó là giá trị trung bình của tất cả các giá trị tuyệt đối có thể có của sự khác biệt giữa hai quan sát. Để tính toán hiệu quả, ví dụ xem hàm rmsgói R. GiniMdTheo quy tắc, sự khác biệt trung bình của Gini là 0,98 hiệu quả như SD để ước tính độ phân tán.


3

Giống như @John Tôi chưa bao giờ nghe về định nghĩa về hệ số biến đổi. Tôi sẽ không gọi nó là nếu tôi sử dụng nó, nó sẽ khiến mọi người nhầm lẫn.

"Cái nào hữu ích nhất?" sẽ phụ thuộc vào những gì bạn muốn sử dụng nó cho. Chắc chắn lựa chọn 1 mạnh mẽ hơn so với các ngoại lệ, nếu bạn chắc chắn đó là những gì bạn muốn. Nhưng mục đích của việc so sánh hai bản phân phối là gì? Bạn đang cố làm gì vậy?

Một cách khác là chuẩn hóa cả hai biện pháp và sau đó xem xét tóm tắt.

Khác là một âm mưu QQ.

Có nhiều người khác là tốt.


Điểm tốt - nên nói tương tự như hệ số biến đổi (Tôi đã thực hiện chỉnh sửa).
Assad Ebrahim

Số của tôi đến từ một chuỗi thời gian đo hàng tuần trong một năm. Các phép đo là các biện pháp hiệu suất công nghiệp và do đó là từ một phân phối liên tục. Các quần thể khác nhau là các nhóm sản phẩm khác nhau và tôi đã có khoảng 50 nhóm sản phẩm. Những gì tôi đang cố gắng làm là có thể so sánh sự biến đổi vốn có giữa các nhóm sản phẩm khác nhau. Cụ thể, tôi muốn có thể xếp hạng các nhóm sản phẩm theo thứ tự giảm dần.
Assad Ebrahim

Bạn có ý nghĩa gì 'tiêu chuẩn hóa cả hai biện pháp và sau đó nhìn vào tóm tắt'? Tôi nghĩ Lựa chọn 1 đang chuẩn hóa chúng ...!
Assad Ebrahim

2

Bài viết này trình bày hai lựa chọn thay thế mạnh mẽ tốt cho hệ số biến đổi. Một là phạm vi liên vùng chia cho trung vị, đó là:

IQR / trung vị = (Q3-Q1) / trung vị

Cái khác là độ lệch tuyệt đối trung bình chia cho trung vị, đó là:

MAD / trung vị

Họ so sánh chúng và kết luận rằng việc nói thứ hai ít biến đổi hơn và có lẽ tốt hơn cho hầu hết các ứng dụng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.