Thống kê tóm tắt để sử dụng với các biến phân loại hoặc định tính?


18

Chỉ cần làm rõ, khi tôi có nghĩa là thống kê tóm tắt, tôi đề cập đến các phạm vi trung bình, tứ phân vị trung bình, phương sai, độ lệch chuẩn.

Khi tóm tắt một đơn biến đó là phân loại hay chất lượng , xem xét cả hai danh nghĩathứ tự trường hợp, nó làm cho tinh thần để tìm ý nghĩa của nó, trung bình, khoảng tứ phân vị, phương sai và độ lệch chuẩn?

Nếu vậy thì nó khác với nếu bạn tóm tắt một biến liên tục, và làm thế nào?


2
Tôi hầu như không thấy bất kỳ sự khác biệt giữa biến phân loại và biến định tính, ngoại trừ một thuật ngữ. Dù sao, điều đó sẽ rất khó để tính toán bất cứ thứ gì như trung bình hoặc SD trên một biến danh nghĩa (ví dụ: màu tóc). Có lẽ bạn đang nghĩ về các biến phân loại với mức độ đặt hàng?
chl

Không, nếu dữ liệu phân loại có thứ tự hoặc cấp được xếp hạng, chúng được gọi là Thông thường theo trang web này: [ stats.gla.ac.uk/steps/glossary/presenting_data.html#orddat] và thông báo "Bạn có thể đếm và đặt hàng, nhưng không đo lường, dữ liệu thứ tự "
chutsu

Nhưng tôi có sai không?
chutsu

Câu trả lời:


8

Nói chung, câu trả lời là không. Tuy nhiên, người ta có thể lập luận rằng bạn có thể lấy trung bình của dữ liệu thứ tự, nhưng tất nhiên, bạn sẽ có một danh mục là trung vị, không phải là số. Trung bình chia dữ liệu bằng nhau: Một nửa trên, một nửa dưới. Dữ liệu thông thường chỉ phụ thuộc vào thứ tự.

Hơn nữa, trong một số trường hợp, quy tắc có thể được thực hiện thành dữ liệu mức độ khoảng thời gian thô. Điều này đúng khi dữ liệu thứ tự được nhóm lại (ví dụ: các câu hỏi về thu nhập thường được hỏi theo cách này). Trong trường hợp này, bạn có thể tìm thấy một trung vị chính xác và bạn có thể ước chừng các giá trị khác, đặc biệt nếu giới hạn dưới và trên được chỉ định: Bạn có thể giả sử một số phân phối (ví dụ: thống nhất) trong mỗi danh mục. Một trường hợp khác của dữ liệu thứ tự có thể được thực hiện khoảng là khi các mức được đưa ra tương đương số. Ví dụ: Không bao giờ (0%), đôi khi (10-30%), khoảng một nửa thời gian (50%), v.v.

Để (một lần nữa) trích dẫn David Cox:

Không có câu hỏi thống kê thường xuyên, chỉ có thói quen thống kê đáng ngờ


1
Bạn cung cấp thông tin liên quan tốt nhưng tôi nghĩ khi trả lời câu hỏi chl, OP đã nói rõ rằng anh ta đang nói về dữ liệu phân loại không phải là thông thường. Vì vậy, câu trả lời của bạn thực sự không phải là một câu trả lời nhưng tôi không phải là người sẽ đưa ra một downvote. Nhưng tôi nghĩ bạn nên thay đổi nó thành một bình luận.
Michael R. Chernick

1
Không, tôi sẽ không đưa ra câu trả lời vì tôi nghĩ nó đã bổ sung một số giá trị cho sự hiểu biết hạn chế của tôi. Tôi nên nói rõ trong mô tả của mình rằng tôi đang xem xét cả số liệu thống kê Tóm tắt thông thường và Danh nghĩa, vì vậy lỗi là của tôi.
chutsu

5

Như đã đề cập, phương tiện, SD và điểm bản lề không có ý nghĩa đối với dữ liệu phân loại. Điểm bản lề (ví dụ: trung vị và tứ phân vị) có thể có ý nghĩa đối với dữ liệu thứ tự. Tiêu đề của bạn cũng hỏi những thống kê tóm tắt nào sẽ được sử dụng để mô tả dữ liệu phân loại. Đó là tiêu chuẩn để mô tả dữ liệu phân loại theo số lượng và tỷ lệ phần trăm. (Bạn cũng có thể muốn bao gồm khoảng tin cậy 95% xung quanh tỷ lệ phần trăm.) Ví dụ: nếu dữ liệu của bạn là:

"Hispanic"         "Hispanic"        "White"             "White"            
"White"            "White"           "African American"  "Hispanic"        
"White"            "White"           "White"             "other" 
"White"            "White"           "White"             "African American"
"Asian"

Bạn có thể tóm tắt chúng như vậy:

White             10 (59%)
African American   2 (12%)
Hispanic           3 (18%)
Asian              1 ( 6%)
other              1 ( 6%)

3

Nếu bạn có các biến danh nghĩa thì không có hàm thứ tự hoặc khoảng cách. Vì vậy, làm thế nào bạn có thể xác định bất kỳ số liệu thống kê tóm tắt mà bạn đề cập? Tôi không nghĩ bạn có thể. Bộ tứ và phạm vi ít nhất yêu cầu đặt hàng và phương tiện và phương sai yêu cầu dữ liệu số. Tôi nghĩ rằng biểu đồ thanh và biểu đồ hình tròn là những ví dụ điển hình về các cách thích hợp để tóm tắt các biến định tính không theo quy tắc.


3
@PeterFlom Quan điểm của tôi là không liệt kê tất cả các quy trình đồ họa possiblr để tóm tắt dữ liệu định tính. Tôi thực sự muốn nhấn mạnh rằng nó thực sự là tỷ lệ có thể so sánh và cách phân chia tỷ lệ trên các danh mục. Để nhận biết trực quan sự khác biệt về tỷ lệ, tôi nghĩ rằng biểu đồ thanh dễ hình dung hơn biểu đồ hình tròn nhưng chúng chỉ là hai cách phổ biến để tóm tắt dữ liệu phân loại. Tôi không muốn nói rằng chúng là tốt nhất vì tôi không quen thuộc với tất cả các phương pháp có sẵn.
Michael R. Chernick

7
Họ chắc chắn là phổ biến! Nhưng tôi nghĩ đó là một phần trách nhiệm của chúng tôi, với tư cách là chuyên gia trong lĩnh vực này, làm cho biểu đồ hình tròn ít phổ biến hơn .
Peter Flom - Tái lập Monica

3
Đầu tiên, Cleveland cho thấy mọi người tệ hơn trong việc nhận thức đo góc so với khoảng cách tuyến tính. Thứ hai, việc thay đổi màu sắc trong biểu đồ hình tròn đã thay đổi nhận thức của mọi người về kích thước của các lát. Thứ ba, việc xoay biểu đồ hình tròn đã thay đổi nhận thức của mọi người về kích thước của các lát. Thứ tư, mọi người gặp khó khăn khi đặt các lát từ lớn nhất đến nhỏ nhất trừ khi chúng có kích thước rất khác nhau. Âm mưu chấm bi tránh tất cả những điều này.
Peter Flom - Tái lập Monica

6
@Michael "Một bảng gần như luôn luôn tốt hơn biểu đồ hình bánh câm; thiết kế tồi tệ nhất so với biểu đồ hình tròn là một vài trong số chúng ... không nên sử dụng biểu đồ hình tròn." - Tufte. "Dữ liệu có thể được hiển thị bằng biểu đồ hình tròn luôn có thể được hiển thị bằng biểu đồ dấu chấm. ... trong những năm 1920, một trận chiến nổ ra trên các trang của JASA về giá trị tương đối của biểu đồ hình tròn và biểu đồ thanh chia ... cả hai phe đều thua vì các biểu đồ khác hoạt động tốt hơn nhiều so với biểu đồ thanh chia hoặc biểu đồ hình tròn. "- Cleveland. Như bạn đã biết, Cleveland không quy định: điều này mạnh mẽ như anh ta nhận được về bất cứ điều gì.
whuber

6
BTW, @Michael, tôi đồng ý với bạn và những lập luận bạn đang đưa ra trong chủ đề này (mà tôi thấy có sức thuyết phục và được trình bày tốt), nhưng với tư cách là người điều hành, tôi phải truyền đạt sự phản đối mạnh mẽ của các thành viên cộng đồng liên quan đến "giọng điệu" bạn đang áp dụng. Vui lòng tuân theo nghi thức của trang web: bám sát chủ đề và không tấn công người khác. Thậm chí đừng viết những thứ nghe có vẻ giống như một cuộc tấn công, ngay cả trong trò đùa. Tất nhiên cùng một lời khuyên răn dành cho tất cả mọi người.
whuber

2

Chế độ vẫn hoạt động! Đó không phải là một thống kê tóm tắt quan trọng? (Danh mục phổ biến nhất là gì?) Tôi nghĩ rằng đề xuất trung bình có ít hoặc không có giá trị như một thống kê, nhưng chế độ thì có.

Cũng tính khác biệt sẽ có giá trị. (Bạn có bao nhiêu loại?)

Bạn có thể tạo các tỷ lệ, như (loại phổ biến nhất) / (loại phổ biến nhất) hoặc (loại 1 phổ biến nhất) / (loại 2 phổ biến nhất). Ngoài ra (danh mục phổ biến nhất) / (tất cả các danh mục khác), như quy tắc 80/20.

Bạn cũng có thể gán số cho danh mục của mình và thực hiện các số liệu thống kê thông thường. AA = 1, Hisp = 2, v.v ... Bây giờ bạn có thể tính trung bình, trung vị, chế độ, SD, v.v.


0

Tôi đánh giá cao các câu trả lời khác, nhưng dường như với tôi rằng một số nền tảng tôpô sẽ cung cấp một cấu trúc rất cần thiết cho các câu trả lời.

Các định nghĩa

Hãy bắt đầu với việc thiết lập các định nghĩa về các miền:

  • biến phân loại là một biến có miền chứa các thành phần, nhưng không có mối quan hệ nào được biết đến giữa chúng (do đó chúng tôi chỉ có các danh mục). Ví dụ, tùy thuộc vào ngữ cảnh, nhưng tôi nói trong trường hợp chung, thật khó để so sánh các ngày trong tuần: là thứ Hai trước Chủ Nhật, nếu vậy, còn thứ Hai tuần sau thì sao? Có thể một ví dụ dễ dàng hơn, nhưng ít được sử dụng hơn là những mảnh quần áo: không cung cấp một số bối cảnh có ý nghĩa của một đơn đặt hàng, thật khó để nói liệu quần có đến trước người nhảy hay ngược lại.

  • biến thứ tự là một biến có tổng thứ tự được xác định trên miền, tức là cứ hai phần tử của miền, chúng ta có thể nói rằng chúng giống hệt nhau hoặc một thứ tự lớn hơn tên miền khác. Một Likert quy mô là một ví dụ tốt về một định nghĩa của một biến thứ tự. "hơi đồng ý" chắc chắn gần với "đồng ý mạnh mẽ" hơn là "không đồng ý".

  • biến khoảng là một, có miền xác định khoảng cách giữa các phần tử ( số liệu ), do đó cho phép chúng tôi xác định khoảng.

Ví dụ tên miền

Là tập hợp phổ biến nhất mà chúng tôi sử dụng, số tự nhiênsố thực có tổng số thứ tự và số liệu tiêu chuẩn. Đây là lý do tại sao chúng ta cần cẩn thận khi gán số cho các danh mục của mình. Nếu chúng tôi không cẩn thận bỏ qua trật tự và khoảng cách, chúng tôi thực tế chuyển đổi dữ liệu phân loại của chúng tôi trong dữ liệu khoảng. Khi một người sử dụng thuật toán học máy mà không biết nó hoạt động như thế nào, người ta sẽ gặp rủi ro khi đưa ra các giả định đó một cách miễn cưỡng, do đó có khả năng làm mất hiệu lực kết quả của chính mình. Ví dụ, hầu hết các thuật toán học sâu phổ biến đều hoạt động với các số thực tận dụng các thuộc tính khoảng và liên tục của chúng. Một ví dụ khác, nghĩ đến 5 điểm Likert quy mô, và làm thế nào phân tích chúng tôi áp dụng trên chúng giả định rằng khoảng cách giữa hoàn toàn đồng ýđồng ýcũng giống như không đồng ýkhông đồng ý hay không đồng ý . Khó để làm cho một trường hợp cho một mối quan hệ như vậy.

Một bộ khác mà chúng ta thường làm việc với là chuỗi . Có một số số liệu tương tự chuỗi có ích khi làm việc với chuỗi. Tuy nhiên, những điều này không phải lúc nào cũng hữu ích. Ví dụ, đối với các địa chỉ, John Smith Street và John Smith Road khá gần nhau về độ tương tự chuỗi, nhưng rõ ràng đại diện cho hai thực thể khác nhau có thể cách xa nhau.

Thống kê tóm tắt

Ok, bây giờ hãy xem làm thế nào một số thống kê tóm tắt phù hợp trong việc này. Vì số liệu thống kê hoạt động với các con số, các chức năng của nó được xác định rõ trong các khoảng thời gian. Nhưng hãy xem các ví dụ về việc / làm thế nào chúng ta có thể khái quát chúng thành dữ liệu phân loại hoặc thứ tự:

  • chế độ - cả khi làm việc với dữ liệu phân loại và thứ tự, chúng ta có thể biết phần tử nào được sử dụng thường xuyên nhất. Vì vậy, chúng tôi có điều này. Sau đó, chúng tôi cũng có thể rút ra tất cả các biện pháp khác mà @Maddenker liệt kê trong câu trả lời của họ. khoảng tin cậy của @ gung cũng có thể hữu ích.
  • trung vị - như @ peter-flom nói, miễn là bạn có một đơn đặt hàng, bạn có thể lấy được trung vị của mình.
  • có nghĩa là , nhưng cũng có độ lệch chuẩn, phân vị, v.v. - bạn chỉ nhận được những dữ liệu này với dữ liệu khoảng, do nhu cầu về số liệu khoảng cách.

Ví dụ về ngữ cảnh dữ liệu

Cuối cùng, tôi muốn nhấn mạnh một lần nữa rằng thứ tự và số liệu bạn xác định trên dữ liệu của bạn rất theo ngữ cảnh. Điều này bây giờ đã rõ ràng, nhưng để tôi cho bạn một ví dụ cuối cùng: khi làm việc với các vị trí địa lý, chúng tôi có rất nhiều cách khác nhau để tiếp cận chúng:

  • nếu chúng ta quan tâm đến khoảng cách giữa chúng, chúng ta có thể làm việc với vị trí địa lý của chúng, về cơ bản mang lại cho chúng ta một không gian số hai chiều, do đó, khoảng cách.
  • nếu chúng ta quan tâm đến phần quan hệ của họ , chúng ta có thể xác định tổng đơn hàng (ví dụ: đường là một phần của thành phố, hai thành phố bằng nhau, lục địa chứa một quốc gia)
  • nếu chúng ta quan tâm đến việc hai chuỗi có cùng một địa chỉ hay không, chúng ta có thể làm việc với một số khoảng cách chuỗi có thể chấp nhận lỗi chính tả và hoán đổi vị trí của các từ, nhưng đảm bảo phân biệt các thuật ngữ và tên khác nhau. Đây không phải là một điều dễ dàng, nhưng chỉ để làm cho trường hợp.
  • Có rất nhiều trường hợp sử dụng khác, mà tất cả chúng ta gặp phải hàng ngày, trong đó không có trường hợp nào có ý nghĩa. Trong một số trong số họ không có gì để làm hơn là coi các địa chỉ chỉ là các danh mục khác nhau, trong những trường hợp khác, nó được đưa vào mô hình hóa và tiền xử lý dữ liệu rất thông minh.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.