Tôi đánh giá cao các câu trả lời khác, nhưng dường như với tôi rằng một số nền tảng tôpô sẽ cung cấp một cấu trúc rất cần thiết cho các câu trả lời.
Các định nghĩa
Hãy bắt đầu với việc thiết lập các định nghĩa về các miền:
biến phân loại là một biến có miền chứa các thành phần, nhưng không có mối quan hệ nào được biết đến giữa chúng (do đó chúng tôi chỉ có các danh mục). Ví dụ, tùy thuộc vào ngữ cảnh, nhưng tôi nói trong trường hợp chung, thật khó để so sánh các ngày trong tuần: là thứ Hai trước Chủ Nhật, nếu vậy, còn thứ Hai tuần sau thì sao? Có thể một ví dụ dễ dàng hơn, nhưng ít được sử dụng hơn là những mảnh quần áo: không cung cấp một số bối cảnh có ý nghĩa của một đơn đặt hàng, thật khó để nói liệu quần có đến trước người nhảy hay ngược lại.
biến thứ tự là một biến có tổng thứ tự được xác định trên miền, tức là cứ hai phần tử của miền, chúng ta có thể nói rằng chúng giống hệt nhau hoặc một thứ tự lớn hơn tên miền khác. Một Likert quy mô là một ví dụ tốt về một định nghĩa của một biến thứ tự. "hơi đồng ý" chắc chắn gần với "đồng ý mạnh mẽ" hơn là "không đồng ý".
biến khoảng là một, có miền xác định khoảng cách giữa các phần tử ( số liệu ), do đó cho phép chúng tôi xác định khoảng.
Ví dụ tên miền
Là tập hợp phổ biến nhất mà chúng tôi sử dụng, số tự nhiên và số thực có tổng số thứ tự và số liệu tiêu chuẩn. Đây là lý do tại sao chúng ta cần cẩn thận khi gán số cho các danh mục của mình. Nếu chúng tôi không cẩn thận bỏ qua trật tự và khoảng cách, chúng tôi thực tế chuyển đổi dữ liệu phân loại của chúng tôi trong dữ liệu khoảng. Khi một người sử dụng thuật toán học máy mà không biết nó hoạt động như thế nào, người ta sẽ gặp rủi ro khi đưa ra các giả định đó một cách miễn cưỡng, do đó có khả năng làm mất hiệu lực kết quả của chính mình. Ví dụ, hầu hết các thuật toán học sâu phổ biến đều hoạt động với các số thực tận dụng các thuộc tính khoảng và liên tục của chúng. Một ví dụ khác, nghĩ đến 5 điểm Likert quy mô, và làm thế nào phân tích chúng tôi áp dụng trên chúng giả định rằng khoảng cách giữa hoàn toàn đồng ý và đồng ýcũng giống như không đồng ý và không đồng ý hay không đồng ý . Khó để làm cho một trường hợp cho một mối quan hệ như vậy.
Một bộ khác mà chúng ta thường làm việc với là chuỗi . Có một số số liệu tương tự chuỗi có ích khi làm việc với chuỗi. Tuy nhiên, những điều này không phải lúc nào cũng hữu ích. Ví dụ, đối với các địa chỉ, John Smith Street và John Smith Road khá gần nhau về độ tương tự chuỗi, nhưng rõ ràng đại diện cho hai thực thể khác nhau có thể cách xa nhau.
Thống kê tóm tắt
Ok, bây giờ hãy xem làm thế nào một số thống kê tóm tắt phù hợp trong việc này. Vì số liệu thống kê hoạt động với các con số, các chức năng của nó được xác định rõ trong các khoảng thời gian. Nhưng hãy xem các ví dụ về việc / làm thế nào chúng ta có thể khái quát chúng thành dữ liệu phân loại hoặc thứ tự:
- chế độ - cả khi làm việc với dữ liệu phân loại và thứ tự, chúng ta có thể biết phần tử nào được sử dụng thường xuyên nhất. Vì vậy, chúng tôi có điều này. Sau đó, chúng tôi cũng có thể rút ra tất cả các biện pháp khác mà @Maddenker liệt kê trong câu trả lời của họ. khoảng tin cậy của @ gung cũng có thể hữu ích.
- trung vị - như @ peter-flom nói, miễn là bạn có một đơn đặt hàng, bạn có thể lấy được trung vị của mình.
- có nghĩa là , nhưng cũng có độ lệch chuẩn, phân vị, v.v. - bạn chỉ nhận được những dữ liệu này với dữ liệu khoảng, do nhu cầu về số liệu khoảng cách.
Ví dụ về ngữ cảnh dữ liệu
Cuối cùng, tôi muốn nhấn mạnh một lần nữa rằng thứ tự và số liệu bạn xác định trên dữ liệu của bạn rất theo ngữ cảnh. Điều này bây giờ đã rõ ràng, nhưng để tôi cho bạn một ví dụ cuối cùng: khi làm việc với các vị trí địa lý, chúng tôi có rất nhiều cách khác nhau để tiếp cận chúng:
- nếu chúng ta quan tâm đến khoảng cách giữa chúng, chúng ta có thể làm việc với vị trí địa lý của chúng, về cơ bản mang lại cho chúng ta một không gian số hai chiều, do đó, khoảng cách.
- nếu chúng ta quan tâm đến phần quan hệ của họ , chúng ta có thể xác định tổng đơn hàng (ví dụ: đường là một phần của thành phố, hai thành phố bằng nhau, lục địa chứa một quốc gia)
- nếu chúng ta quan tâm đến việc hai chuỗi có cùng một địa chỉ hay không, chúng ta có thể làm việc với một số khoảng cách chuỗi có thể chấp nhận lỗi chính tả và hoán đổi vị trí của các từ, nhưng đảm bảo phân biệt các thuật ngữ và tên khác nhau. Đây không phải là một điều dễ dàng, nhưng chỉ để làm cho trường hợp.
- Có rất nhiều trường hợp sử dụng khác, mà tất cả chúng ta gặp phải hàng ngày, trong đó không có trường hợp nào có ý nghĩa. Trong một số trong số họ không có gì để làm hơn là coi các địa chỉ chỉ là các danh mục khác nhau, trong những trường hợp khác, nó được đưa vào mô hình hóa và tiền xử lý dữ liệu rất thông minh.