Là danh nghĩa, thứ tự, và nhị phân cho dữ liệu định lượng, dữ liệu định tính hoặc cả hai?


9

Tôi đang bị cuốn theo các kiểu dữ liệu và tôi cần một số trợ giúp:

nhập mô tả hình ảnh ở đây

Nếu bạn nhìn vào hình trên (chụp từ đây ), nó có các kiểu dữ liệu như thế này:

  • Định lượng (rời rạc, liên tục)
  • Định tính (Danh nghĩa (N), Thông thường (O), Nhị phân (B)).

nhập mô tả hình ảnh ở đây

Nhưng nếu bạn nhìn vào bức ảnh tiếp theo này (từ đây ), các loại là:

  • Định lượng (rời rạc (NOB))
  • Định tính

Một bức ảnh có NOB theo Định tính, bức ảnh kia có Định lượng. Điều nào là đúng?


5
Mỗi viên đạn trong mô tả "dữ liệu rời rạc" là sai và sai lệch.
whuber

Câu trả lời:


5

Những kiểu chữ này có thể dễ dàng nhầm lẫn nhiều như họ giải thích.

Ví dụ: dữ liệu nhị phân, như được giới thiệu trong nhiều văn bản giới thiệu hoặc khóa học, chắc chắn nghe có vẻ định tính: có hoặc không, sống sót hay chết, hiện tại hay vắng mặt, nam hay nữ, bất cứ điều gì. Nhưng điểm số hai khả năng 1 hoặc 0 và mọi thứ sau đó hoàn toàn định lượng. Việc tính điểm như vậy là cơ sở của tất cả các loại phân tích: tỷ lệ nữ chỉ là trung bình của một số 0 đối với nam và 1 đối với nữ. Nếu tôi gặp 7 nữ và 3 nam, tôi chỉ có thể trung bình 1, 1, 1, 1, 1, 1, 1, 0, 0, 0 để có tỷ lệ 0,7. Với phản hồi nhị phân, bạn có một con đường rộng mở sau đó để hồi quy logit và probit, v.v., tập trung vào sự thay đổi trong tỷ lệ, phân số hoặc xác suất sống sót, hoặc một cái gì đó tương tự, với bất kỳ điều gì khác kiểm soát hoặc ảnh hưởng đến nó. Không ai cần phải lo lắng bởi việc mã hóa là tùy ý. Tỷ lệ nam chỉ bằng 1 trừ tỷ lệ nữ

Hầu như điều tương tự cũng đúng khi dữ liệu danh nghĩa hoặc thứ tự đang được xem xét, vì bất kỳ phân tích nào về bản lề dữ liệu đó trước tiên, đếm số lượng rơi vào mỗi loại và sau đó bạn có thể định lượng như bạn muốn. Biểu đồ hình tròn và biểu đồ thanh, như lần đầu tiên bắt gặp trong những năm đầu tiên, cho thấy rằng, thật khó hiểu khi có bao nhiêu tài khoản bỏ lỡ điều này trong các giải thích.

Nói cách khác, bạn có thể phân loại dữ liệu thô hoặc dữ liệu gốc như báo cáo đầu tiên và như xuất hiện trong ô của bảng tính hoặc cơ sở dữ liệu. Nhưng hình thức ban đầu của nó không phải là bất biến. Hãy tưởng tượng một cái gì đó khắc nghiệt như một cái chết vì bối rối vì đọc quá nhiều sách giáo khoa hời hợt. Điều đó có thể được viết trên một chứng chỉ, nhưng phân tích thống kê không bao giờ dừng lại ở đó. Có một tổng hợp để đếm (có bao nhiêu cái chết như vậy trong một khu vực và một khoảng thời gian), giảm tỷ lệ (bao nhiêu so với dân số có nguy cơ), v.v.

Vì vậy, làm thế nào dữ liệu được mã hóa đầu tiên hiếm khi ức chế việc sử dụng chúng theo những cách khác và chuyển đổi sang các hình thức khác. Từ nguyên của dữ liệu ở đây tiết lộ: dịch tiếng Latin gốc theo nghĩa đen, chúng được trao cho bạn, nhưng không có quy tắc chống lại việc chuyển đổi chúng sang nhiều hình thức khác.


5

Tất cả, tôi không thể tìm thấy một bức tranh kết hợp mọi thứ lại với nhau, vì vậy tôi đã tạo ra một bức tranh dựa trên những gì tôi đang nghiên cứu. Đặt các thang đo trên cùng một sơ đồ với các kiểu dữ liệu làm tôi bối rối, vì vậy tôi đã cố gắng chỉ ra rằng có một sự khác biệt ở đó.

nhập mô tả hình ảnh ở đây

Tôi đánh giá cao sự giúp đỡ và suy nghĩ của bạn! Trân trọng, Nghiêng


Các biến định lượng riêng biệt (như số lượng) cũng có thể được đo bằng cách sử dụng tỷ lệ khoảng hoặc tỷ lệ! Xem ở đây , ví dụ.
Rodvi

3

Nó phụ thuộc vào ý của bạn là "dữ liệu định lượng" và "dữ liệu định tính".

Tôi nghĩ rằng hai trang web bạn trích dẫn đang sử dụng các thuật ngữ khác nhau. Giả sử, ví dụ, bạn hỏi mọi người:

Did you vote for Obama, Romney, someone else or no one in the presidential election?

Loại dữ liệu này là gì? Biến là danh nghĩa: Nó chỉ là tên, không có thứ tự cho nó. Nhưng nhiều người sẽ gọi nó là định lượng bởi vì điều quan trọng là có bao nhiêu người chọn ứng cử viên nào. Điều đó trái ngược với dữ liệu định tính có thể là phiên âm các cuộc phỏng vấn về những gì họ thích nhất về Obama (hoặc Romney hoặc bất cứ ai).

Một cách tốt hơn để xem xét nó là phân biệt rõ ràng dữ liệu định lượng với các biến định lượng.


Trong trường hợp đầu tiên, có một biến, chứa tên tổng thống. Các biến là định tính, chính xác là danh nghĩa. Trong trường hợp thứ hai, mỗi tên tổng thống tương ứng với một biến riêng lẻ, giữ các cử tri. Nếu, tên cử tri được biết đến, và, nó chứa tên cử tri, thì biến là danh nghĩa. Nếu nó giữ số phiếu, biến là định lượng, chính xác là theo tỷ lệ.
Ioannis Iliadis - Ilousis

2

Cả hai biểu đồ này đều đúng. Họ khá vô lý và bạn có quyền bị nhầm lẫn (ngoài mâu thuẫn).

Họ dường như đang kết hợp các ý tưởng về loại biến cơ bản và lựa chọn biến để mô hình hóa một hệ thống (với pdf).

Có 3 loại biến cơ bản (không bao gồm các kiểu con): Danh nghĩa (phân loại / định tính), Thông thường và Liên tục (Số, Định lượng). Thông thường có cả bản chất định tính và định lượng.

Thuộc tính không thực sự là loại cơ bản nhưng thường được thảo luận theo cách đó khi chọn biểu đồ kiểm soát thích hợp, trong đó người ta chọn pdf tốt nhất để mô hình hóa hệ thống. Điều này đôi khi được gọi là "dữ liệu thuộc tính", nhưng loại của nó là danh nghĩa (còn gọi là phân loại, v.v.). Giống như Nick đã đề cập, chúng tôi đếm các đề cử, vì vậy nó có thể bị nhầm lẫn với một loại số, nhưng không phải vậy.


1
Mandata, dựa trên những gì bạn đang nói, bạn sẽ thực hiện những thay đổi nào cho biểu đồ tôi đã thực hiện ở trên? Tôi đánh giá cao sự giúp đỡ của bạn. Trân trọng, Nghiêng
Nghiêng

Mandata, tất cả các biểu đồ từ các chuyên gia khác nhau là một phần chính xác. Điều này là mọi người hiểu các từ và khái niệm không hoàn toàn giống nhau nhưng họ thích, trong một thời gian dài hoặc ngắn, để xếp chồng lên sự hiểu biết thoải mái của riêng họ. Ví dụ, một số người sẽ từ chối gọi thang đo thứ tự là "định lượng" trong khi những người khác sẽ chấp nhận, tùy thuộc vào việc "số lượng" có nhất thiết phải là biểu hiện của thể loại tiềm ẩn tiềm ẩn hay không.
ttnphns

@Leaning. Biểu đồ đó là tốt hơn so với biểu đồ cuối cùng của bạn. Tôi sẽ xem xét rời rạc một chất lượng của loại, không phải là một loại chính nó. Danh nghĩa và thứ tự là hoàn toàn rời rạc, trong khi định lượng (hữu hạn hoặc vô hạn) cũng có thể đếm được. Nhị phân cũng là một đặc tính của loại (nó là một tập hợp con rời rạc). Nhị phân hiếm khi được đặt hàng, và hầu như luôn luôn được đại diện bởi các biến danh nghĩa. Phân loại và danh nghĩa là từ đồng nghĩa. sự khác biệt giữa các biến được sắp xếp hầu như không có ý nghĩa, chúng có thể là một phần hoặc hoàn toàn không biết, hoặc không liên quan (cái sau ngụ ý vô nghĩa), nhưng tôi sẽ không khẳng định điều đó.
mandata

@ttnphns, tôi đồng ý với những gì bạn đang nói về tinh thần, nhưng cả hai đều có lỗi nghiêm trọng về khái niệm. đầu tiên trộn ý tưởng về kiểu dữ liệu thuộc tính, được sử dụng trong việc chọn biểu đồ kiểm soát, kiểu dữ liệu cơ bản. Thứ hai có danh nghĩa là một tập hợp con rời rạc, là một tập hợp con liên tục. Tôi có thể tập hợp rời rạc, nhưng danh nghĩa thuộc về định tính. Có thể nó ở đó bởi vì người ta đếm các sự kiện danh nghĩa một cách riêng biệt, nhưng ngay cả khi đó là lý do tại sao nó không chính xác.
mandata

Tôi không cảm thấy lý thuyết Interval / Ratio là một cách hợp lệ để mô tả loại biến. Có thể tốt cho việc xác định các hàm nào là hợp lý khi người ta không cảm thấy tự tin về toán học, nhưng ngoài ra, tôi thấy một thang đo là một phép biến đổi của thang đo khác nếu chúng đại diện cho cùng một kích thước hoặc đơn vị.
mandata

1

Tôi tìm thấy câu hỏi này trong khi tìm kiếm về các mức độ đo lường và các khái niệm liên quan. Tôi nghĩ rằng các biểu đồ trong câu hỏi thiếu bối cảnh. Khi chúng tôi thực hiện phân loại, chúng tôi xác định các quy tắc để nhóm các đối tượng theo mục đích của chúng tôi. Vậy mục đích là gì? Và chúng ta đang nói về các biến?

Chúng ta có thể phân loại các biến theo các mức độ đo lường , sau đó chúng ta có thể có 4 thang đo (nhóm) với các quy tắc sau:

danh nghĩa : các thuộc tính của một biến chỉ được phân biệt theo tên (danh mục) và không có thứ tự (thứ hạng, vị trí).
thứ tự : các thuộc tính của một biến được phân biệt theo thứ tự (thứ hạng, vị trí), nhưng chúng ta không biết mức độ khác biệt tương đối giữa chúng.
khoảng : các thuộc tính của một biến được phân biệt bởi mức độ khác biệt giữa chúng, nhưng không có số 0 tuyệt đối và tỷ lệ giữa các thuộc tính không xác định.
ratio : các thuộc tính của một biến được phân biệt bởi mức độ khác biệt giữa chúng, có độ không tuyệt đối và chúng ta có thể tìm thấy tỷ lệ giữa các thuộc tính.

Và đây chỉ là một cách tiếp cận từ Stanley Smith Stevens. Có một số loại hình khác.

Các biến liên tục và rời rạc là các khái niệm toán học trong đó chúng ta có một loạt các số thực và:

biến liên tục có thể nhận bất kỳ giá trị trong phạm vi này. Số lượng giá trị được phép là không thể đếm được.
trong khi đối với biến rời rạc , số lượng giá trị được phép trong phạm vi là hữu hạn hoặc vô hạn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.