Các loại dữ liệu (danh nghĩa / thứ tự / khoảng / tỷ lệ) có thực sự được coi là loại biến?


10

Vì vậy, ví dụ ở đây là các định nghĩa mà tôi nhận được từ sách giáo khoa tiêu chuẩn

Biến - đặc trưng của dân số hoặc mẫu. Ví dụ. Giá của một cổ phiếu hoặc điểm trong bài kiểm tra

Dữ liệu - giá trị quan sát thực tế

Vì vậy, cho một báo cáo hai cột [Tên | Thu nhập] tên cột sẽ là các biến và giá trị quan sát thực tế {dave | 100K}, {jim | 200K} sẽ là dữ liệu

Vì vậy, nếu tôi nói rằng cột [Tên] là dữ liệu danh nghĩa và [thu nhập] là dữ liệu tỷ lệ, tôi sẽ không chính xác hơn khi mô tả nó như một loại biến thay vì một loại dữ liệu như hầu hết các sách giáo khoa làm? Tôi hiểu rằng đây có thể là ngữ nghĩa, và điều đó cũng ổn thôi. Nhưng tôi sợ rằng tôi có thể thiếu một cái gì đó ở đây.


Không đánh tôi như một sự khác biệt có ý nghĩa; Cá nhân tôi sẽ xem xét phrasing chấp nhận được. Định nghĩa của "biến" có vẻ hơi xa vời.
Nick Stauner

2
@Nick Tôi tin rằng nếu chúng ta dịch "đặc tính" thông tục sang "hàm có giá trị thực", chúng ta sẽ có được một phần định nghĩa của một biến ngẫu nhiên. (Tất nhiên, phần còn thiếu là khả năng đo lường đối với trường sigma trong dân số.) Thông thường, mặc dù vậy, chúng tôi sẽ dịch "đặc tính của mẫu" sang thống kê thuật ngữ kỹ thuật : có thể đó là những gì bạn đang đề cập đến như là một "Ít đi." Với các bản dịch này, các biến hoàn toàn không có "loại" theo nghĩa của Stevens (chúng ta chỉ có thể phân biệt rời rạc với phân phối liên tục ) - nhưng một số dữ liệu có thể.
whuber

Câu trả lời:


16

Stevens' phân loại quy mô không nhất thiết phải là một số đặc tính vốn có của các biến, cũng như dữ liệu thậm chí chính nó, nhưng về cách chúng tôi xử lý thông tin - những gì chúng ta đang sử dụng nó để có nghĩa .

Trong một số trường hợp, chính xác cùng một giá trị có thể được coi là tỷ lệ, khoảng, thứ tự hoặc danh nghĩa, tùy thuộc vào những gì chúng ta đang làm với nó - đó là vấn đề về ý nghĩa của việc chúng ta đưa ra các giá trị, có thể thay đổi từ phân tích này sang phân tích tiếp theo. Kiểu chữ của Stevens có một số giá trị, nhưng nó không được quy định quá mức về nó.

Vấn đề về tầm quan trọng của quy mô như ý nghĩa bắt nguồn từ ít nhất là đối với Lord (1953), người đã đưa ra một ví dụ trong đó có cả cách hiểu danh nghĩa và khoảng thời gian của cùng một bộ số.

Điểm này thậm chí còn được làm rõ ràng hơn bởi Velleman và Wilkinson (1993), người đưa ra một ví dụ về những người nhận được các vé được đánh số liên tiếp khi vào lễ tân với một giải thưởng được trao cho một trong những vé; tùy thuộc vào việc sử dụng các con số trên vé, chúng có cách hiểu trên cả bốn thang đo.

Vì vậy, ví dụ 'tôi đã thắng chưa?' là một câu hỏi coi con số là danh nghĩa, trong khi 'tôi có đến quá sớm để nhận được vé trúng thưởng không?' là một câu hỏi coi nó là thứ tự; mặt khác (và tôi không nghĩ số này nằm trong tờ giấy) sử dụng 5 số vé ngẫu nhiên để ước tính số người trong phòng sẽ coi họ là tỷ lệ (ví dụ: có 4 số được rút ngẫu nhiên giải khuyến khích, bạn sẽ có 5 số ngẫu nhiên để ước tính tổng số người tham dự).

Họ cho rằng "phân tích dữ liệu tốt không giả định các loại dữ liệu", "Các danh mục của Stevens không mô tả các thuộc tính cố định của dữ liệu", "Các danh mục của Stevens không đủ để mô tả thang đo dữ liệu" và "Các quy trình thống kê có thể được phân loại theo tiêu chí của Stevens" (thực sự mỗi tuyên bố cũng là một phần tiêu đề).

Các phê bình cũng được Tukey đưa ra ở một số nơi (ví dụ như trong chương 5 của cuốn sách Mosteller và Tukey's 1977 Phân tích và hồi quy dữ liệu ); Mosteller và Tukey đưa ra một kiểu chữ - tên , điểm (nhãn được đặt hàng), thứ hạng (bắt đầu từ 1, có thể đại diện cho lớn nhất hoặc nhỏ nhất), các phân số được tính (giới hạn bởi 0 và một, bao gồm tỷ lệ phần trăm), đếm (không âm số nguyên), số tiền ( số thực không âm), số dư (không giới hạn, giá trị dương hoặc âm).

Trong công việc của mình, tôi đã thấy các tình huống trong đó các vấn đề nghiêm trọng về phân tích là do mọi người không đánh giá cao sự khác biệt lớn giữa các biến liên quan đến cấp độ (đôi khi được gọi là biến 'stock') và một dòng chảy - một ví dụ đơn giản về các loại này là sự khác biệt trong các loại phân tích phù hợp với lượng nước thực sự trong một bể chứa trong mỗi chuỗi thời gian và lượng nước chảy vào nó. Cả hai trường hợp này (trong một số trường hợp) đều là các loại con của loại ' Số tiền ' của Mosteller và Tukey (và trong các trường hợp tương tự, cả hai biến tỷ lệ trong sơ đồ của Stevens), chỉ ra rằng các vấn đề về kiểu chữ có thể khá tinh tế, nhưng vẫn có thể tác động nghiêm trọng đến các phân tích thích hợp.

PFVelleman và L.Wilkinson (1993),
"Các loại hình danh nghĩa, thông thường, khoảng thời gian và tỷ lệ là sai lệch" ,
Thống kê người Mỹ , tập. 47 số 1 ​​trang 65-72

(một phiên bản làm việc dường như có sẵn tại trang web của tác giả thứ 2 tại đây )

Lord, F. (1953),
"Về việc điều trị thống kê số bóng đá",
Nhà tâm lý học Mỹ , 8 , tr.750-751

(Năm của bài viết này được đưa ra sai trong các tài liệu tham khảo của phiên bản giấy Velleman và Wilkinson mà tôi liên kết đến, nhưng được đề cập chính xác trong phần thân bài)


Cảm ơn. Câu trả lời rất kỹ lưỡng. Tôi đã suy nghĩ theo những dòng đó nhưng khi nghiên cứu công cụ này nhiều lần họ làm cho nó có vẻ như nó là cụ thể và đã đạt được sự đồng thuận. Đó là lý do tại sao tôi kết thúc ở đây.
Người dùng 42

Kiểu chữ của Stevens đã được tranh luận và tranh cãi kể từ khi nó được xuất bản lần đầu tiên. Đó là một khuôn khổ đôi khi hữu ích, không phải là một định lý.
Glen_b -Reinstate Monica

Có "yêu thích mới" nào ngoài Stevens và Mosteller không? Trong ví dụ mức / luồng, nếu tôi hiểu bạn chính xác, cả hai đều có cùng loại, nhưng cần phải được đối xử khác nhau? Bạn có thể giải thích sự khác biệt này? Và làm thế nào để chuyển đổi log của một giá trị phù hợp với kiểu chữ này? Cảm ơn.
Erich Schubert

1. Tôi không biết về bất kỳ nỗ lực nào gần đây để tạo ra một - và tôi nghĩ rằng chúng không nhất thiết phải hữu ích vì chúng có xu hướng giúp mọi người phân tích ít thích hợp hơn rất thực tế - những danh sách phân tích theo loại này không gây ra sự kết thúc của phân tích thống kê khủng khiếp, trong khi cắt bỏ rất nhiều số liệu thống kê khỏi khả năng xem xét trong các tình huống thích hợp). .. ctd
Glen_b -Reinstate Monica

ctd ... 2. Một ví dụ về mức độ và lưu lượng khá khác nhau: Lưu ý rằng nếu bạn nhìn vào cấp độ mỗi ngày, cấp độ ngày hôm nay sẽ là cấp độ trước đó cộng với dòng chảy vào hoặc ra (hoặc tổng của cả hai , nếu cả hai đều có thể). Vì vậy, đo lường mức độ nhất thiết phải phụ thuộc, thường rất cao. Không thể có ý nghĩa gì khi đối xử với họ như thể họ độc lập - nhưng tôi thấy mọi người làm điều đó mọi lúc. 3. Tôi không chắc chắn những gì bạn đang hỏi với điều nhật ký. Bạn có thể rõ ràng hơn về điều đó? Những loại hình (lưu ý mà tôi đề cập nhiều hơn một)?
Glen_b -Reinstate Monica

1

Loại dữ liệu có liên quan nhưng không giống với loại biến. Hầu hết các trường hợp, chúng giống nhau nhưng chúng không phải như vậy.

Ví dụ: nếu bạn thu thập N mẫu từ phân phối bình thường. Bạn sẽ nghĩ đó là dữ liệu số (tỷ lệ hoặc tỷ lệ). Nhưng tôi cũng có thể nói đó là một biến phân loại với N loại khác nhau, với tần suất 1 cho mỗi loại. Trông có vẻ ngu ngốc nhưng đó cũng là một biến hợp lệ.


Điều này có vẻ hơi mâu thuẫn với Stevens (người được cho là đã xây dựng kiểu chữ này), người đã viết "vấn đề thực sự là ý nghĩa của phép đo". Mặc dù bạn luôn có thể chọn xử lý dữ liệu đó là danh nghĩa, nhưng điều đó không làm cho chúng trở thành danh nghĩa trong ước tính của Stevens. Bài viết của anh ấy có sẵn tại gaius.fpce.uc.pt/niips/novoplano/mip1/mip1_201314/scales/ .
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.