Cách phát hiện ý kiến ​​người dùng phân cực (xếp hạng sao cao và thấp)


15

Nếu tôi có hệ thống xếp hạng sao, nơi người dùng có thể thể hiện sở thích của họ đối với sản phẩm hoặc vật phẩm, làm thế nào tôi có thể phát hiện thống kê nếu phiếu bầu được "chia" cao. Có nghĩa là, ngay cả khi trung bình là 3 trên 5, đối với một sản phẩm nhất định, làm cách nào tôi có thể phát hiện nếu đó là phân chia 1-5 so với đồng thuận 3, chỉ sử dụng dữ liệu (không có phương pháp đồ họa)


3
Có gì sai khi sử dụng Độ lệch chuẩn?
Spork

1
Không phải là một câu trả lời, nhưng có liên quan: evanmiller.org/how-not-to-sort-by-aenses-rating.html
Fractional

1
Bạn đang cố gắng phát hiện "phân phối lưỡng kim"? Xem số liệu thống kê.stackexchange.com / q / 5960/29552
Ben Voigt

1
Trong khoa học chính trị có một tài liệu về đo lường sự phân cực chính trị đã kiểm tra nhiều cách khác nhau để xác định ý nghĩa của "phân cực". Một bài viết hay thảo luận chi tiết về 4 cách xác định phân cực đơn giản khác nhau là như sau (xem trang 692-699): giáo dục.jmu.edu / ~ brysonbp / pub / PJJ.pdf
Jake Westfall

Câu trả lời:


12

Người ta có thể xây dựng một chỉ số phân cực; chính xác cách người ta định nghĩa nó phụ thuộc vào yếu tố cấu thành phân cực hơn (nghĩa là chính xác, ý bạn là gì, trong các trường hợp cạnh cụ thể, bằng cách phân cực nhiều hay ít?):

Ví dụ: nếu giá trị trung bình là '4', thì tỷ lệ chia 50-50 giữa '3' và '5' nhiều hơn hay ít phân cực hơn 25% '1' và 75% '5'?

Dù sao, trong trường hợp không có định nghĩa cụ thể về ý nghĩa của bạn, tôi sẽ đề xuất một biện pháp dựa trên phương sai:

Với một giá trị trung bình cụ thể, xác định phân chia có thể phân cực nhất có thể là phân chia tối đa hóa phương sai *.

* (NB mà có thể nói rằng 25% '1' và 75% '5' là đáng kể hơn phân cực hơn 50-50 tách '3 và' 5 của, nếu điều đó không phù hợp với trực giác của bạn, không sử dụng đúng)

Vì vậy, chỉ số phân cực này là tỷ lệ của phương sai lớn nhất có thể ( với giá trị trung bình quan sát được ) trong phương sai quan sát được.

Gọi xếp hạng trung bình ( m = ˉ x ).mm=x¯

Phương sai tối đa xảy ra khi tỷ lệ 51-p1; này có một sai của (m-1)(5-m)np=m1451p1 .(m1)(5m)nn1

Vì vậy, chỉ đơn giản là lấy phương sai mẫu và chia cho ; điều này đưa ra một số từ0(thỏa thuận hoàn hảo) và1(hoàn toàn phân cực).(m1)(5m)nn101

Đối với một số trường hợp trong đó xếp hạng trung bình là 4, điều này sẽ đưa ra như sau:

enter image description here


Thay vào đó, bạn có thể không muốn tính toán chúng liên quan đến phương sai lớn nhất có thể có cùng giá trị trung bình, nhưng thay vào đó là phần trăm của phương sai lớn nhất có thể có cho bất kỳ xếp hạng trung bình nào . Điều đó sẽ liên quan đến việc chia thay vì và một lần nữa mang lại giá trị từ 0 (thỏa thuận hoàn hảo) và14nn11 (phân cực ở các cực trị theo tỷ lệ 50-50). Điều này sẽ mang lại sự tương đối giống như sơ đồ trên, nhưng tất cả các giá trị sẽ lớn bằng 3/4 (nghĩa là từ trái sang phải, từ trên xuống dưới chúng sẽ là 0, 16,5%, 25%, 25%, 50 % và 75%).

Một trong hai là một lựa chọn hoàn toàn hợp lệ - cũng như bất kỳ cách nào khác để xây dựng một chỉ mục như vậy.


Nhưng sau đó khi m = 1bạn nhận được 1 - 1 = 00 / 0. Làm thế nào để bạn sửa cho điều đó?
Francesco

@Franceso Điểm tốt. Khi hoặc m = 5 , công thức cho dạng đầu tiên không được xác định. Tuy nhiên, theo các giả định khác nhau, giới hạn dường như là 1, có lẽ là những gì tôi sử dụng. Nếu ai đó muốn xác định nó là 1 hoặc 0 cho trường hợp cạnh đó, nó có vẻ hợp lý với tôi. m=1m=5
Glen_b -Reinstate Monica

8

"Không có phương pháp đồ họa" là một sự bất lợi lớn, nhưng ... đây là một vài ý tưởng kỳ quặc. Cả hai đều coi xếp hạng là liên tục, đó là một điểm yếu về mặt khái niệm và có lẽ không phải là duy nhất ...

Kurtosis

  • Kurtosis của {1,1,1,5,5,5} = 1. Bạn sẽ không nhận được mức độ tổn thương thấp hơn với bất kỳ kết hợp nào của 1 Xếp hạng5.
  • Sự suy yếu của {1,2,3,4,5} = 1,7. Thấp hơn có nghĩa là giá trị cực đoan hơn; cao hơn có nghĩa là trung bình hơn.
  • Điều này sẽ không hoạt động nếu phân phối không đối xứng. Tôi sẽ trình bày dưới đây.

Hồi quy nhị thức âm

Với khung dữ liệu như thế này: Phù hợp với mô hình F r e q u e n c

RatingFrequency1312153749537
sử dụng hồi quy nhị thức âm. cácFrequencyRating+Rating phải gần bằng 0 nếu xếp hạng đượcphân bố đồng đều, dương nếu có các giá trị trung bình tỷ lệ thuận hơn (phân phối nhị thức) hoặc âm với các phân phối phân cực như ở trên, với hệ số này là - 11.8.Rating

FWIW, đây là mã tôi đã chơi xung quanh:

x=rbinom(99,4,c(.1,.9))+1;y=sample(0:4,99,replace=T)+1 #Some polarized & uniform rating data
table(x);table(y)                                                         #Frequencies
require(moments);kurtosis(x);kurtosis(y)                                  #Kurtosis

Y=data.frame(n=as.numeric(table(y)),rating=as.numeric(levels(factor(y)))) #Data frame setup
X=data.frame(n=as.numeric(table(x)),rating=as.numeric(levels(factor(x)))) #Data frame setup
require(MASS);summary(glm.nb(n~rating+sqrt(rating),X))  #Negative binomial of polarized data
summary(glm.nb(n~rating+sqrt(rating),Y))                #Negative binomial of uniform data

Không thể cưỡng lại việc ném vào một âm mưu ...

require(ggplot2);ggplot(X,aes(x=rating,y=n))+geom_point()+stat_smooth(formula=y~x+I(sqrt(x)),method='glm',family='poisson')

các Rating



Chỉnh sửa: Chỉ thấy câu hỏi này được quảng cáo trên thanh bên: và khi tôi nhấp vào, tôi đã thấy nó trong Câu hỏi về Mạng nóng liên kết lại với chính nó, như đôi khi xảy ra ,

Vì vậy, tôi nghĩ rằng điều này có thể xứng đáng được xem xét lại theo cách hữu ích hơn. Tôi đã quyết định thử các phương pháp của mình trên các đánh giá của khách hàng trên Amazon cho Tee Mountain ngắn tay của The Mountain Three Wolf :

Rating12345Frequency20854891982273


βRating=19.1

σFrequencyThe Mountain Three Wolf Moon Short Sleeve Tee Ratings2=1.31 ...
và với x=rep(5:1,c(2273,198,89,54,208)), chỉ số phân cực của @ Glen_b var(x)/(4*length(x)/(length(x)-1))= .33 ... chỉ cần nói.


Đó là khoảng 0,77 cho phiên bản đầu tiên của chỉ số phân cực (nghĩa là tương đối với phân cực trung bình nhất được xếp hạng trung bình), nhưng có, như bạn nói, 0,33 cho phiên bản thứ hai (liên quan đến phân phối phân cực nhất có thể).
Glen_b -Reinstate Monica

@Glen_b: Và không phải là phiên bản đầu tiên ít phù hợp hơn khi giá trị trung bình không được cố định trong các bộ xếp hạng khác nhau cần so sánh? Hay tôi đã hiểu nhầm câu trả lời của bạn?
Nick Stauner

Nó phụ thuộc vào mục đích là gì. Đánh giá theo tiêu đề "làm thế nào để phát hiện ý kiến ​​phân cực", tôi nghiêng về người đầu tiên ( được xếp hạng trung bình, ý kiến ​​phân cực như thế nào về điều đó? ). Nếu mục đích thực sự là để so sánh các bộ xếp hạng khác nhau, thì có thể có ý nghĩa hơn khi làm việc với cách tiếp cận thứ hai, như bạn đề xuất. Đó là lý do tại sao tôi đã làm cả hai. Nhận xét của tôi không có ý định phê bình; Tôi rất hãnh diện khi bạn đề cập đến nó.
Glen_b -Reinstate Monica

@Glen_b: Đã hiểu :) TBH, tôi đề xuất phương pháp mô hình hồi quy nhị thức âm là tốt hơn, nhưng tôi thừa nhận tôi hầu như không kiểm tra kỹ lưỡng. Tôi có cảm giác hầu hết các bộ xếp hạng phân cực thực sự sẽ không bị phân cực đồng đều, vì vậy tôi nghĩ rằng sự mạnh mẽ chống lại sự bất cân xứng sẽ rất quan trọng đối với các độc giả tương lai.
Nick Stauner

5

Tôi sẽ nghĩ một cách dễ dàng là tính toán phương sai. Trong một hệ thống đơn giản như thế, phương sai cao hơn có nghĩa là nhiều hơn 1 giây. EDIT Ví dụ nhanh: nếu các giá trị của bạn là 1,3,3,5 thì phương sai của bạn sẽ là:

(1-3)2+(3-3)2+(3-3)2+(5-3)24= =1
Nếu số của bạn là 1,1,5,5, phương sai của bạn sẽ là:
(1-3)2+(1-3)2+(5-3)2+(5-3)24= =2

2

Tôi nghi ngờ rằng tôi có thể thêm một cái gì đó có giá trị vào các câu trả lời thông minh đã được đưa ra. Cụ thể, theo ý tưởng tốt của @ Glen_b để đánh giá mức độ chênh lệch quan sát được tương đối gần với phương sai tối đa có thể theo trung bình quan sát được. Thay vào đó, sự thẳng thừng và thẳng thắn của tôi từ đề xuất trên vai là về một số biện pháp phân tán mạnh mẽ không dựa trên độ lệch từ một số trung tâm mà trực tiếp dựa trên khoảng cách giữa các điểm dữ liệu.

Tính khoảng cách theo cặp (chênh lệch tuyệt đối) giữa tất cả các điểm dữ liệu. Rơi ra ngoàidTôiTôikhoảng cách bằng không. Tính toán một xu hướng trung tâm trong phân phối khoảng cách (sự lựa chọn là của bạn; ví dụ, có thể là trung bình, trung bình hoặc trung tâm Hodges-Lehmann ).

Rating scale                   Distances      Mean     Median    Hodges-Lehmann
1  2  3  4  5

Frequency distributions:

1     2     1                 0 2 2 2 2 4      2          2          2

2           2                 0 0 4 4 4 4      2.7        4          2

1        2  1                 0 1 1 3 3 4      2          2          2

1  1  1     1                 1 1 2 2 3 4      2.2        2          2

1  1     1  1                 1 1 2 3 3 4      2.3        2.5        2.5

1           3                 0 0 0 4 4 4      2          2          2

Như bạn có thể thấy, 3 số liệu thống kê có thể rất khác nhau về các biện pháp "phân cực" (nếu tôi đo lường "sự bất đồng" thay vì đối đầu lưỡng cực, có lẽ tôi sẽ chọn HL). Sự lựa chọn là của bạn. Một khái niệm: nếu bạn tính khoảng cách bình phương , giá trị trung bình của chúng sẽ liên quan trực tiếp đến phương sai thông thường trong dữ liệu (và do đó bạn sẽ đến đề xuất của @ Duncan để tính phương sai). Tính toán khoảng cách sẽ không quá khó ngay cả với lớnN ở đây vì thang đánh giá bị bỏ đi và với số điểm tương đối ít, nên thuật toán trọng số tần số để tính toán khoảng cách tự nhiên cung cấp.


Giá trị trung bình của khoảng cách bình phương cặp có liên quan đến phương sai.
Glen_b -Reinstate Monica

0

Sẽ thế nào, nếu xếp hạng 3 sao nhỏ hơn mức trung bình của 5 và 4, và cũng nhỏ hơn mức trung bình của 1 và 2:

if (number_of_ratings > 6)      // kind of meaningless unless there's enough ratings
{
    if ( ((rating(5)+rating(4))*0.5 > rating(3)) &&
         ((rating(1)+rating(2))*0.5 > rating(3))
       )    
    {
        // Opinion divided
    }
    else
    {
        // Opinion not divided
    }
}
else
{
    // Hard to tell yet if opinion is divided
}

Ngoài đỉnh đầu tôi không thể nghĩ ra bất kỳ tình huống nào sẽ không hoạt động. Sử dụng ví dụ trên: Đánh giá của khách hàng trên Amazon về Áo thun ngắn tay The Mountain Three Wolf Moon :

Rating12345Frequency20854891982273

In this case:

Ratingaverage(1,2)3average(4,5)Frequency131891235

This would pass the test and be considered divided opinion.


1
what if there were lots of 2s and 4s, and relatively few other ratings? It is hard to imagine this happening in reality, but would one really want to call that polarized?
Nick Stauner

Come to think of it, one could more easily find cases with lots of 1s and 5s, very few 2s and 4s, and a moderate amount of 3s. For instance,
Rating12345Frequency25515525
That's pretty polarized, no? Yet your method would produce the same result for this as for a uniform distribution of 15 of each rating.
Nick Stauner

0

I think what you are looking for is standard deviation:

σ=i=0n(xiμ)2nwhere σ is standard deviation, n is the number of data points,x represents all of the data points, andμ is the mean.

I don't know what programming language this is, but here's a java method that will give you standard deviation:

public static double standardDeviation(double[] data) {
            //find the mean
    double sum = 0;
    for(double x:data) {
        sum+=x;
    }
    double mean = sum/data.length;

            //find standard deviation
    Double sd;
    sd=0.0;
    for(double x:data) {
        sd+=Math.pow((x-mean),2);
    }
    sd=sd/data.length;
    sd=Math.sqrt(sd);

    return sd;
}
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.