Chúng ta có vấn đề gì về sự thương hại của người Viking không?


51

Tôi biết, điều này nghe có vẻ lạc đề, nhưng hãy nghe tôi nói.

Tại Stack Overflow và ở đây chúng tôi nhận được phiếu bầu trên các bài đăng, tất cả đều được lưu trữ dưới dạng bảng.

Ví dụ:

bài đăng id cử tri id loại thời gian
------- --------- --------- --------
10 1 2 2000-1-1 10:00:01 
11 3 3 2000-1-1 10:00:01 
10 5 2 2000-1-1 10:00:01 

... và cứ thế. Bầu chọn loại 2 là một upvote, bỏ phiếu loại 3 là một downvote. Bạn có thể truy vấn phiên bản ẩn danh của dữ liệu này tại http://data.stackexchange.com

Có một nhận thức rằng nếu một bài viết đạt điểm -1 hoặc thấp hơn thì nhiều khả năng nó sẽ được nâng cấp. Điều này có thể chỉ đơn giản là sự xác nhận thiên vị hoặc nó có thể được bắt nguồn từ thực tế.

Làm thế nào chúng ta sẽ phân tích dữ liệu này để xác nhận hoặc từ chối giả thuyết này? Làm thế nào chúng ta sẽ đo lường ảnh hưởng của sự thiên vị này?


1
chúng ta có thể lấy một ví dụ về truy vấn không? Không phải ai cũng thành thạo trong việc viết các câu lệnh SQL. Có dữ liệu mẫu có thể khuyến khích mọi người thử chơi với nó. +1 cho câu hỏi.
mpiktas

Phiếu bầu @Jeff được ẩn danh, bạn chỉ có thể nhận được một phần thông tin từ kết xuất dữ liệu, nó bao gồm tất cả các chuyển đổi mặc dù đây là dữ liệu mẫu nhanh.stackexchange.com/stackoverflow/q/101738 dữ liệu ẩn danh đầy đủ có sẵn trong kết xuất dữ liệu công khai
Sam Saffron

Tại sao chỉ nâng cấp? Làm thế nào xác suất chia tách lên hoặc xuống xung quanh từng giá trị cụ thể chắc chắn sẽ thú vị?
Bob Durrant

@Bob, chắc chắn đồng ý họ sẽ làm
Sam Saffron

1
Tôi đã thấy các loại trang web khác làm xáo trộn phiếu bầu (tức là thêm tiếng ồn trước khi hiển thị chúng) và đôi khi thậm chí che giấu hoàn toàn các phiếu bầu lên xuống trong một thời gian ngắn, để tránh các hình thức khác nhau của các nhóm, bỏ phiếu thương hại và 'xã hội' khác các yếu tố bỏ phiếu.
Glen_b

Câu trả lời:


32

Bạn có thể sử dụng mô hình đa cấp hoặc chuỗi Markov (gói msm trong R là một cách để phù hợp với những điều này). Sau đó, bạn có thể xem liệu xác suất chuyển đổi từ -1 sang 0 có lớn hơn từ 0 đến 1, 1 đến 2 hay không, v.v. Bạn cũng có thể nhìn vào thời gian trung bình ở -1 so với những người khác để xem liệu nó có ngắn hơn không .


3
+1 tài liệu tham khảo tuyệt vời. Có một bài viết trên Tạp chí Phần mềm Thống kê về gói msm. Các mô hình dường như lý tưởng phù hợp cho loại nhiệm vụ này.
mpiktas

3
Ý tưởng mô hình chuỗi Markov trông có vẻ tốt, nhưng thời gian trung bình ở -1 sẽ không cho toàn bộ câu chuyện. Có thể (và hợp lý - nghĩ những câu hỏi tồi) rằng một người có nhiều khả năng bị hạ cấp ở -1 hơn những nơi khác.
Bob Durrant

Tôi đoán những gì người ta có thể muốn làm đầu tiên là phân cụm các quỹ đạo bỏ phiếu - những người chỉ nhận được (gần như) chỉ tăng / giảm (câu hỏi rất phổ biến / rất xấu) và những câu hỏi gây tranh cãi hơn. Sau đó, bạn có thể làm chuỗi Markov trên ba lớp.
Jonas

13

Tiến hành một thí nghiệm. Tải xuống ngẫu nhiên một nửa số bài viết mới tại một thời điểm cụ thể mỗi ngày.


5
Thật tuyệt, chúng ta nên quan sát sự gia tăng đáng kể các huy hiệu "phê bình" và có thể giảm động lực cho người dùng mới :-) Tốt hơn là bắt đầu với người dùng có tính đại diện cao, trong trường hợp này (có nguy cơ sai lệch thử nghiệm!)
chl

14
Trên thực tế, chúng tôi có thể làm tốt hơn thế này ... bằng cách sử dụng thử nghiệm AB, chúng tôi có thể chọn hiển thị một nửa câu hỏi -1 được bình chọn trên trang web là 0 và một nửa là -1 ... và xem liệu một trong hai nhóm có khả năng hơn không nâng cao tinh thần! Khéo léo.
Sam Saffron

4
Ý tưởng thử nghiệm kiểm soát chất lượng của các bài đăng, nhưng (1) những người bị hạ cấp nên đồng ý trước để tham gia thử nghiệm và (2) sau một thời gian ngắn, nên hạ cấp xuống.
zbicyclist

2
+1 (và +1 cho tất cả các nhận xét ở đây cũng vậy): một thử nghiệm có thể đảo ngược được kiểm soát , được truyền đạt trước cho tất cả người dùng có thể bị ảnh hưởng và được chấp thuận, là một trong những cách mạnh nhất để có được thông tin này.
whuber

13

Tóm tắt câu trả lời của tôi. Tôi thích mô hình chuỗi Markov nhưng nó bỏ qua khía cạnh "tạm thời". Mặt khác, việc tập trung vào khía cạnh thời gian (ví dụ: thời gian trung bình ở ) bỏ qua khía cạnh "chuyển đổi". Tôi sẽ đi vào mô hình tổng quát sau đây (với giả định phù hợp có thể dẫn đến [quá trình markov] [1]). Ngoài ra, có rất nhiều thống kê "bị kiểm duyệt" đằng sau vấn đề này (đây chắc chắn là một vấn đề cổ điển về độ tin cậy của Phần mềm?). Phương trình cuối cùng của câu trả lời của tôi đưa ra ước tính khả năng tối đa của cường độ biểu quyết (tăng với "+" và hạ xuống với "-") cho một trạng thái bỏ phiếu nhất định. Như chúng ta có thể thấy từ phương trình, nó là một trung gian từ trường hợp khi bạn chỉ ước tính xác suất chuyển tiếp và trường hợp khi bạn chỉ đo thời gian ở một trạng thái nhất định. Hy vọng điều này giúp đỡ.1

Mô hình hóa tổng quát (để đặt lại câu hỏi và giả định). Đặt và là các biến ngẫu nhiên mô hình hóa tương ứng ngày biểu quyết và dấu hiệu bỏ phiếu liên quan (+1 cho upvote, -1 cho downvote). Quá trình bỏ phiếu chỉ đơn giản là(VDi)i1(Si)i1

Yt=Yt+Yt
trong đó

Yt+=i=01VDit,Si=1 and Yt=i=01VDit,Si=1

Số lượng quan trọng ở đây là ý định của -jump trong đó có thể hoặc và là một bộ lọc tốt, trong trường hợp chung, không có kiến ​​thức khác, nó sẽ là : .ϵ

λtϵ=limdt01dtP(Yt+dtϵYtϵ=1|Ft)
ϵ+Ft
Ft=σ(Yt+,Yt,VD1,,VDYt++Yt,S1,,SYt++Yt)

nhưng dọc theo câu hỏi của bạn, tôi nghĩ bạn mặc nhiên cho rằng Điều này có nghĩa là đối với tồn tại một chuỗi xác định sao cho .

P(Yt+dtϵYtϵ=1|Ft)=P(Yt+dtϵYtϵ=1|Yt)
ϵ=+,(μiϵ)iZλtϵ=μYtϵ

Trong chủ nghĩa hình thức này, câu hỏi của bạn có thể được đặt lại là: "có thể " (hoặc ít nhất là sự khác biệt lớn hơn a ngưỡng cho trước).μ1+μ0+>0

Theo giả định này, thật dễ dàng để chỉ ra rằng là một [quy trình đồng nhất] [3] trên với trình tạo được cung cấp bởiYtZQ

i,jZQi,i+1=μi+Qi,i1=μiQii=1(μi++μi)Qij=0 if |ij|>1

Trả lời câu hỏi (thông qua đề xuất ước tính khả năng tối đa cho vấn đề thống kê) Từ cải cách này, việc giải quyết vấn đề được thực hiện bằng cách ước tính và xây dựng một thử nghiệm nâng cao giá trị của nó. Hãy để chúng tôi sửa chữa và quên chỉ số mà không mất tính tổng quát. Ước tính (và ) có thể được thực hiện theo quan sát của(μi+)iμ+μ

(T1,η1),,(Tp,ηp) trong đó là độ dài của trong khoảng thời gian ở trạng thái (tức là lần liên tiếp với ) và là nếu câu hỏi được nâng lên, nếu câu hỏi được hạ xuống và nếu đó là trạng thái quan sát cuối cùng.TjjthpiYt=iηj+110

Nếu bạn quên trường hợp có trạng thái quan sát cuối cùng, các cặp được đề cập là iid từ một bản phân phối phụ thuộc vào và : nó được phân phối dưới dạng (trong đó Exp là một var ngẫu nhiên từ phân bố mũ và là + hoặc -1 tùy thuộc vào người nhận ra max). Sau đó, bạn có thể sử dụng bổ đề đơn giản sau đây (bằng chứng rất đơn giản):μi+μi(min(Exp(μi+),Exp(μi)),η)η

Bổ đề Nếu và thì và . X+Exp(μ+)XExp(μ)T=min(X+,X)Exp(μ++μ)P(X+1<X)=μ+μ++μ

Điều này ngụ ý rằng mật độ của được cho bởi: trong đó cho là hàm mật độ của biến ngẫu nhiên theo hàm mũ với tham số . Từ biểu thức này, có thể dễ dàng rút ra ước tính khả năng tối đa của và :f(t,ϵ)(T,η)

f(t,ϵ)=gμ++μ(1(ϵ=+1)μ++1(ϵ=1)μμ++μ)
gaa>0aμ+μ

(μ^+,μ^)=argminln(μ+μ+)((μ+μ+)i=1pTi+p)pln(μ)p+ln(μ+)
trong đóvà.p=|i:δi=1|p+=|i:δi=+1|

Nhận xét cho các phương pháp nâng cao hơn

Nếu bạn muốn đưa vào các trường hợp acount khi là trạng thái quan sát cuối cùng (chắc chắn thông minh hơn vì khi bạn vượt qua , đó thường là điểm cuối cùng của bạn ...) bạn phải sửa đổi một chút lý do. Việc kiểm duyệt tương ứng là tương đối cổ điển ...i1

Có thể có sự chấp nhận khác có thể bao gồm khả năng

  • Có cường độ giảm dần theo thời gian
  • Có cường độ giảm dần theo thời gian kể từ lần bỏ phiếu cuối cùng (tôi thích cái này hơn. Trong trường hợp này có cách mô hình hóa cổ điển làm thế nào mật độ giảm ...
  • Bạn có thể muốn giả sử rằng là một chức năng trơn tru củaμi+i
  • .... bạn có thể đề xuất những ý tưởng khác!
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.