Làm cách nào tôi có thể cải thiện phân tích về ảnh hưởng của danh tiếng đối với việc bỏ phiếu?


15

Gần đây tôi đã thực hiện một số phân tích về ảnh hưởng của danh tiếng đối với upvote (xem bài đăng trên blog ) và sau đó tôi có một vài câu hỏi về khả năng phân tích và đồ họa có thể khai sáng hơn (hoặc phù hợp hơn).

Vì vậy, một vài câu hỏi (và thoải mái trả lời bất kỳ ai nói riêng và bỏ qua những người khác):

  1. Trong hiện tại của nó, tôi không có nghĩa là trung tâm số bài. Tôi nghĩ những gì nó làm là sự xuất hiện sai lệch của một mối tương quan tiêu cực trong biểu đồ phân tán, vì có nhiều bài viết về phía dưới của số lượng bài đăng (bạn thấy điều này không xảy ra trong bảng điều khiển Jon Skeet, chỉ ở những người dùng sinh tử bảng điều khiển). Có phải nó không phù hợp để không tập trung vào số bài đăng (vì ý tôi là tập trung vào số điểm trên mỗi điểm trung bình của người dùng)?

  2. Rõ ràng là từ các biểu đồ cho rằng điểm bị lệch rất cao (và có nghĩa là định tâm không thay đổi bất kỳ). Khi điều chỉnh đường hồi quy, tôi phù hợp với cả mô hình tuyến tính và mô hình sử dụng các lỗi cát trắng Huber-White (thông qua rlmgói MASS R ) và nó không tạo ra bất kỳ sự khác biệt nào trong ước tính độ dốc. Tôi có nên xem xét chuyển đổi dữ liệu thay vì hồi quy mạnh mẽ không? Lưu ý rằng bất kỳ chuyển đổi nào cũng sẽ phải tính đến khả năng 0 và điểm âm. Hoặc tôi nên sử dụng một số loại mô hình khác cho dữ liệu đếm thay vì OLS?

  3. Tôi tin rằng hai đồ họa cuối cùng, nói chung, có thể được cải thiện (và có liên quan đến các chiến lược mô hình được cải thiện là tốt). Theo ý kiến ​​của tôi, tôi sẽ nghi ngờ nếu hiệu ứng danh tiếng là có thật thì chúng sẽ được nhận ra khá sớm trong lịch sử áp phích (tôi cho rằng nếu đúng, những điều này có thể được xem xét lại "bạn đã đưa ra một số câu trả lời xuất sắc vì vậy bây giờ tôi sẽ nêu lên tất cả bài viết "thay vì" danh tiếng bằng tổng số điểm "hiệu ứng). Làm cách nào tôi có thể tạo một đồ họa để chứng minh liệu điều này có đúng hay không, trong khi tính đến âm mưu quá mức? Tôi nghĩ có lẽ một cách tốt để chứng minh điều này sẽ phù hợp với một mô hình của mẫu;

Y=β0+β1(X1)+α1(Z1)+α2(Z2)αk(Zk)+γ1(Z1*X1)γk(Zk*X1)+ε

Trong đó là (giống như trong các biểu đồ phân tán hiện tại), là và là các biến giả đại diện cho một số phạm vi số bài đăng tùy ý (ví dụ bằng nếu số bài đăng là , bằng nếu số bài viết là vv). và là các lệnh chặn và lỗi lớn. Sau đó, tôi sẽ chỉ kiểm tra các độ dốc ước tính để xác định xem các hiệu ứng danh tiếng xuất hiện sớm trong lịch sử áp phích (hoặc hiển thị bằng đồ họa chúng). Đây có phải là một cách tiếp cận hợp lý (và phù hợp)?X 1 Z 1Z k Z 1 Z 2 β 0 ε gammaYscore - (mean score per user)X1post numberZ1ZkZ111 through 25Z2126 through 50β0ϵγ

Có vẻ phổ biến để phù hợp với một số loại đường làm mịn không tham số cho các phân tán như thế này (chẳng hạn như hoàng thổ hoặc spline), nhưng thử nghiệm của tôi với spline không cho thấy bất kỳ điều gì soi sáng (bất kỳ bằng chứng nào về hiệu ứng postive sớm trong lịch sử poster là nhẹ và nóng đến số lượng splines tôi bao gồm). Vì tôi có một giả thuyết rằng các hiệu ứng xảy ra sớm, liệu phương pháp mô hình hóa của tôi ở trên có hợp lý hơn spline không?

Cũng lưu ý rằng mặc dù tôi đã nạo vét tất cả các dữ liệu này, nhưng vẫn còn rất nhiều cộng đồng khác để kiểm tra (và một số như superuser và serverfault có các mẫu lớn tương tự để rút ra), vì vậy rất có lý khi đề xuất trong tương lai phân tích rằng tôi sử dụng một mẫu giữ để kiểm tra bất kỳ mối quan hệ.


Hiện tại tôi đã thực hiện một số ghi chú cho câu hỏi đầu tiên của mình và chúng có thể được tìm thấy ở đây . Hiện tại tôi không chắc chắn liệu tôi chỉ nên đăng bài này như một câu trả lời cho câu hỏi của riêng tôi hay mở một câu hỏi riêng biệt (vì điều này chủ yếu tập trung vào trực quan hóa dữ liệu). Nhưng hãy để lại cho tôi một nhận xét về tài liệu google ở ​​đây hoặc trong phòng trò chuyện .
Andy W

Câu trả lời:


14

Đây là một thử thách dũng cảm, nhưng chỉ với những dữ liệu này, sẽ rất khó hoặc không thể trả lời câu hỏi nghiên cứu của bạn liên quan đến "ảnh hưởng của danh tiếng đối với upvote". Vấn đề nằm ở việc phân tách ảnh hưởng của các hiện tượng khác, mà tôi liệt kê cùng với các chỉ dẫn ngắn gọn về cách chúng có thể được giải quyết.

  • Hiệu quả học tập . Khi danh tiếng tăng lên, kinh nghiệm đi lên; khi kinh nghiệm đi lên, chúng tôi mong đợi một người sẽ đăng câu hỏi và câu trả lời tốt hơn; khi chất lượng của họ được cải thiện, chúng tôi mong đợi nhiều phiếu hơn cho mỗi bài đăng. Có thể hiểu được, một cách để xử lý vấn đề này trong phân tích sẽ là xác định những người đang hoạt động trên nhiều trang SE . Trên bất kỳ trang web cụ thể nào, danh tiếng của họ sẽ tăng chậm hơn so với số lượng kinh nghiệm của họ, do đó cung cấp một cách xử lý để trêu chọc danh tiếng và hiệu ứng học tập.

  • Thay đổi tạm thời trong bối cảnh. Đây là vô số, nhưng những cái rõ ràng sẽ bao gồm

    • Thay đổi số lượng cử tri theo thời gian , bao gồm xu hướng tăng tổng thể, xu hướng theo mùa (thường liên quan đến chu kỳ học tập) và ngoại lệ (phát sinh từ công khai bên ngoài như liên kết đến các chủ đề cụ thể). Bất kỳ phân tích sẽ phải có yếu tố này khi đánh giá xu hướng danh tiếng cho bất kỳ cá nhân .

    • Thay đổi trong các cộng đồng theo thời gian . Cộng đồng, và cách họ tương tác, phát triển và phát triển. Theo thời gian họ có thể có xu hướng bỏ phiếu ít nhiều thường xuyên. Bất kỳ phân tích sẽ phải đánh giá hiệu ứng này và yếu tố nó trong .

    • Thời gian tự nó. Thời gian trôi qua, bài viết trước đó vẫn có sẵn để tìm kiếm và tiếp tục thu thập phiếu bầu. Do đó, caeteris paribus , bài viết cũ hơn nên tạo ra nhiều phiếu hơn so với bài mới hơn. (Đây là một hiệu ứng mạnh mẽ : một số người luôn đạt thành tích cao trong các giải đấu danh tiếng hàng tháng đã không truy cập trang web này cả năm!) Điều này sẽ che giấu hoặc thậm chí đảo ngược bất kỳ hiệu ứng danh tiếng tích cực thực sự nào. Bất kỳ phân tích cần phải tính đến thời gian mỗi bài đăng đã có mặt trên trang web .

  • Môn học phổ biến. Một số thẻ (ví dụ: ) phổ biến hơn nhiều so với các thẻ khác. Do đó, những thay đổi trong các loại câu hỏi mà một người trả lời có thể bị nhầm lẫn với những thay đổi tạm thời, chẳng hạn như hiệu ứng danh tiếng. Do đó, bất kỳ phân tích cần phải có yếu tố trong bản chất của các câu hỏi được trả lời.

  • Lượt xem [được thêm dưới dạng chỉnh sửa]. Các câu hỏi được xem bởi số lượng người khác nhau vì nhiều lý do (bộ lọc, liên kết, v.v.). Có thể số phiếu nhận được bằng câu trả lời có liên quan đến số lượt xem, mặc dù người ta sẽ mong đợi tỷ lệ giảm khi số lượt xem tăng. . lượt xem, mặc dù cuối cùng các câu hỏi được xem hàng trăm lần.) Do đó, bất kỳ phân tích nào cũng cần phải tính đến số lượt xem, nhưng có lẽ không phải theo cách tuyến tính.

  • Đo lường khó khăn. "Danh tiếng" là tổng số phiếu nhận được cho các hoạt động khác nhau: danh tiếng ban đầu, câu trả lời, câu hỏi, phê duyệt câu hỏi, chỉnh sửa thẻ wiki, hạ cấp và nhận được giảm (theo thứ tự giá trị giảm dần). Bởi vì các thành phần này đánh giá những thứ khác nhau, và không phải tất cả đều nằm dưới sự kiểm soát của cử tri cộng đồng, nên chúng phải được tách ra để phân tích . Một "hiệu ứng danh tiếng" có lẽ được liên kết với các câu trả lời về câu trả lời và, có lẽ, về các câu hỏi, nhưng không nên ảnh hưởng đến các nguồn danh tiếng khác. Danh tiếng ban đầu chắc chắn nên được trừ đi (nhưng có lẽ có thể được sử dụng như một proxy cho một số lượng kinh nghiệm ban đầu).

  • Yếu tố tiềm ẩn. Có thể có nhiều yếu tố gây nhiễu khác không thể đo lường được. Ví dụ, có nhiều hình thức "kiệt sức" khác nhau khi tham gia các diễn đàn. Mọi người làm gì sau một vài tuần, tháng hoặc năm nhiệt tình ban đầu? Một số khả năng bao gồm tập trung vào các câu hỏi hiếm, bất thường hoặc khó; chỉ cung cấp câu trả lời cho các câu hỏi chưa được trả lời; cung cấp ít câu trả lời hơn nhưng chất lượng cao hơn; vv Một số trong số này có thể che giấu một hiệu ứng danh tiếng, trong khi những người khác có thể nhầm lẫn với một. Một ủy quyền cho các yếu tố như vậy có thể là sự thay đổi về tỷ lệ tham gia của một cá nhân : họ có thể báo hiệu những thay đổi về bản chất của bài đăng của người đó.

  • Hiện tượng tiểu ban. Nhìn kỹ vào số liệu thống kê, ngay cả trên các trang SE rất tích cực, cho thấy một số lượng tương đối ít người thực hiện hầu hết việc trả lời và bỏ phiếu. Một nhóm nhỏ như hai hoặc ba người có thể có ảnh hưởng sâu sắc đến sự phát triển của danh tiếng. Một nhóm hai người sẽ được phát hiện bởi các màn hình tích hợp của trang web (và một nhóm như vậy tồn tại trên trang web này), nhưng các nhóm lớn hơn có thể sẽ không được. (Tôi không nói về thông đồng chính thức: mọi người có thể là thành viên của bè phái như vậy mà không hề ý thức được điều đó.) Làm thế nào chúng ta sẽ tách ảnh hưởng uy tín rõ ràng từ các hoạt động trong số này, không bị phát hiện, bè phái chính thức vô hình? Dữ liệu bỏ phiếu chi tiết có thể được sử dụng trong chẩn đoán, nhưng tôi không tin rằng chúng ta có quyền truy cập vào những dữ liệu này.

  • Dữ liệu hạn chế. Để phát hiện hiệu ứng danh tiếng, bạn có thể sẽ cần phải tập trung vào các cá nhân có hàng chục đến hàng trăm bài đăng (ít nhất là). Điều đó làm giảm dân số hiện tại xuống dưới 50 cá nhân. Với tất cả khả năng biến đổi và gây nhiễu, đó là quá nhỏ để trêu chọc những hiệu ứng đáng kể trừ khi chúng thực sự rất mạnh. Cách chữa trị là làm tăng dữ liệu với các bản ghi từ các trang SE khác .

Với tất cả những sự phức tạp này, rõ ràng là đồ họa khám phá trong bài viết trên blog có rất ít cơ hội tiết lộ bất cứ điều gì trừ khi nó rõ ràng rõ ràng. Không có gì nhảy ra ở chúng tôi: như mong đợi, dữ liệu rất lộn xộn và phức tạp. Vẫn còn sớm để đề xuất cải tiến cho các lô hoặc phân tích đã được trình bày: thay đổi gia tăng và phân tích bổ sung sẽ không giúp ích cho đến khi những vấn đề cơ bản này được giải quyết .


Cảm ơn bạn đã phản hồi. Với chiều rộng của bài phê bình, tôi sẽ không thể giải quyết một cách thích hợp tất cả các đề xuất trong các bình luận (tôi sẽ phải nghĩ đến một địa điểm khác, có thể chỉ cần đăng một tài liệu google khác). Nhưng tôi sẽ nói bây giờ tôi không nghĩ là không thể trả lời (đến mức ai cũng có thể trả lời bất cứ điều gì với dữ liệu quan sát như thế này). Ở mức tối thiểu, với những hạn chế của các giới hạn tiềm năng, người ta có thể thấy liệu hiệu ứng danh tiếng có phù hợp với bằng chứng có sẵn hay không.
Andy W

@Andy Tôi nghĩ rằng sự bối rối là đáng kể và có sức lan tỏa, do đó, ngay cả khi nó trông giống như một hiệu ứng danh tiếng ở đó, nó có thể là một sự giả tạo: bạn sẽ không thể đưa ra bất kỳ kết luận hợp lệ nào trừ khi bạn đã giải quyết những vấn đề này. Tất nhiên tôi có thể sai, nhưng gánh nặng của bằng chứng là ở bạn.
whuber

"nếu nó trông giống như một hiệu ứng danh tiếng là có" là tuyên bố chính (như tôi thấy nó). Hầu hết các giới hạn mà bạn trình bày sẽ liên quan một cách mơ hồ đến danh tiếng áp phích / số bài đăng / lịch sử hoặc về mặt lý thuyết sẽ tăng điểm áp phích về câu trả lời sau này trong lịch sử của họ. Nếu tôi không tìm thấy bằng chứng nào về ảnh hưởng danh tiếng, nhiều vấn đề tiềm ẩn không thể được sử dụng để giải thích sự vắng mặt của nó.
Andy W

@Andy Nhưng ít nhất một người có thể, và thế là đủ. Chúng bao gồm các yếu tố ẩn, mức độ phổ biến của chủ đề và thay đổi thời gian trong bối cảnh. Nếu bạn không xử lý rõ ràng tất cả những điều này trong phân tích, kết luận của bạn sẽ bị nghi ngờ. Nhìn lướt qua các hồ sơ cho thấy mức độ phổ biến của chủ đề và thay đổi thời gian là rất lớn; ảnh hưởng tiềm năng của chúng đầm lầy những gì chúng ta có thể mong đợi một cách hợp lý các hiệu ứng danh tiếng sẽ lên đến một mức độ lớn.
whuber

2
@cardinal, ngay cả khi không có định nghĩa chính thức, một số ít người sẽ có tác động đáng kể đến các mẫu biểu quyết (đó là điều tôi cho rằng whuber đang đề cập đến trong bối cảnh này). Bài viết trung bình của Jon Skeet chỉ là 5 thứ gì đó. Nếu tất cả một người bất ngờ quyết định nâng cao tất cả các câu trả lời của mình, điều đó có thể có tác động khá lớn với điểm số trung bình thấp để bắt đầu.
Andy W

5

YtZtYt=a0+a1Yt1+a2Zt1+ϵtZt=b0+b1Yt1+b2Zt1+δta2ZYZYtΔYt=YtYt1YtFχ2T1T1/2YtZta0a1a2

Ở điểm 1: nếu bạn đang thực hiện các hiệu ứng cố định bằng tay, bạn nên tập trung vào cả biến trả lời và biến giải thích. Gói hồi quy dữ liệu bảng điều khiển sẽ thực hiện điều này cho bạn, nhưng cách xem xét kinh tế lượng chính thức là trừ đi hồi quy "giữa" từ hồi quy "gộp" (xem sách đen của Wooldridge ; Tôi chưa kiểm tra phiên bản thứ hai, nhưng tôi thường xem phiên bản đầu tiên là mô tả loại sách giáo khoa tốt nhất về dữ liệu bảng kinh tế lượng).

Về điểm 2 của bạn: tất nhiên các lỗi tiêu chuẩn Eicker / White sẽ không ảnh hưởng đến ước tính điểm của bạn; nếu họ đã làm, điều đó sẽ chỉ ra một thực hiện không chính xác! Trong bối cảnh của chuỗi thời gian, một công cụ ước tính thậm chí phù hợp hơn là do Newey và West (1987) . Cố gắng biến đổi có thể giúp đỡ. Cá nhân tôi là một fan hâm mộ lớn của sự chuyển đổi Box-Cox, nhưng trong bối cảnh phân tích mà bạn đang thực hiện, thật khó để làm điều đó một cách sạch sẽ. Đầu tiên, bạn sẽ cần một tham số dịch chuyển ở trên cùng của tham số hình dạng và các tham số dịch chuyển rất khó xác định trong các mô hình như thế này. Thứ hai, bạn có thể sẽ cần các thông số thay đổi / hình dạng khác nhau cho những người khác nhau và / hoặc các bài đăng khác nhau và / hoặc ... (tất cả đều thất bại). Dữ liệu đếm cũng là một tùy chọn, nhưng trong bối cảnh mô hình hóa trung bình, hồi quy Poisson cũng tốt như chuyển đổi nhật ký, nhưng nó áp đặt một giả định khó sử dụng của phương sai = trung bình.

PS Bạn có thể gắn thẻ này với "dữ liệu theo chiều dọc" và "chuỗi thời gian".


cảm ơn bạn đã phản hồi, và một vài bình luận / câu hỏi. Tôi đồng ý rằng ít nhất tôi nên khám phá một cách tiếp cận chuỗi thời gian rõ ràng hơn trong dữ liệu này (tôi thậm chí không kiểm tra xem liệu có bất kỳ bằng chứng nào về sự tự tương quan trong phần dư không). Có một vài sự phức tạp nữa mặc dù trong mô hình chuỗi thời gian của dữ liệu này (t?, Và bản thân điểm số là động và không cố định trên mỗi số bài đăng), cũng không cần phải hồi quy dự đoán Z_t, tôi hoàn toàn biết Z_t là gì là một chức năng của!
Andy W

Ngoài ra tôi rất nghi ngờ điểm số là không cố định, điều gì làm cho bạn nghĩ nó là?
Andy W

Ít nhất, nó có lẽ là không đồng nhất: một số bài đăng rất thú vị, nhận được rất nhiều lượt truy cập và rất nhiều câu hỏi, trong khi những bài khác là những câu hỏi / câu trả lời nhỏ "RTFM". Điều đó về mặt kỹ thuật sẽ làm cho nó không cố định. Tất nhiên, sự ổn định là một giả định có thể kiểm chứng được, nhưng với những dữ liệu điên rồ như thế này, có lẽ bạn muốn ở một khía cạnh rất an toàn là quá bảo thủ trong các phương pháp phân tích (hoặc, như tôi đã đề cập, để nhận ra rằng kết quả có thể kỳ dị).
StasK

Tôi hơi bối rối bởi bình luận cuối cùng. Làm thế nào để các yếu tố ngoại sinh ảnh hưởng đến điểm số của một câu trả lời làm cho loạt bài không đồng nhất (tôi giả sử bạn có nghĩa là phương sai của điểm trở nên lớn hơn / nhỏ hơn với số bài?), Và điều này có liên quan đến câu hỏi này không?
Andy W

Một chuỗi thời gian là ổn định nếu phân phối biên tại mọi thời điểm là như nhau. Vì vậy, ngay cả bạn có thể có cùng một ý nghĩa, một phương sai thay đổi sẽ làm cho chuỗi không cố định. Một ví dụ là các mô hình ARCH (G) đã được trao giải thưởng Nobel vào đầu những năm 2000. Nhưng trong những dữ liệu này, tôi cũng mong đợi một số thay đổi trong trung bình. Nếu đối tượng của trang web tăng lên, thì với chất lượng câu trả lời nhất định, bạn có thể sẽ thấy nhiều phiếu hơn trên đó, điều này có thể sẽ làm tăng cả giá trị trung bình và phương sai của điểm số.
StasK

3

Một số thay đổi khác đối với các ô:

  1. Các dải lượng tử cho điểm trả lời so với danh tiếng trước đó. (Lô 1 & 3)
  2. Âm mưu mật độ cho Skeet so với những người khác, được phân tầng theo bài # (Lô 3)
  3. Xem xét phân tầng theo # bài viết cạnh tranh
  4. Phân tầng theo thời gian (người ta có thể tiếp tục đạt được điểm sau khi câu hỏi được hỏi)

Mô hình hóa này sẽ khó hơn. Bạn có thể xem xét hồi quy Poisson. Thành thật mà nói, phát triển cốt truyện tốt là một phương pháp tốt hơn để phát triển những hiểu biết và kỹ năng. Bắt đầu lập mô hình sau khi bạn hiểu rõ hơn về dữ liệu.


(+1) Sau khi để bài đăng một lúc, tôi nhận ra rằng hình dung mật độ của các điểm dường như là một giải pháp tốt hơn nhiều so với cố gắng tự hình dung các điểm (mặc dù tôi không chắc ý của bạn là gì khi "phân tầng theo bài #"). Tôi cũng nghĩ rằng việc vẽ các lượng tử ước tính nghe có vẻ là một ý tưởng hay, mặc dù đối với âm mưu 1 & 2, nó có thể sẽ nằm trong đám mây khổng lồ. Một lần nữa tôi cũng không biết "phân tầng theo thời gian" trong bối cảnh này có nghĩa là gì, hãy xem bình luận của Brad Larson trên bài đăng trên blog và phản hồi của tôi liên quan đến vấn đề này.
Andy W

Ngoài ra tôi rất nghi ngờ các bài viết cạnh tranh có liên quan đến các mối quan hệ được quan sát. Bạn có nghĩ rằng những người có uy tín cao được đăng trong các chủ đề với câu trả lời cạnh tranh hơn trước đó trong lịch sử của họ? Đề xuất của bạn về việc bao gồm các đồng biến khác dường như mâu thuẫn với đề xuất để tránh mô hình hóa và tập trung vào các ô.
Andy W

Ý tưởng đằng sau các bài viết cạnh tranh là khám phá trong tự nhiên. Động lực để trả lời không có gì để làm với nó. Về mô hình hóa, không phải là tôi chống lại việc lập mô hình, mà là bạn chưa sẵn sàng để làm điều đó cho đến khi bạn hiểu rõ hơn về dữ liệu. Nếu bạn không hiểu dữ liệu, bạn sẽ không hiểu các mô hình.
Lặp lại

Bằng cách phân tầng theo bài #, tôi đề nghị bạn bin bài viết. Nó có thể ở thang đo khoảng, chẳng hạn như 0-100 bài đăng, 101-200, v.v. Hoặc trên thang đo lượng tử: chia người dùng cho những người trong 10% dưới cùng của tổng số bài đăng, 20% ile, v.v. Vì Skeet có rất nhiều bài đăng, tốt nhất là so sánh anh ấy với nhóm đồng đẳng của anh ấy, nhưng thật khó để so sánh anh ấy với một nhóm ngang hàng với những bài viết chính xác giống nhau - việc tạo ra dữ liệu có thể giúp ích.
Lặp lại

Btw, để phân tầng, bạn có thể sử dụng coplot().
Lặp lại

1

Họ đấy. (Và ý tôi là theo cách tốt ;-)) Trước khi tiếp tục với các mô hình, bạn cần giải quyết những gì đang xảy ra với dữ liệu.

Tôi không thấy lời giải thích cho đường cong rất đặc biệt ở giữa cốt truyện này: http://stats.blogoverflow.com/files/2011/07/Rep_Correlated_With_Upvotes.png

Nhìn thấy một đường cong như vậy khiến tôi nghĩ rằng có một điều gì đó rất kỳ lạ về những điểm đó - rằng chúng không độc lập với nhau và thay vào đó phản ánh một số chuỗi quan sát của cùng một nguồn.

(Lưu ý nhỏ: đặt tiêu đề cho âm mưu "Tương quan ..." là sai lệch.)


5
23

Đường cong đó có thể được giải thích bằng bản chất của việc danh tiếng có liên quan đến upvote và có khả năng những người đã đăng một câu trả lời và đạt được tất cả danh tiếng từ câu trả lời duy nhất đó (tôi có thể đi sâu vào chi tiết tại sao có thể là trường hợp đó nếu cần) . Nếu tôi đã âm mưu danh tiếng hiện tại trừ đi danh tiếng từ bài đăng gần đây nhất thì điều này sẽ quan tâm đến điều đó trong hầu hết các phần (những quan sát đó không liên quan gì đến phân tích tiếp theo). Bạn có quan tâm đến việc giải thích về mối tương quan bị sai lệch?
Andy W

@whuber, tôi không nghĩ tôi sẽ nói bất cứ điều gì dưới 10 ^ 3 chỉ là tiếng ồn. Chắc chắn một lý thuyết về hiệu ứng danh tiếng nên được áp dụng khi vắng mặt danh tiếng. Tôi cũng hoan nghênh mọi cải tiến được đề xuất cho các lô (không có nhiều thông tin trong bất kỳ lô nào!)
Andy W

Cảm ơn. Đối với tiêu đề, không có tính toán của mối tương quan. Nó chỉ là một âm mưu phân tán điểm số cận biên so với danh tiếng. Ngoại trừ, như bạn và @whuber đề cập, nó không thực sự là điểm số cận biên: nó phải là deltaRep (hoặc Rep (t) - Rep (t-1)) so với Rep (t-1).
Lặp lại

1
@Iterator, chính xác cho câu lệnh cuối cùng (10 điểm cho mỗi lần upvote), nhưng nó vẫn xuất hiện bạn có thể nhầm lẫn những gì tôi đang âm mưu với câu lệnh khác. Trục Y không phải là danh tiếng, nhưng số lượng upvote cho bài đăng gần đây nhất (điều này không nhất thiết Rep(t) - Rep(t-1)là người dùng có thể đạt được danh tiếng từ những nơi khác), trục X là danh tiếng hiện tại (bao gồm cả danh tiếng có được từ bài đăng đó). Trục X là những gì tôi đề xuất nên được thay thế (trừ đi các upvote thu được từ câu trả lời trong câu hỏi tôi đã vẽ trên trục Y).
Andy W
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.