Gần đây tôi đã thực hiện một số phân tích về ảnh hưởng của danh tiếng đối với upvote (xem bài đăng trên blog ) và sau đó tôi có một vài câu hỏi về khả năng phân tích và đồ họa có thể khai sáng hơn (hoặc phù hợp hơn).
Vì vậy, một vài câu hỏi (và thoải mái trả lời bất kỳ ai nói riêng và bỏ qua những người khác):
Trong hiện tại của nó, tôi không có nghĩa là trung tâm số bài. Tôi nghĩ những gì nó làm là sự xuất hiện sai lệch của một mối tương quan tiêu cực trong biểu đồ phân tán, vì có nhiều bài viết về phía dưới của số lượng bài đăng (bạn thấy điều này không xảy ra trong bảng điều khiển Jon Skeet, chỉ ở những người dùng sinh tử bảng điều khiển). Có phải nó không phù hợp để không tập trung vào số bài đăng (vì ý tôi là tập trung vào số điểm trên mỗi điểm trung bình của người dùng)?
Rõ ràng là từ các biểu đồ cho rằng điểm bị lệch rất cao (và có nghĩa là định tâm không thay đổi bất kỳ). Khi điều chỉnh đường hồi quy, tôi phù hợp với cả mô hình tuyến tính và mô hình sử dụng các lỗi cát trắng Huber-White (thông qua
rlm
gói MASS R ) và nó không tạo ra bất kỳ sự khác biệt nào trong ước tính độ dốc. Tôi có nên xem xét chuyển đổi dữ liệu thay vì hồi quy mạnh mẽ không? Lưu ý rằng bất kỳ chuyển đổi nào cũng sẽ phải tính đến khả năng 0 và điểm âm. Hoặc tôi nên sử dụng một số loại mô hình khác cho dữ liệu đếm thay vì OLS?Tôi tin rằng hai đồ họa cuối cùng, nói chung, có thể được cải thiện (và có liên quan đến các chiến lược mô hình được cải thiện là tốt). Theo ý kiến của tôi, tôi sẽ nghi ngờ nếu hiệu ứng danh tiếng là có thật thì chúng sẽ được nhận ra khá sớm trong lịch sử áp phích (tôi cho rằng nếu đúng, những điều này có thể được xem xét lại "bạn đã đưa ra một số câu trả lời xuất sắc vì vậy bây giờ tôi sẽ nêu lên tất cả bài viết "thay vì" danh tiếng bằng tổng số điểm "hiệu ứng). Làm cách nào tôi có thể tạo một đồ họa để chứng minh liệu điều này có đúng hay không, trong khi tính đến âm mưu quá mức? Tôi nghĩ có lẽ một cách tốt để chứng minh điều này sẽ phù hợp với một mô hình của mẫu;
Trong đó là (giống như trong các biểu đồ phân tán hiện tại), là và là các biến giả đại diện cho một số phạm vi số bài đăng tùy ý (ví dụ bằng nếu số bài đăng là , bằng nếu số bài viết là vv). và là các lệnh chặn và lỗi lớn. Sau đó, tôi sẽ chỉ kiểm tra các độ dốc ước tính để xác định xem các hiệu ứng danh tiếng xuất hiện sớm trong lịch sử áp phích (hoặc hiển thị bằng đồ họa chúng). Đây có phải là một cách tiếp cận hợp lý (và phù hợp)?X 1 Z 1 ⋯ Z k Z 1 Z 2 β 0 ε gammascore - (mean score per user)
post number
1
1 through 25
1
26 through 50
Có vẻ phổ biến để phù hợp với một số loại đường làm mịn không tham số cho các phân tán như thế này (chẳng hạn như hoàng thổ hoặc spline), nhưng thử nghiệm của tôi với spline không cho thấy bất kỳ điều gì soi sáng (bất kỳ bằng chứng nào về hiệu ứng postive sớm trong lịch sử poster là nhẹ và nóng đến số lượng splines tôi bao gồm). Vì tôi có một giả thuyết rằng các hiệu ứng xảy ra sớm, liệu phương pháp mô hình hóa của tôi ở trên có hợp lý hơn spline không?
Cũng lưu ý rằng mặc dù tôi đã nạo vét tất cả các dữ liệu này, nhưng vẫn còn rất nhiều cộng đồng khác để kiểm tra (và một số như superuser và serverfault có các mẫu lớn tương tự để rút ra), vì vậy rất có lý khi đề xuất trong tương lai phân tích rằng tôi sử dụng một mẫu giữ để kiểm tra bất kỳ mối quan hệ.