Tôi có một số dữ liệu mà tôi đang chơi xung quanh; Để đơn giản, giả sử dữ liệu chứa thông tin về số lượng bài đăng mà một blogger đã viết so với số người đã đăng ký vào blog của người đó (đây chỉ là một ví dụ trang điểm).
Tôi muốn có được một số mô hình sơ bộ về mối quan hệ giữa # bài đăng so với # người đăng ký và khi xem biểu đồ log-log, tôi thấy như sau:
Điều này trông giống như một mối quan hệ tuyến tính thô (trên thang đo log-log) và nhanh chóng kiểm tra các phần dư dường như đồng ý (không có mẫu rõ ràng, không có độ lệch đáng chú ý so với phân phối bình thường):
Vì vậy, câu hỏi của tôi là: sử dụng mô hình tuyến tính này có ổn không? Tôi mơ hồ biết rằng có những vấn đề khi sử dụng hồi quy tuyến tính trên các lô log-log để ước tính phân phối luật công suất, nhưng dữ liệu của tôi không phải là phân phối xác suất theo luật công suất (đơn giản là thứ gì đó dường như theo dõi model, đặc biệt, không có gì cần tổng hợp thành 1), vì vậy tôi không chắc liệu các bài phê bình tương tự có được áp dụng hay không. (Có lẽ tôi đã sửa quá nhiều khi đề cập đến "log-log" và "hồi quy tuyến tính" trong cùng một câu ...) Ngoài ra, tất cả những gì tôi thực sự cố gắng là:
- Xem nếu có bất kỳ mẫu nào cho các blog có số dư dương so với các blog có số dư âm
- Đề xuất một số mô hình sơ bộ về cách người đăng ký có liên quan đến số lượng bài đăng.