Hồi quy với dữ liệu sai lệch


11

Cố gắng tính toán số lượt truy cập từ nhân khẩu học và dịch vụ. Dữ liệu rất sai lệch.

Biểu đồ:

biểu đồ

lô qq (bên trái là nhật ký):

lô qq - bên phải là nhật ký

m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)

cityservicelà các biến nhân tố.

Tôi nhận được giá trị p thấp *** cho tất cả các biến, nhưng tôi cũng nhận được bình phương r thấp là 0,05. Tôi nên làm gì? Một mô hình khác sẽ làm việc, như số mũ hoặc một cái gì đó?


Vì những gì tôi nghĩ ban đầu là tần số cao thực sự là tần số twos cao, bạn có thể cho chúng tôi biết thêm một chút về quá trình tạo dữ liệu không? Mọi người đang sử dụng loại dịch vụ nào và "mục tiêu cuối cùng" của phân tích là gì? Bạn đang cố gắng dự đoán số lượng (số lượt truy cập), được cung cấp một tập hợp các đặc điểm (nghĩa là thước đo chất lượng dịch vụ)? Bạn có hoàn toàn cần phải giữ kết quả là số lượng cho mục đích trả lời câu hỏi nghiên cứu của bạn, hoặc bạn có thể thu gọn biến kết quả thành ít hơn, nhưng các loại lớn hơn không?
Hầu tước de Carabas

2
Bạn có dữ liệu đếm. Tìm kiếm trang web này cho hồi quy Poisson.
kjetil b halvorsen 2/12/2016

Câu trả lời:


10

Hồi quy tuyến tính không phải là lựa chọn đúng đắn cho kết quả của bạn, được đưa ra:

  1. Biến kết quả thường không được phân phối
  2. Biến kết quả bị giới hạn trong các giá trị mà nó có thể đảm nhận (dữ liệu đếm có nghĩa là các giá trị dự đoán không thể âm)
  3. Điều gì có vẻ là tần suất cao của các trường hợp với 0 lượt truy cập

Mô hình biến phụ thuộc giới hạn cho dữ liệu đếm

Chiến lược ước tính bạn có thể chọn được quyết định bởi "cấu trúc" của biến kết quả. Đó là, nếu biến kết quả của bạn bị giới hạn trong các giá trị mà nó có thể đảm nhận (nghĩa là nếu đó là biến phụ thuộc giới hạn ), bạn cần chọn một mô hình trong đó các giá trị dự đoán sẽ nằm trong phạm vi có thể cho kết quả của bạn. Mặc dù đôi khi hồi quy tuyến tính là một xấp xỉ tốt cho các biến phụ thuộc hạn chế (ví dụ, trong trường hợp logit / probit nhị phân), đôi khi không phải vậy. Nhập mô hình tuyến tính tổng quát . Trong trường hợp của bạn, vì biến kết quả là dữ liệu đếm, bạn có một số lựa chọn:

  1. Mô hình Poisson
  2. Mô hình nhị thức âm
  3. Mô hình Zero Inflated Poisson (ZIP)
  4. Mô hình nhị phân âm tính không phồng (ZINB)

Sự lựa chọn thường được xác định theo kinh nghiệm. Tôi sẽ thảo luận ngắn gọn về việc lựa chọn giữa các tùy chọn dưới đây.


Poisson so với nhị thức âm

θH0:θ=0H1:θ0θ

ZIP so với ZINB

Một sự phức tạp tiềm ẩn là lạm phát bằng không, có thể là một vấn đề ở đây. Đây là nơi mà các mô hình thổi phồng ZIP và ZINB xuất hiện. Sử dụng các mô hình này, bạn cho rằng quy trình tạo các giá trị 0 tách biệt với quy trình tạo ra các giá trị khác không. Cũng như trước đây, ZINB thích hợp khi kết quả có số 0 quá mức và quá mức, trong khi ZIP phù hợp khi kết quả có số 0 quá mức nhưng trung bình có điều kiện = phương sai có điều kiện. Đối với các mô hình có độ phồng bằng 0, ngoài các mô hình đồng biến bạn đã liệt kê ở trên, bạn sẽ cần phải nghĩ đến các biến có thể đã tạo ra các số 0 thừa mà bạn đã thấy trong kết quả. Một lần nữa, có các kiểm tra thống kê đi kèm với đầu ra của các mô hình này (đôi khi bạn có thể phải chỉ định chúng khi thực hiện lệnh) sẽ cho phép bạnθ

θH0:θ=0H1:θ0H0:Excess zeroes is not a result of a separate processH1:Excess zeroes is a result of a separate process


θθ

Cuối cùng, tôi không sử dụng R, nhưng IDRE tại trang ví dụ phân tích dữ liệu UCLA có thể hướng dẫn bạn điều chỉnh các mô hình này.

[Chỉnh sửa bởi một người dùng khác mà không đủ danh tiếng để nhận xét: Bài viết này giải thích lý do tại sao bạn không nên sử dụng thử nghiệm Vương để so sánh mô hình lạm phát bằng không và cung cấp giải pháp thay thế.

P. Wilson, đã sử dụng sai các thử nghiệm Vương cho các mô hình không lồng nhau để kiểm tra lạm phát bằng không. Kinh tế Thư, 2015, tập. 127, số C, 51-53 ]


đa số là 2 ~ lượt truy cập. Tất cả các hồ sơ đều có hơn 1 lượt truy cập
pxxd

Tôi đang nhận được các âm mưu qq tương tự cho cả glm của poisson và gamma, điều đó có ổn không?
pxxd

3
1. Biến kết quả không được phân phối thông thường không phải là cho mỗi gia nhập một đối số hợp lệ đối với hồi quy tuyến tính. Một tập hợp các giả định hồi quy đảm bảo các thuộc tính tốt của công cụ ước tính (chẳng hạn như tính nhất quán và tính chuẩn tiệm cận) không bao gồm tính quy tắc của biến kết quả (và thậm chí không phải là quy tắc sai số).
Richard Hardy

2

Hãy thử Mô hình tuyến tính tổng quát với phân phối Gamma. Nó có thể xấp xỉ biến phụ thuộc của bạn tốt vì nó dương và bằng 0 tại x = 0. Tôi đã sử dụng R và GLM với một số thành công trong trường hợp tương tự.


Visits d

1
Không, tôi tin rằng bạn không nên sử dụng liên kết nhật ký mà thay vào đó là liên kết danh tính. Nhưng trước tiên hãy kiểm tra xem chức năng gamma phù hợp với phân phối của bạn như thế nào.
Diego

0

Tất cả các giả định thống kê là về các lỗi từ một mô hình. Nếu bạn xây dựng một mô hình đơn giản bằng cách sử dụng 6 chuỗi chỉ báo phản ánh ngày trong tuần ... bạn sẽ bắt đầu thấy phân phối lỗi đẹp hơn nhiều. Tiến hành kết hợp các hiệu ứng hàng tháng và hiệu ứng ngày lễ (TRƯỚC, BẬT VÀ SAU) và việc phân phối lỗi sẽ trở nên đẹp hơn. Thêm các chỉ số ngày, tháng trong tuần, cuối tuần dài và mọi thứ thậm chí sẽ trở nên đẹp hơn.

Hãy xem phương pháp đơn giản để dự báo số lượng khách được cung cấp dữ liệu hiện tại và lịch sử/stats//search?q=user%3A3382+daily+data để đọc thêm thú vị.


1
Câu trả lời này dường như không liên quan đến câu hỏi thực sự được hỏi. Bạn có thể làm cho kết nối rõ ràng?
whuber

Tôi lấy DVISITS của anh ấy để đề xuất dữ liệu hàng ngày ... nếu không phải vậy thì tôi hủy bỏ câu trả lời của mình. Nếu nó thực sự có mặt cắt ngang .. thì có lẽ anh ta nên xem xét phân tầng dữ liệu theo các phân loại chính.
IrishStat
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.