Làm thế nào tôi nên giải thích cốt truyện còn lại này?


8

Tôi không thể giải thích biểu đồ này. Biến phụ thuộc của tôi là tổng số vé xem phim sẽ được bán cho một chương trình. Các biến độc lập là số ngày còn lại trước khi chương trình, các biến giả theo mùa (ngày trong tuần, tháng trong năm, ngày lễ), giá, vé được bán cho đến ngày, xếp hạng phim, loại phim (phim kinh dị, hài, v.v. ). Ngoài ra, xin lưu ý rằng sức chứa của phòng chiếu phim là cố định. Đó là, nó chỉ có thể lưu trữ tối đa x số người. Tôi đang tạo ra một giải pháp hồi quy tuyến tính và nó không phù hợp với dữ liệu thử nghiệm của tôi. Vì vậy, tôi nghĩ đến việc bắt đầu với chẩn đoán hồi quy. Dữ liệu từ một phòng chiếu phim mà tôi muốn dự đoán nhu cầu.

Đây là một bộ dữ liệu đa biến. Đối với mỗi ngày, có 90 hàng trùng lặp, đại diện cho các ngày trước khi chương trình diễn ra. Vì vậy, cho ngày 1 tháng 1 năm 2016 có 90 hồ sơ. Có một biến 'chì_time' cho tôi số ngày trước khi chương trình diễn ra. Vì vậy, vào ngày 1 tháng 1 năm 2016, nếu chì_time có giá trị 5, điều đó có nghĩa là nó sẽ có vé được bán cho đến 5 ngày trước ngày hiển thị. Trong biến phụ thuộc, tổng số vé được bán, tôi sẽ có cùng giá trị 90 lần.

Ngoài ra, như một nhận xét phụ, có cuốn sách nào giải thích làm thế nào để giải thích cốt truyện còn lại và cải thiện mô hình sau đó không?

nhập mô tả hình ảnh ở đây


5
Bạn có thể nói bất cứ điều gì về tình huống của bạn, dữ liệu và mô hình không? Nếu không, làm thế nào chúng ta có thể giải thích biểu đồ?
gung - Phục hồi Monica

1
Mở rộng trục x ra (hoặc "phóng to"); Tôi tin rằng bạn sẽ thấy "lột xác" trong phần dư.
bôi đen

Nó trông giống như một phiên bản của stats.stackexchange.com/questions/25068 . Để cung cấp trả lời hữu ích, chúng tôi cần thêm chi tiết.
whuber

Có tổng số vé cố định có thể bán được không?
gung - Tái lập Monica

@gung, vâng, vì sức chứa của phòng chiếu phim là cố định, tức là số lượng ghế. Tôi đang thêm nó vào câu hỏi bây giờ, vì nó có thể giải thích câu hỏi tốt hơn. Cảm ơn!
Nhiệt tình

Câu trả lời:


4

Cốt truyện rất dày đặc nên không dễ để thấy tất cả các xu hướng có thể có. Bạn có thể chạy các xét nghiệm thay thế cho hetoroscedasticity và autocorrelation để có thêm chẩn đoán.

Điều có thể nhìn thấy là trong hơn 100 giá trị đầu tiên hoặc hơn, phương sai của phần tăng còn lại có thể gợi ý đến độ cứng của hetoroscedasticity. Sau đó, phương sai dường như giảm trở lại. Hành vi hơi phi tuyến tính này của phương sai cũng có thể chỉ ra sự cần thiết phải có một dạng hàm khác biệt (vì vậy có thể là đa thức thay vì tuyến tính). Một dấu hiệu khác cho điều này là xu hướng về số dư mà bạn quan sát được ở mức cao của các giá trị được trang bị (không còn bất kỳ số dư dương nào nữa).


Tính năng đa thức có vẻ là một ý tưởng hợp lý và lý do được đưa ra cho điều đó có ý nghĩa. Cảm ơn!
Nhiệt tình

Và vâng, có tự động cộng tuyến và tốc độ không đồng nhất trong dữ liệu mà tôi đang cố gắng khắc phục ngay bây giờ.
Nhiệt tình

@Enthusiast Chúc mừng điều này đã giúp. Tôi sẽ tò mò bộ giải pháp cuối cùng dẫn đến việc giải quyết vấn đề này là gì (một khi bạn đã hoàn thành)
tomka

tôi thực sự đang sử dụng phương pháp chẩn đoán mô hình được đề xuất ở đây. stats.stackexchange.com/a/189116/68444
Người nhiệt tình

và đây là giai đoạn tiếp theo trong số liệu thống kê vấn đề của tôi.stackexchange.com/questions/235562/NH
Nhiệt tình

12

Biểu đồ còn lại của bạn có một mẫu xác định, với một số dòng có xu hướng đi xuống khi giá trị được trang bị tăng lên. Mô hình này có thể xảy ra nếu bạn không tính đến các hiệu ứng cố định / ngẫu nhiên trong mô hình của mình và các hiệu ứng cố định có tương quan với các biến giải thích. Hãy xem xét ví dụ sau:

set.seed(999)

N = 1000
num.groups = 10

alpha = runif(num.groups, -10, 10) #Fixed effects
beta = 10 #Slope parameter
group = sample(num.groups, N, replace = TRUE)

X = rnorm(N, mean = alpha[group], sd = 5) #Mean of X correlated with fixed effect
e = rnorm(N, sd = 1)
y = alpha[group] + X * beta + e

df = data.frame(group = as.factor(group), X, y)

m.no.fe = lm(y ~ X, data = df) #Not including group fixed effects
plot(m.no.fe, which = 1)

Điều này dẫn đến âm mưu còn lại / được trang bị sau đây: res_fited_nofe

Bạn có thể thấy một cái gì đó tương tự nếu, ví dụ, bạn đã lấy lại điểm SAT về thu nhập đầu vào cho một số trường trung học nhưng không bao gồm các hiệu ứng cố định ở trường trung học; mỗi trường sẽ có thu nhập cơ bản khác nhau (nghĩa là hiệu ứng cố định) và điểm SAT trung bình, có khả năng tương quan.

Bao gồm các hiệu ứng cố định nhóm, chúng tôi nhận được

m.fe = lm(y ~ group + X, data = df) #Now including fixed effects
plot(m.fe, which = 1)

cung cấp một âm mưu còn lại / được trang bị tốt hơn nhiều:

res_fited_fe


4
Điều này có thể đúng, nhưng chúng trông giống như những đường thẳng hoàn hảo với tôi. Tôi đoán rằng Y là một số đếm, hoặc một số 'thành công' trong số các thử nghiệm cố định (nghĩa là mô hình không chính xác). Chúng tôi sẽ không biết cho đến khi OP nói thêm về dữ liệu & mô hình.
gung - Phục hồi Monica

@tkmckenzie vậy ý ​​bạn là tôi cần tạo thêm biến trong mô hình?
Nhiệt tình

6

Biểu đồ dư có vẻ khác thường theo quan điểm của hồi quy OLS (tuyến tính) tiêu chuẩn. Ví dụ, có một dấu hiệu của sự không đồng nhất, cụ thể là sự lan rộng của phần dư ở giữa lớn hơn ở hai đầu. Đây không phải là vấn đề thực sự, tuy nhiên.

Vấn đề thực sự ở đây là bạn đã phù hợp với mô hình sai. Hồi quy OLS dựa trên giả định rằng phản hồi thường được phân phối (có điều kiện trên các biến hồi quy, tức là các biến của bạn ). Phản ứng của bạn là không bình thường, và không thể. Phản hồi của bạn là một số ghế được bán hết trong tổng số ghế trong rạp. Phản ứng của bạn là nhị thức . Một nhị thức không thể được mô hình hóa chính xác với OLS. Bạn cần phải phù hợp với một mô hình hồi quy logistic . X

Sẽ có một số vấn đề bổ sung mà bạn sẽ cần phải giải quyết. Một cặp đôi rõ ràng từ mô tả của bạn là bạn có các quan sát cụm, theo nghĩa là bạn có nhiều quan sát cho cùng một chương trình (nghĩa là trong hơn 90 ngày). Bạn cần giải quyết vấn đề không độc lập này, có lẽ bằng cách lắp GLMM . Một vấn đề khác là sẽ có sự phụ thuộc giữa các ngày liên tiếp trong cùng một chương trình. Rốt cuộc, nếu bạn đã bán vé vào ngày , bạn sẽ bán được ít nhất số đó vào ngày . Một cách để cố gắng giải quyết vấn đề này là chỉ phù hợp với 89 ngày dữ liệu và bao gồm số của ngày hôm trước dưới dạng đồng biến. d d + 1yddd+1 (Xin lỗi, khi đọc lại câu hỏi, tôi thấy bạn đã bao gồm một vé được bán cho đến ngày biến.)

Cũng có thể có nhiều vấn đề được giải quyết trong việc mô hình hóa dữ liệu của bạn. Đây là những chủ đề khá tiên tiến; nếu bạn không quen thuộc với họ, bạn có thể cần làm việc với một nhà tư vấn thống kê.


Dữ liệu của tôi có phân phối gamma khi nó xuất hiện từ kết quả của fitdistrplus () và qqplot (). stats.stackexchange.com/questions/234866/ Mạnh
Nhiệt tình

@Enthusiast, tôi quen w / fitdistrplus. Nếu dữ liệu phản hồi của bạn là một số ghế được bán ra trong tổng số ghế có thể, thì chúng là nhị thức. Đó là tất cả để có nó. Các phân phối gamma được hỗ trợ trên . Dữ liệu của bạn có thể có ghế được bán, không thể có ghế được bán và không thể có nhiều ghế được bán hơn so với tồn tại trong rạp chiếu phim. Dữ liệu của bạn không thể là gamma. 0 3,5(0,)03.5
gung - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.