Hồi quy dữ liệu bao gồm một ngày


8

Tôi có một bộ dữ liệu chứa vài trăm giao dịch từ ba nhà cung cấp hoạt động tại hơn 100 quốc gia trong khoảng thời gian ba năm.

Chúng tôi đã thấy rằng quốc gia bán hàng không phải là một yếu tố quan trọng trong giá cả đạt được (các sản phẩm là hàng hóa toàn cầu ít nhiều). Tất cả giá đã giảm đáng kể theo thời gian. Bất kỳ một ngày nào cũng có thể có nhiều giao dịch ở các mức giá khác nhau từ cùng một nhà cung cấp (tức là ở các quốc gia khác nhau).

Tôi muốn kiểm tra xem có sự khác biệt có ý nghĩa thống kê về giá được tính bởi các nhà cung cấp khác nhau hay không.

Dữ liệu trông giống như thế này:

    Country X  1/1/2010  $200 Supplier A
    Country Y  1/1/2010  $209 Supplier A
    Country Z  1/1/2010  $187 Supplier A
    Country A  1/1/2010  $200 Supplier B
    Country X  1/2/2010  $188 Supplier B

Có ý tưởng nào để làm việc này không?.....


3
Phân tích dữ liệu theo chiều dọc là một lĩnh vực rộng lớn. Để đưa ra một câu trả lời tốt cho câu hỏi này, thông tin thêm về hiệu ứng mà bạn mong đợi thời gian có được là cần thiết. Không có điều này, không rõ câu trả lời bạn nhận được có tốt hay không (đây là lý do tại sao bạn nên làm rõ câu hỏi trước chứ không phải sau, bạn trả lời ...) . Tôi biết bạn đã nói giảm giá theo thời gian, nhưng có nhiều hơn thế không? Ví dụ, các phép đo lặp đi lặp lại trên cùng một quốc gia dự kiến ​​sẽ tương quan? Nếu vậy, cả hai câu trả lời hiện tại sẽ không làm những gì bạn cần.
Macro

1
Điểm tuyệt vời! @Macro Tôi mong đợi một số mối tương quan giữa nhiều điểm dữ liệu trong cùng một quốc gia (giá có thể hơi khó chịu). Ngoài ra, tôi đã chạy thử nghiệm durban-watson và thấy rằng phần dư được tự động hóa. Hình như cái này có thể vượt ra ngoài tôi. Có thể là thời gian để gọi trong một thống kê thực sự.
Tom

2
nếu bạn ở R, có các chức năng xử lý ngày và tôi sẽ không ngạc nhiên nếu R có thể xử lý dữ liệu như thế này một cách khá thanh lịch mà không cần bạn phải chỉ định nhiều hơn bạn thường xuyên. Xem cái này
bdeonovic

Bạn chắc chắn cần phải tính đến sự tương quan tự động vào tài khoản và kết hợp. Có vẻ như một phân tích chuỗi thời gian là theo thứ tự. +1 để nhận ra sự cần thiết phải đưa vào "một thống kê thực sự." Có rất nhiều nhà thống kê có uy tín có sẵn thông qua trang web của Hiệp hội Thống kê Hoa Kỳ và nhiều người có thể được tìm thấy tại các trường đại học địa phương.
StatsStudent

Câu trả lời:


2

Có vẻ như bạn cần sử dụng các phương pháp chuỗi thời gian, chẳng hạn như ARMA hoặc ARIMA, cho phép bạn tính toán hồi quy sử dụng thời gian như một biến độc lập mà không vi phạm giả định quan sát độc lập của OLS.

Bạn có thể muốn thử phân tích hai bước: - lần đầu tiên sử dụng như một biến dự báo duy nhất và sử dụng phương pháp chuỗi thời gian phù hợp - hai xem có sự khác biệt có ý nghĩa nào trong số dư giữa hai nhà cung cấp không. (Một bài kiểm tra t đơn giản có thể là đủ.)


0

Có một số cách. Một tùy chọn là chuyển đổi ngày thành ngày sau ngày đầu tiên. Ngoài ra, bạn có thể có thêm các biến số ngày trong tuần (xu hướng trong tuần) và tháng (để xem xu hướng trong những thời điểm nhất định trong năm). Bằng cách làm như vậy, bạn có thể sử dụng nhiều hồi quy.

Để có được biến "# ngày sau ngày đầu tiên", tôi tin rằng (cả excel và R) bạn chỉ cần trừ dữ liệu trước đó từ ngày sau và nhận chênh lệch ngày. Vì vậy, có thể thử trừ 1/1/2010 từ tất cả các ngày của bạn. Bạn cũng nên nói với R rằng giá trị mới là số bằng cách sử dụng as.numeric ()

EDIT: R dường như đọc trong năm đầu tiên, vì vậy bạn có thể phải loay hoay một chút về ngày tháng. xem điều này: /programming/2254986/how-to-subtract-days-in-r

Phân tích chuỗi thời gian là một cách tiếp cận khác, nhưng tôi không quá quen thuộc với nó.


0

Tôi có thể khuyên bạn nên sử dụng hàm phi tuyến tính cho biến thời gian vì giá giảm ít hơn với mỗi đơn vị thời gian bổ sung. Nếu không, giá cuối cùng sẽ giảm xuống dưới không. Hơn nữa, có thể có những giai đoạn khi xu hướng thay đổi. Vì vậy, tôi khuyên bạn nên sử dụng splines khối cho biến thời gian.

Kinh nghiệm thì thầm với tôi rằng tôi sẽ kiểm tra mô hình sau:
Y = country_parameter * price (t) * e

trong đó price (t) là một hàm, tốt nhất là spline hình khối, nhưng nó cũng có thể là bất cứ thứ gì, thậm chí là xu hướng tuyến tính. Lưu ý rằng có các dấu nhân, không phải tổng, trong mô hình.


-1

Chọn một ngày tham chiếu, giả sử 1/1/2010 và tạo một biến mới timelà sự khác biệt giữa ngày và ngày tham chiếu, trong đó sự khác biệt được tính trong, giả sử, ngày.

Bây giờ hãy chạy hồi quy tuyến tính (hoặc một cái gì đó tương tự) với timesuppliernhư hai biến dự đoán và pricelà biến trả lời.

Đây chỉ là một điểm khởi đầu.


4
Xin chào tôi đã làm điều này, nhưng nó có vi phạm một trong những giả định của hồi quy không? tức là các điểm là quan sát độc lập? cốt truyện còn lại có vẻ ổn.
Tom

2
Điểm tốt. Luôn luôn tốt khi nghi ngờ về đầu ra hồi quy tuyến tính, vì các giả định không bao giờ được đáp ứng 100%. Cụ thể, lỗi tiêu chuẩn có thể được đánh giá thấp hơn rất nhiều nếu phần dư có tương quan, như bạn đề xuất. Để kiểm tra tính độc lập, tùy chọn là sử dụng Thử nghiệm Durban Watson, như thế này: tc.umn.edu/~ryoox001/images/DurbinWatson_test.pdf
zkurtz

Điểm tuyệt vời! Tôi sẽ mong đợi một số mối tương quan giữa nhiều điểm dữ liệu trong cùng một quốc gia (giá có thể hơi khó chịu). Ngoài ra, tôi đã chạy thử nghiệm durban-watson và thấy rằng phần dư được tự động hóa. Hình như cái này có thể vượt ra ngoài tôi. @zkurtz Có thể là thời gian để gọi một nhà thống kê thực sự.
Tom

1
Đó là một quan niệm sai lầm rằng các quan sát hồi quy cần phải được iid. Các lỗi chỉ cần được sửa chữa và với phương sai không đổi. Nếu bất cứ điều gì, thêm một hiệu ứng cố định cho thời gian có thể giúp đảm bảo rằng điều kiện này được đáp ứng. Điều duy nhất có thể sai ở đây là quá mức và / hoặc mất độ chính xác do có quá nhiều tham số cho dữ liệu. Có lẽ đáng để chỉ ra rằng các phương trình cho các mô hình ARMA cố định (V) phù hợp giảm xuống OLS.
Shadowtalker

Để xử lý mối tương quan nối tiếp, có lẽ bạn sẽ muốn sử dụng phương pháp phân tích chuỗi thời gian hoặc tối thiểu là một mô hình hiệu ứng hỗn hợp hoặc GEE có khả năng xử lý tính chất tương quan của dữ liệu của bạn.
StatsStudent
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.