Hồi quy dựa trên các ngày trong tuần


11

Tôi cần một chút giúp đỡ để đi đúng hướng. Đó là một thời gian dài kể từ khi tôi nghiên cứu bất kỳ số liệu thống kê và biệt ngữ dường như đã thay đổi.

Hãy tưởng tượng rằng tôi có một bộ dữ liệu liên quan đến xe hơi như

  • Thời gian hành trình từ thị trấn A đến thị trấn B
  • Khoảng cách từ thị trấn A đến thị trấn B
  • Kích thước động cơ
  • Cỡ giày của tài xế
  • Làm và mô hình xe
  • Ngày trong tuần

Tôi muốn dự đoán thời gian hành trình.

Tôi tưởng tượng có một mối tương quan mạnh mẽ giữa thời gian và khoảng cách và có lẽ là yếu hơn so với kích thước động cơ (và không có gì với kích cỡ giày). Có lẽ phân tích hồi quy bội / ANOVA là công cụ để sử dụng. Nhưng làm thế nào để tôi bao gồm ngày trong tuần, vì chỉ mã hóa nó là Chủ nhật = 1, Thứ hai = 2, v.v ... cảm thấy rất sai?

Ví dụ, đã sử dụng công cụ hồi quy của Excel, làm cách nào để diễn giải kết quả? Có lẽ nếu R gần 1 thì điều này là tốt (mặc dù nếu có nhiều mục dữ liệu thì có vẻ như nó có thể nhỏ nhưng vẫn rất đáng kể). Nhưng một số nguồn đề cập đến r-squared dường như là SD, vì vậy giá trị gần bằng 0 là tốt. Nó cũng hiển thị t Stat, P-value, F và Significance F, bất kể chúng có thể là gì. Bất cứ ai có thể đề nghị một nguồn tham khảo tốt?


2
Đối với hồ sơ, những câu hỏi này (về diễn giải hồi quy đầu ra) đã được hỏi trong một chủ đề khác ở đây , nhưng câu hỏi được đặt ra quá tệ đến nỗi nó không thu thập được bất kỳ câu trả lời hay nào. Đây là một câu hỏi cơ bản xứng đáng với câu trả lời "kinh điển", cơ bản nhưng kỹ lưỡng, rõ ràng và được giải thích rõ ràng.
whuber

Câu trả lời:


26

Những gì bạn cần là một đánh giá vững chắc về phương pháp hồi quy. Tuy nhiên, những câu hỏi này đủ cơ bản (đừng hiểu sai) rằng ngay cả một tổng quan tốt về thống kê cơ bản cũng có thể có lợi cho bạn. Howell đã viết một cuốn sách giáo khoa rất phổ biến cung cấp một nền tảng khái niệm rộng lớn mà không đòi hỏi toán học dày đặc. Nó có thể là giá trị thời gian của bạn để đọc nó. Không thể bao gồm tất cả các tài liệu đó ở đây. Tuy nhiên, tôi có thể cố gắng giúp bạn bắt đầu với một số câu hỏi cụ thể của bạn.

Đầu tiên, các ngày trong tuần được đưa vào thông qua sơ đồ mã hóa. Phổ biến nhất là mã hóa 'loại tham chiếu' (thường được gọi là mã hóa giả). Hãy tưởng tượng rằng dữ liệu của bạn được biểu diễn trong một ma trận, với các trường hợp của bạn trong các hàng và các biến của bạn trong các cột. Trong sơ đồ này, nếu bạn có 7 biến phân loại (ví dụ: trong các ngày trong tuần), bạn sẽ thêm 6 cột mới. Bạn sẽ chọn một ngày làm danh mục tham khảo, thường là danh mục được coi là mặc định. Thông thường điều này được thông báo bằng lý thuyết, bối cảnh hoặc câu hỏi nghiên cứu. Tôi không biết cái nào sẽ tốt nhất cho các ngày trong tuần, nhưng nó cũng không thực sự quan trọng lắm, bạn chỉ có thể chọn bất kỳ cái cũ nào. Khi bạn có danh mục tham chiếu, bạn có thể gán các biến khác cho 6 biến mới của mình, sau đó bạn chỉ cần chỉ ra liệu biến đó có thu được cho từng trường hợp hay không. Ví dụ: giả sử bạn chọn Chủ nhật làm danh mục tham khảo, các cột / biến mới của bạn sẽ là Thứ Hai-Thứ Bảy. Mọi quan sát diễn ra vào thứ Hai sẽ được chỉ định bằng một1 in the Monday column, and a 0 elsewhere. The same would happen with observations on Tuesdays and so on. Note that no case can get a 1 in 2 or more columns, and that observations that took place on Sunday (the reference category) would have 0's in all of your new variables. There are many other coding schemes possible, and the link does a good job of introducing them. You can test to see if the day of the week matters by testing the nested model with all of the new 6 variables dropped vs. the full model with all 6 included. Note that you should not use the tests that are reported with standard output, as these are not independent and have intrinsic multiple comparison problems.

It has been a long time since I've looked at how Excel does statistics, and I don't remember it very clearly, so someone else may be able to help you more there. This page seems to have some information about the specifics of regression in Excel. I can tell you a little more about the statistics typically reported in regression output:

  • An r-score that's close to 1 indicates that the value response variable can be almost completely determined by the values of the predictor variables. Clearly this would be a large effect, but it is not a-priori clear that this is 'good'--that is an entirely different and philosophically thorny issue.
  • It is not clear what they mean by 'r', given that you are doing multiple regression (where r is not typically reported). 'r' is a measure of linear, bivariate association, that is, it applies to straight-line relationships between (only) 2 variables. It is possible to get an r-score between the predicted values from your model and the response values, however. In that case, you are using 2 variables (and if your model is appropriately specified, the relationship should be linear). This version is called the 'multiple r-score', but it's rarely discussed or reported by software.
  • R-squared is simply the square of r (i.e., r×r); it is not the standard deviation. It will also tend towards 1 as the relationship becomes more determinitive, not 0. Thus, if you think an r close to 1 is 'good', you should think an R2 close to 1 is 'good' also. However, you should know that the multiple r (and multiple R2) is highly biased in multiple regression. That is, the more predictors you add to your model, the higher these statistics will go, whether there is any relationship or not. Thus you should be cautious about interpreting them.
  • Sometimes output will list t-statistics for the individual predictors and an F-statistic for the model as a whole, in order to determine 'significance'. These are random variables that are computable by statistical tests and that have a known distribution when the degrees of freedom are specified.
  • By comparing the realized value (that is, the value you found) against the known distribution, you can determine the probability of finding a value as extreme or more extreme than yours if the null hypothesis is true. That probability is the p-value.
  • The t-value is used when you are testing only one parameter, whereas the F-value can be used in testing multiple parameters (e.g., as I discussed above regarding days of the week). The p-value associated with the F is the probability that at least 1 parameter is 'significant'. Another way to think about it is, 'does the model with all the parameters tested by the F included do a better job of predicting the response than the null model'.
  • I am guessing that what you call the 'significance F' is the F-value that would need to be matched or exceeded for a test to be 'significant', presumably at the .05 level.

One last point that's worth emphasizing is that this process cannot be divorced from its context. To do a good job of analyzing data, you must keep your background knowledge and the research question in mind. I alluded to this above regarding the choice of the reference category. For example, you note that shoe size should not be relevant, but for the Flintstones it probably was! I just want to include this fact, because it often seems to be forgotten.


5
(+1) Excel actually can do multiple regression and has a command capable of producing a standard summary table. Given its historical tendency to be (very) sloppy with computing distributional values, the capability has to be viewed like Samuel Johnson's dog: "...a dog's walking on his hind legs. It is not done well; but you are surprised to find it done at all."
whuber

3

You end with lots of questions which requires "teaching" regression. Let me say that higher R^2 is better but there are caveats. R^2 always goes up as you add variables so you can artificially inflate it. Look at significance tests, look at residual diagnostics, etc. With respect to day of the week, Monday = 1, Tuesday = 2, etc. would not be the way to go. What you want are seasonal indicator variables: 0/1 if Monday, 0/1 if Tuesday, etc.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.