Những gì bạn cần là một đánh giá vững chắc về phương pháp hồi quy. Tuy nhiên, những câu hỏi này đủ cơ bản (đừng hiểu sai) rằng ngay cả một tổng quan tốt về thống kê cơ bản cũng có thể có lợi cho bạn. Howell đã viết một cuốn sách giáo khoa rất phổ biến cung cấp một nền tảng khái niệm rộng lớn mà không đòi hỏi toán học dày đặc. Nó có thể là giá trị thời gian của bạn để đọc nó. Không thể bao gồm tất cả các tài liệu đó ở đây. Tuy nhiên, tôi có thể cố gắng giúp bạn bắt đầu với một số câu hỏi cụ thể của bạn.
Đầu tiên, các ngày trong tuần được đưa vào thông qua sơ đồ mã hóa. Phổ biến nhất là mã hóa 'loại tham chiếu' (thường được gọi là mã hóa giả). Hãy tưởng tượng rằng dữ liệu của bạn được biểu diễn trong một ma trận, với các trường hợp của bạn trong các hàng và các biến của bạn trong các cột. Trong sơ đồ này, nếu bạn có 7 biến phân loại (ví dụ: trong các ngày trong tuần), bạn sẽ thêm 6 cột mới. Bạn sẽ chọn một ngày làm danh mục tham khảo, thường là danh mục được coi là mặc định. Thông thường điều này được thông báo bằng lý thuyết, bối cảnh hoặc câu hỏi nghiên cứu. Tôi không biết cái nào sẽ tốt nhất cho các ngày trong tuần, nhưng nó cũng không thực sự quan trọng lắm, bạn chỉ có thể chọn bất kỳ cái cũ nào. Khi bạn có danh mục tham chiếu, bạn có thể gán các biến khác cho 6 biến mới của mình, sau đó bạn chỉ cần chỉ ra liệu biến đó có thu được cho từng trường hợp hay không. Ví dụ: giả sử bạn chọn Chủ nhật làm danh mục tham khảo, các cột / biến mới của bạn sẽ là Thứ Hai-Thứ Bảy. Mọi quan sát diễn ra vào thứ Hai sẽ được chỉ định bằng một1 in the Monday column, and a 0 elsewhere. The same would happen with observations on Tuesdays and so on. Note that no case can get a 1 in 2 or more columns, and that observations that took place on Sunday (the reference category) would have 0's in all of your new variables. There are many other coding schemes possible, and the link does a good job of introducing them. You can test to see if the day of the week matters by testing the nested model with all of the new 6 variables dropped vs. the full model with all 6 included. Note that you should not use the tests that are reported with standard output, as these are not independent and have intrinsic multiple comparison problems.
It has been a long time since I've looked at how Excel does statistics, and I don't remember it very clearly, so someone else may be able to help you more there. This page seems to have some information about the specifics of regression in Excel. I can tell you a little more about the statistics typically reported in regression output:
- An r-score that's close to 1 indicates that the value response variable can be almost completely determined by the values of the predictor variables. Clearly this would be a large effect, but it is not a-priori clear that this is 'good'--that is an entirely different and philosophically thorny issue.
- It is not clear what they mean by 'r', given that you are doing multiple regression (where r is not typically reported). 'r' is a measure of linear, bivariate association, that is, it applies to straight-line relationships between (only) 2 variables. It is possible to get an r-score between the predicted values from your model and the response values, however. In that case, you are using 2 variables (and if your model is appropriately specified, the relationship should be linear). This version is called the 'multiple r-score', but it's rarely discussed or reported by software.
- R-squared is simply the square of r (i.e., r×r); it is not the standard deviation. It will also tend towards 1 as the relationship becomes more determinitive, not 0. Thus, if you think an r close to 1 is 'good', you should think an R2 close to 1 is 'good' also. However, you should know that the multiple r (and multiple R2) is highly biased in multiple regression. That is, the more predictors you add to your model, the higher these statistics will go, whether there is any relationship or not. Thus you should be cautious about interpreting them.
- Sometimes output will list t-statistics for the individual predictors and an F-statistic for the model as a whole, in order to determine 'significance'. These are random variables that are computable by statistical tests and that have a known distribution when the degrees of freedom are specified.
- By comparing the realized value (that is, the value you found) against the known distribution, you can determine the probability of finding a value as extreme or more extreme than yours if the null hypothesis is true. That probability is the p-value.
- The t-value is used when you are testing only one parameter, whereas
the F-value can be used in testing multiple parameters (e.g., as I
discussed above regarding days of the week). The p-value associated
with the F is the probability that at least 1 parameter is
'significant'. Another way to think about it is, 'does the model
with all the parameters tested by the F included do a better job of
predicting the response than the null model'.
- I am guessing that what you call the 'significance F' is the F-value
that would need to be matched or exceeded for a test to be
'significant', presumably at the .05 level.
One last point that's worth emphasizing is that this process cannot be divorced from its context. To do a good job of analyzing data, you must keep your background knowledge and the research question in mind. I alluded to this above regarding the choice of the reference category. For example, you note that shoe size should not be relevant, but for the Flintstones it probably was! I just want to include this fact, because it often seems to be forgotten.