Có thể câu hỏi này có câu trả lời trong y học, nhưng có bất kỳ lý do thống kê nào tại sao chỉ số BMI được tính là không? Tại sao không ví dụ chỉ là ? Ý tưởng đầu tiên của tôi là nó có liên quan đến hồi quy bậc hai.
Mẫu dữ liệu thực (200 cá nhân có cân nặng, chiều cao, tuổi và giới tính):
structure(list(Age = c(18L, 21L, 17L, 20L, 19L, 53L, 27L, 22L,
19L, 27L, 19L, 20L, 19L, 20L, 42L, 17L, 23L, 20L, 20L, 19L, 20L,
19L, 19L, 18L, 19L, 15L, 19L, 15L, 19L, 21L, 60L, 19L, 17L, 23L,
60L, 33L, 24L, 19L, 19L, 22L, 20L, 21L, 19L, 19L, 20L, 18L, 19L,
20L, 22L, 20L, 20L, 27L, 19L, 22L, 19L, 20L, 20L, 21L, 16L, 19L,
41L, 54L, 18L, 23L, 19L, 19L, 22L, 18L, 20L, 19L, 25L, 18L, 20L,
15L, 61L, 19L, 34L, 15L, 19L, 16L, 19L, 18L, 15L, 20L, 20L, 20L,
20L, 19L, 16L, 37L, 37L, 18L, 20L, 16L, 20L, 36L, 18L, 19L, 19L,
20L, 18L, 17L, 22L, 17L, 22L, 16L, 24L, 17L, 33L, 17L, 17L, 15L,
18L, 18L, 16L, 20L, 29L, 24L, 18L, 17L, 18L, 36L, 16L, 17L, 20L,
16L, 43L, 19L, 18L, 20L, 19L, 18L, 21L, 19L, 20L, 23L, 19L, 19L,
20L, 24L, 19L, 20L, 38L, 18L, 17L, 19L, 19L, 20L, 20L, 21L, 20L,
20L, 42L, 17L, 20L, 25L, 20L, 21L, 21L, 22L, 19L, 25L, 19L, 40L,
25L, 52L, 25L, 21L, 20L, 41L, 34L, 24L, 30L, 21L, 27L, 47L, 21L,
16L, 31L, 21L, 37L, 20L, 22L, 19L, 20L, 25L, 23L, 20L, 20L, 21L,
36L, 19L, 21L, 16L, 20L, 18L, 21L, 21L, 18L, 19L), Height = c(180L,
175L, 178L, 160L, 172L, 172L, 180L, 165L, 160L, 187L, 165L, 176L,
164L, 155L, 166L, 167L, 171L, 158L, 170L, 182L, 182L, 175L, 197L,
170L, 165L, 176L, 167L, 170L, 168L, 163L, 155L, 152L, 158L, 165L,
180L, 187L, 177L, 170L, 178L, 170L, 170L, NA, 188L, 180L, 161L,
178L, 178L, 165L, 187L, 178L, 168L, 168L, 180L, 192L, 188L, 173L,
193L, 184L, 167L, 177L, 177L, 160L, 167L, 190L, 187L, 163L, 173L,
165L, 190L, 178L, 167L, 160L, 169L, 174L, 165L, 176L, 183L, 166L,
178L, 158L, 180L, 167L, 170L, 170L, 180L, 184L, 170L, 180L, 169L,
165L, 156L, 166L, 178L, 162L, 178L, 181L, 168L, 185L, 175L, 167L,
193L, 160L, 171L, 182L, 165L, 174L, 169L, 185L, 173L, 170L, 182L,
165L, 160L, 158L, 186L, 173L, 168L, 172L, 164L, 185L, 175L, 162L,
182L, 170L, 187L, 169L, 178L, 189L, 166L, 161L, 180L, 185L, 179L,
170L, 184L, 180L, 166L, 167L, 178L, 175L, 190L, 178L, 157L, 179L,
180L, 168L, 164L, 187L, 174L, 176L, 170L, 170L, 168L, 158L, 175L,
174L, 170L, 173L, 158L, 185L, 170L, 178L, 166L, 176L, 167L, 168L,
169L, 168L, 178L, 183L, 166L, 165L, 160L, 176L, 186L, 162L, 172L,
164L, 171L, 175L, 164L, 165L, 160L, 180L, 170L, 180L, 175L, 167L,
165L, 168L, 176L, 166L, 164L, 165L, 180L, 173L, 168L, 177L, 167L,
173L), Weight = c(60L, 63L, 70L, 46L, 60L, 68L, 80L, 68L, 55L,
89L, 55L, 63L, 60L, 44L, 62L, 57L, 59L, 50L, 60L, 65L, 63L, 72L,
96L, 50L, 55L, 53L, 54L, 49L, 72L, 49L, 75L, 47L, 57L, 70L, 105L,
85L, 80L, 55L, 67L, 60L, 70L, NA, 76L, 85L, 53L, 69L, 74L, 50L,
91L, 68L, 55L, 55L, 57L, 80L, 98L, 58L, 85L, 120L, 62L, 63L,
88L, 80L, 57L, 90L, 83L, 51L, 52L, 65L, 92L, 58L, 76L, 53L, 64L,
63L, 72L, 68L, 110L, 52L, 68L, 50L, 78L, 57L, 75L, 55L, 75L,
68L, 60L, 65L, 48L, 56L, 65L, 65L, 88L, 55L, 68L, 74L, 65L, 62L,
58L, 55L, 84L, 60L, 52L, 92L, 60L, 65L, 50L, 73L, 51L, 60L, 76L,
48L, 50L, 53L, 63L, 68L, 56L, 68L, 60L, 70L, 65L, 52L, 75L, 65L,
68L, 63L, 54L, 76L, 60L, 59L, 80L, 74L, 96L, 68L, 72L, 62L, 58L,
50L, 75L, 70L, 85L, 67L, 65L, 55L, 78L, 58L, 53L, 56L, 72L, 62L,
60L, 56L, 82L, 70L, 53L, 67L, 58L, 58L, 49L, 90L, 58L, 77L, 55L,
70L, 64L, 98L, 60L, 60L, 65L, 74L, 99L, 49L, 47L, 75L, 77L, 74L,
68L, 50L, 66L, 75L, 54L, 60L, 65L, 80L, 90L, 95L, 79L, 57L, 70L,
60L, 85L, 44L, 58L, 50L, 88L, 60L, 54L, 68L, 56L, 69L), Gender = c(1L,
1L, 1L, 1L, 1L, 1L, 2L, 1L, 1L, 2L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 2L, 1L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 2L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 1L, 1L, 2L, 1L, 2L,
2L, 1L, 1L, 1L, 2L, 2L, 1L, 2L, 1L, 1L, 1L, 2L, 1L, 1L, 2L, 2L,
1L, 1L, 1L, 2L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 1L, 1L, 1L, 2L,
1L, 2L, 1L, 2L, 2L, 1L, 2L, 1L, 1L, 1L, 1L, 2L, 1L, 2L, 2L, 1L,
2L, 1L, 1L, 2L, 1L, 1L, 2L, 1L, 1L, 1L, 2L, 1L, 2L, 2L, 1L, 1L,
1L, 2L, 1L, 1L, 1L, 1L, 2L, 2L, 1L, 2L, 1L, 2L, 1L, 1L, 2L, 1L,
1L, 2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 1L, 1L, 2L,
1L, 1L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 1L, 1L, 1L, 2L, 1L,
2L, 1L, 1L, 1L, 2L, 1L, 1L, 2L, 2L, 1L, 1L, 1L, 2L, 2L, 1L, 2L,
1L, 1L, 1L, 1L, 1L, 1L, 2L, 1L, 2L, 2L, 1L, 1L, 1L, 2L, 1L, 1L,
1L, 2L, 1L, 1L, 2L, 2L, 1L)), .Names = c("Age", "Height", "Weight",
"Gender"), row.names = 304:503, class = "data.frame")
library(MASS); rlm(log(Weight) ~ log(Height) + cut(Age, 3) + as.factor(Gender), data=y)
với rlm(Weight ~ Height + cut(Age, 3) + as.factor(Gender), data=y)
(và chẩn đoán cốt truyện cho cả hai sự phù hợp) để thấy hiệu quả nổi bật của việc sử dụng logarit: chúng thực sự ổn định và đối xứng với phần dư. Trong cả hai mô hình giới đều có ý nghĩa và tuổi tác cũng vậy; mối quan hệ với tuổi là phi tuyến. Điều rất thú vị là hệ số log (chiều cao) trong mô hình đầu tiên hiện ở khoảng thay vì . ( là dữ liệu của bạn với các giá trị bị thiếu đã bị xóa.) Tôi không thấy bất kỳ tương tác nào. 2.5y