Tôi muốn học ANOVA. Trước khi tôi bắt đầu tìm hiểu cách thuật toán hoạt động (những tính toán phải được thực hiện) và lý do tại sao nó hoạt động, trước tiên tôi muốn biết chúng ta thực sự giải quyết vấn đề gì với ANOVA, hoặc chúng ta cố gắng trả lời câu trả lời nào. Nói cách khác: đầu vào là gì và đầu ra của thuật toán là gì?
Tôi hiểu những gì chúng ta sử dụng như là một đầu vào. Chúng tôi có một bộ số. Mỗi số đi kèm với các giá trị của một hoặc nhiều biến phân loại (còn được gọi là "các yếu tố"). Ví dụ:
+------------+------------+-------+
| factor 1 | factor 2 | value |
+------------+------------+-------+
| "A" | "a" | 1.0 |
| "A" | "a" | 2.4 |
| "A" | "b" | 0.3 |
| "A" | "b" | 7.4 |
| "B" | "a" | 1.2 |
| "B" | "a" | 8.4 |
| "B" | "b" | 0.4 |
| "B" | "b" | 7.2 |
+------------+------------+-------+
Có đúng không khi nói rằng ANOVA tính toán giá trị p của giả thuyết null nói rằng không có ảnh hưởng của các yếu tố đến giá trị trung bình của các giá trị? Nói cách khác, chúng tôi cung cấp dữ liệu đã cho ở trên cho thuật toán và kết quả là chúng tôi có được giá trị p của giả thuyết null?
Nếu đó là trường hợp, chúng ta thực sự sử dụng biện pháp nào để tính giá trị p. Ví dụ, chúng ta có thể nói rằng, với giả thuyết null M có thể cao bằng mức được quan sát (hoặc thậm chí cao hơn) chỉ bằng cơ hội trong 1% trường hợp. M là gì?
Chúng tôi cũng không điều tra các yếu tố trong ANOVA riêng biệt? ANOVA có thể nói rằng yếu tố_1 có ảnh hưởng nhưng yếu tố_2 không? ANOVA có thể nói rằng, đối với một giá trị yếu tố nhất định tương ứng với giá trị "A", "B" và "C" không thể phân biệt được về mặt thống kê (ví dụ, có cùng giá trị trung bình) nhưng giá trị "D" có ảnh hưởng không?