Tôi thích quy tắc này:
Nếu bạn cần đường kẻ để hướng mắt (nghĩa là thể hiện xu hướng mà không có đường kẻ sẽ không thể nhìn thấy rõ ràng), bạn không nên đặt đường kẻ.
Con người cực kỳ giỏi trong việc nhận ra các mẫu (chúng ta thay vì nhìn thấy các xu hướng không tồn tại hơn là bỏ lỡ một xu hướng hiện có). Nếu chúng ta không thể có được xu hướng mà không có dòng, chúng ta có thể khá chắc chắn rằng không có xu hướng nào có thể được kết luận một cách thuyết phục trong tập dữ liệu.
Nói về biểu đồ thứ hai, dấu hiệu duy nhất về độ không đảm bảo của các điểm đo của bạn là hai hình vuông màu đỏ C: O 1.2 ở 700 ° C. Sự lây lan của hai điều này có nghĩa là tôi sẽ không chấp nhận, vd
- rằng có một xu hướng nào cho C: O 1.2
- có sự khác biệt giữa 2.0 và 3.6
- và chắc chắn các mô hình cong đang tràn ngập dữ liệu.
mà không có lý do rất tốt được đưa ra. Điều đó, tuy nhiên, một lần nữa sẽ là một mô hình.
chỉnh sửa: trả lời bình luận của Ivan:
Tôi là nhà hóa học và tôi nói rằng không có phép đo nào mà không có lỗi - những gì được chấp nhận sẽ phụ thuộc vào thí nghiệm và dụng cụ.
Câu trả lời này không chống lại việc hiển thị lỗi thử nghiệm mà là tất cả để hiển thị và tính đến nó.
Ý tưởng đằng sau lý luận của tôi là biểu đồ hiển thị chính xác một phép đo lặp lại, vì vậy khi thảo luận về mức độ phức tạp của một mô hình (ví dụ: đường ngang, đường thẳng, bậc hai, ...) điều này có thể cho chúng ta ý tưởng về phép đo lỗi. Trong trường hợp của bạn, điều này có nghĩa là bạn sẽ không thể phù hợp với một bậc hai có ý nghĩa (spline), ngay cả khi bạn có một mô hình cứng (ví dụ phương trình nhiệt động hoặc động học) cho thấy rằng nó nên là bậc hai - bạn chỉ không có đủ dữ liệu .
Để minh họa điều này:
df <-data.frame (T = c ( 700, 700, 800, 900, 700, 800, 900, 700, 800, 900),
C.to.O = factor (c ( 1.2, 1.2, 1.2, 1.2, 2 , 2 , 2 , 3.6, 3.6, 3.6)),
tar = c (21.5, 18.5, 19.5, 19, 15.5, 15 , 6 , 16.5, 9, 9))
Đây là sự phù hợp tuyến tính cùng với khoảng tin cậy 95% cho từng tỷ lệ C: O:
ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () +
stat_smooth (method = "lm") +
facet_wrap (~C.to.O)
Lưu ý rằng đối với các tỷ lệ C: O cao hơn, khoảng tin cậy nằm trong khoảng dưới 0. Điều này có nghĩa là các giả định ngầm định của mô hình tuyến tính là sai. Tuy nhiên, bạn có thể kết luận rằng các mô hình tuyến tính cho nội dung C: O cao hơn đã quá phù hợp.
Vì vậy, lùi lại và chỉ khớp một giá trị không đổi (nghĩa là không phụ thuộc T):
ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () +
stat_smooth (method = "lm", formula = y ~ 1) +
facet_wrap (~C.to.O)
Phần bổ sung là mô hình không phụ thuộc vào C: O:
ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) +
stat_smooth (method = "lm", formula = y ~ x)
Tuy nhiên, khoảng tin cậy sẽ bao gồm một đường ngang hoặc thậm chí hơi tăng dần.
Bạn có thể tiếp tục và thử, ví dụ: cho phép các độ lệch khác nhau cho ba tỷ lệ C: O, nhưng sử dụng độ dốc bằng nhau.
Tuy nhiên, đã có thêm vài phép đo sẽ cải thiện đáng kể tình hình - lưu ý khoảng tin cậy của C: O = 1: 1 hẹp hơn bao nhiêu, trong đó bạn có 4 phép đo thay vì chỉ 3.
Kết luận: nếu bạn so sánh quan điểm của tôi về những kết luận mà tôi nghi ngờ, thì họ đã đọc quá nhiều vào một vài điểm có sẵn!