Trình bày dữ liệu thực nghiệm


9

Tôi có một cuộc tranh luận với cố vấn của tôi về trực quan hóa dữ liệu. Ông tuyên bố rằng khi biểu diễn các kết quả thử nghiệm, các giá trị chỉ nên được vẽ bằng " điểm đánh dấu ", như được trình bày trong hình ảnh dưới đây. Trong khi các đường cong chỉ nên đại diện cho một " mô hình "

Markers.png

Mặt khác, tôi tin rằng một đường cong là không cần thiết trong nhiều trường hợp để tạo điều kiện dễ đọc, như thể hiện trong hình ảnh thứ hai dưới đây:

Lines.png

Tôi sai hay giáo sư của tôi? Nếu sau này là trường hợp, làm thế nào để tôi đi xung quanh để giải thích điều này với anh ta.


5
Các điểm là dữ liệu. Các đường cong mà bạn phù hợp với các điểm không phải là dữ liệu. Vì vậy, nếu mục đích của bạn là hiển thị dữ liệu ....

3
Như JeffE nói. Nói rõ hơn: các đường cong bạn vẽ một mô hình, bởi vì bạn đã giả định một hình dạng cụ thể khi vẽ chúng và bạn có một số lý do cho hình dạng này. Lý do này dựa trên một mô hình cụ thể.
gerrit

1
Tôi đã gửi yêu cầu di chuyển; điều này thực sự thuộc về crossvalidated, không phải ở đây.

2
Tôi nghĩ rằng nó có thể là chủ đề trên CrossValidated, nhưng nó chắc chắn cũng là chủ đề ở đây . Di chuyển chỉ nên được xem xét nếu nó lạc đề ở đây, (có những câu hỏi sẽ thuộc chủ đề trên hai trang web, điều đó không sao). Đó là một câu hỏi thực sự với câu trả lời hợp lệ, nó chắc chắn có liên quan đến nhiều học giả.

2
Biểu đồ thứ hai của bạn là đáng ngờ. Nếu bạn đã tham gia các điểm với các đường thẳng, bạn (có thể) có một đối số cho sự rõ ràng trực quan. Nhưng bằng cách sử dụng một đường cong, bạn cho rằng đỉnh của đường màu xanh là 740 ° và mức tối thiểu của đường màu tím là ở mức 840 °, mặc dù bạn không có dữ liệu thử nghiệm ở những nhiệt độ đó. Giới thiệu tối thiểu / tối đa bên ngoài dữ liệu đo là cờ đỏ.
Darren Cook

Câu trả lời:


10

Tôi thích quy tắc này:

Nếu bạn cần đường kẻ để hướng mắt (nghĩa là thể hiện xu hướng mà không có đường kẻ sẽ không thể nhìn thấy rõ ràng), bạn không nên đặt đường kẻ.

Con người cực kỳ giỏi trong việc nhận ra các mẫu (chúng ta thay vì nhìn thấy các xu hướng không tồn tại hơn là bỏ lỡ một xu hướng hiện có). Nếu chúng ta không thể có được xu hướng mà không có dòng, chúng ta có thể khá chắc chắn rằng không có xu hướng nào có thể được kết luận một cách thuyết phục trong tập dữ liệu.

Nói về biểu đồ thứ hai, dấu hiệu duy nhất về độ không đảm bảo của các điểm đo của bạn là hai hình vuông màu đỏ C: O 1.2 ở 700 ° C. Sự lây lan của hai điều này có nghĩa là tôi sẽ không chấp nhận, vd

  • rằng có một xu hướng nào cho C: O 1.2
  • có sự khác biệt giữa 2.0 và 3.6
  • và chắc chắn các mô hình cong đang tràn ngập dữ liệu.

mà không có lý do rất tốt được đưa ra. Điều đó, tuy nhiên, một lần nữa sẽ là một mô hình.


chỉnh sửa: trả lời bình luận của Ivan:

Tôi là nhà hóa học và tôi nói rằng không có phép đo nào mà không có lỗi - những gì được chấp nhận sẽ phụ thuộc vào thí nghiệm và dụng cụ.

Câu trả lời này không chống lại việc hiển thị lỗi thử nghiệm mà là tất cả để hiển thị và tính đến nó.

Ý tưởng đằng sau lý luận của tôi là biểu đồ hiển thị chính xác một phép đo lặp lại, vì vậy khi thảo luận về mức độ phức tạp của một mô hình (ví dụ: đường ngang, đường thẳng, bậc hai, ...) điều này có thể cho chúng ta ý tưởng về phép đo lỗi. Trong trường hợp của bạn, điều này có nghĩa là bạn sẽ không thể phù hợp với một bậc hai có ý nghĩa (spline), ngay cả khi bạn có một mô hình cứng (ví dụ phương trình nhiệt động hoặc động học) cho thấy rằng nó nên là bậc hai - bạn chỉ không có đủ dữ liệu .

Để minh họa điều này:

df <-data.frame (T      =         c ( 700,  700,  800, 900,  700, 800, 900, 700, 800, 900), 
                 C.to.O = factor (c ( 1.2,  1.2,  1.2, 1.2,  2  , 2  , 2  , 3.6, 3.6, 3.6)),
                 tar    =         c (21.5, 18.5, 19.5, 19,  15.5, 15 , 6  , 16.5, 9, 9))

Đây là sự phù hợp tuyến tính cùng với khoảng tin cậy 95% cho từng tỷ lệ C: O:

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm") + 
    facet_wrap (~C.to.O)

mô hình tuyến tính

Lưu ý rằng đối với các tỷ lệ C: O cao hơn, khoảng tin cậy nằm trong khoảng dưới 0. Điều này có nghĩa là các giả định ngầm định của mô hình tuyến tính là sai. Tuy nhiên, bạn có thể kết luận rằng các mô hình tuyến tính cho nội dung C: O cao hơn đã quá phù hợp.

Vì vậy, lùi lại và chỉ khớp một giá trị không đổi (nghĩa là không phụ thuộc T):

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm", formula = y ~ 1) + 
    facet_wrap (~C.to.O) 

không phụ thuộc T

Phần bổ sung là mô hình không phụ thuộc vào C: O:

ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) + 
    stat_smooth (method = "lm", formula = y ~ x) 

không phụ thuộc C: O

Tuy nhiên, khoảng tin cậy sẽ bao gồm một đường ngang hoặc thậm chí hơi tăng dần.

Bạn có thể tiếp tục và thử, ví dụ: cho phép các độ lệch khác nhau cho ba tỷ lệ C: O, nhưng sử dụng độ dốc bằng nhau.

Tuy nhiên, đã có thêm vài phép đo sẽ cải thiện đáng kể tình hình - lưu ý khoảng tin cậy của C: O = 1: 1 hẹp hơn bao nhiêu, trong đó bạn có 4 phép đo thay vì chỉ 3.

Kết luận: nếu bạn so sánh quan điểm của tôi về những kết luận mà tôi nghi ngờ, thì họ đã đọc quá nhiều vào một vài điểm có sẵn!


bạn làm cho điểm rất tốt. Tuy nhiên, trong kỹ thuật, lỗi thử nghiệm (độ không đảm bảo) là rất phổ biến và người ta cho rằng sai số tương đối 3 ~ 5% là chấp nhận được. Tôi vẫn được yêu cầu hiển thị kết quả MAX, MIN và AVG. Vì vậy, trong trường hợp của tôi, các điểm đánh dấu là cực trị và dòng là trung bình.
Ivan P.

ví dụ rất tốt và cực kỳ hữu ích (bạn khiến tôi quan tâm đến R). Vì vậy, tất nhiên điều đúng đắn cần làm là có được nhiều điểm dữ liệu hơn.
Ivan P.

12

Như JeffE nói: các điểm dữ liệu . Nói chung, tốt nhất là tránh thêm các đường cong càng nhiều càng tốt. Một lý do để thêm đường cong là nó làm cho biểu đồ đẹp hơn bằng mắt, bằng cách làm cho các điểm và xu hướng giữa các điểm dễ đọc hơn. Điều này đặc biệt đúng nếu bạn có ít điểm dữ liệu.

Tuy nhiên, có nhiều cách khác để hiển thị dữ liệu thưa thớt , có thể tốt hơn so với âm mưu phân tán. Một khả năng là một biểu đồ thanh, trong đó các thanh khác nhau có thể nhìn thấy nhiều hơn so với các điểm duy nhất của bạn. Mã màu (tương tự như những gì bạn đã có trong hình) sẽ giúp xem xu hướng trong từng chuỗi dữ liệu (hoặc chuỗi dữ liệu có thể được phân tách và được trình bày cạnh nhau trong các biểu đồ thanh riêng lẻ nhỏ hơn).

Cuối cùng, nếu bạn thực sự muốn thêm một số dòng giữa các biểu tượng của mình, có hai trường hợp:

  1. Nếu bạn mong đợi một mô hình nhất định có giá trị cho dữ liệu của bạn (tuyến tính, hài hòa, bất cứ điều gì), bạn nên điều chỉnh dữ liệu của mình trên mô hình, giải thích mô hình trong văn bản và nhận xét về thỏa thuận giữa dữ liệu và mô hình.

  2. Nếu bạn không có bất kỳ mô hình hợp lý nào cho dữ liệu, bạn không nên đưa các giả định bổ sung vào biểu đồ của mình. Cụ thể, điều này có nghĩa là bạn không nên bao gồm bất kỳ loại đường nào giữa các điểm của bạn ngoại trừ các đường eo biển. Các nội suy spline đẹp phù hợp với nội suy mà Excel (và các phần mềm khác) có thể vẽ là một lời nói dối . Không có lý do hợp lệ để dữ liệu của bạn tuân theo mô hình toán học cụ thể đó, vì vậy bạn nên bám vào các đoạn thẳng.

    Hơn nữa, trong trường hợp đó, thật tuyệt vời khi thêm từ chối trách nhiệm ở đâu đó trong chú thích hình, giống như các dòng chỉ là hướng dẫn cho con mắt.


2
Đây là lời khuyên tuyệt vời trừ đi nhận xét về các thanh phù hợp hơn. Đối với các cuộc thảo luận tương tự liên quan đến điều đó, hãy xem Đồ họa thay thế để xử lý các lô cốt truyện . Hãy tưởng tượng cốt truyện được OP liệt kê dưới dạng biểu đồ thanh cụm, có thể rất khó để hình dung xu hướng trên các phạm vi nhiệt độ. Một cách để làm cho các điểm dễ nhìn thấy hơn là xáo trộn chúng dọc theo trục x và công việc của Cleveland sẽ đề nghị chúng ta nên ưu tiên các điểm hơn cho các thanh.
Andy W

@Andy W, bạn có ý gì khi nói "jitter chúng dọc theo trục x"?
Ivan P.

1
@IvanP., Ý tôi là thay vì làm cho các điểm được cố định với giá trị cụ thể đó trên abscissa để di chuyển chúng sang bên phải hoặc bên trái một chút để các điểm không che phủ lẫn nhau. Rõ ràng từ phần còn lại của biểu đồ rằng họ thực sự đề cập đến các giá trị chính xác cho các nhóm trên trục x và jitter nhẹ sẽ không có tác dụng trong việc hình dung xu hướng giữa các giá trị.
Andy W

6

1-Giáo sư của bạn đang đưa ra một quan điểm hợp lệ.

2-Cốt truyện của bạn chắc chắn không làm tăng khả năng đọc IMHO.

3-Theo hiểu biết của tôi, đây không phải là diễn đàn phù hợp để hỏi loại câu hỏi này thực sự và bạn nên hỏi nó khi xác thực chéo.


Tôi muốn biết vấn đề về khả năng đọc là ở đâu và mọi đề xuất cải tiến đều được chào đón rất nhiều
Ivan P.

1

Đôi khi tham gia điểm có ý nghĩa, đặc biệt nếu chúng rất dày đặc.

Và sau đó nó có thể có ý nghĩa để nội suy (ví dụ với một spline ). Tuy nhiên, nếu nó là bất cứ thứ gì cao cấp hơn spline của thứ tự một (mà rõ ràng là nó chỉ là điểm tham gia), bạn cần phải đề cập đến nó.

Tuy nhiên, đối với trường hợp một vài điểm, hoặc một tá điểm, thì không phải vậy. Chỉ cần để lại các điểm như họ, với các điểm đánh dấu. Nếu bạn muốn khớp một đường (hoặc đường cong khác), đó là một mô hình. Bạn có thể thêm nó, nhưng phải rõ ràng - ví dụ: "dòng đại diện cho hồi quy tuyến tính phù hợp".


0

Tôi nghĩ rằng có những trường hợp người ta không đề xuất một mô hình rõ ràng, nhưng cần một số hướng dẫn cho mắt. Quy tắc của tôi sau đó là tránh các đường cong như bệnh dịch và bám vào các đường thẳng giữa các điểm liên tiếp của một chuỗi.

Đối với một, giả định này là rõ ràng hơn cho độc giả. Ngoài ra tính linh hoạt là tốt trong việc giữ độc giả tránh xa giả định xu hướng không được hỗ trợ bởi dữ liệu. Nếu ở tất cả, điều này chỉ làm nổi bật tiếng ồn và ngoại lệ.

Những thứ tôi cảnh giác là sử dụng chữ thảo (không nghiêm ngặt, không rõ ràng) sử dụng spline, quadratics, hồi quy, v.v ... Rất thường điều này làm cho dường như có những xu hướng không có. Một ví dụ điển hình về lạm dụng là các đường cong được vẽ bởi @Ivan. Với 3 điểm dữ liệu, tôi không nghĩ bất kỳ cực đại hay cực tiểu nào trong mô hình cơ bản là rõ ràng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.