Có phải bản đồ nhiệt là một trong những loại hình ảnh dữ liệu kém hiệu quả nhất?


22

Câu hỏi: Khi nào (đối với loại vấn đề trực quan hóa dữ liệu) bản đồ nhiệt hiệu quả nhất? (Đặc biệt, hiệu quả hơn tất cả các kỹ thuật hình dung có thể khác?)

Khi nào bản đồ nhiệt kém hiệu quả nhất?

Có bất kỳ mô hình hoặc quy tắc chung nào mà người ta có thể sử dụng để quyết định xem bản đồ nhiệt có khả năng là một cách hiệu quả để trực quan hóa dữ liệu hay không và khi nào chúng có thể không hiệu quả?

(Chủ yếu tôi có trong đầu các bản đồ nhiệt cho 2 biến phân loại và 1 biến liên tục, nhưng tôi cũng thích nghe về các ý kiến ​​liên quan đến các loại bản đồ nhiệt khác.)

Bối cảnh: Tôi đang tham gia một khóa học trực tuyến về trực quan hóa dữ liệu và hiện tại họ đang thảo luận về các loại cốt truyện không hiệu quả và được sử dụng quá mức. Họ đã đề cập đến các biểu đồ nổ và biểu đồ hình tròn, và những lý do được đưa ra cho lý do tại sao chúng không hiệu quả và tại sao có những lựa chọn thay thế tốt hơn cho chúng là rõ ràng và thuyết phục tôi. Hơn nữa, thật dễ dàng để tìm thấy các nguồn khác chứng thực các ý kiến ​​đã cho về các biểu đồ nổ và biểu đồ hình tròn.

Tuy nhiên, khóa học cũng nói rằng "bản đồ nhiệt là một trong những loại trực quan hóa dữ liệu kém hiệu quả nhất". Một diễn giải về lý do tại sao được đưa ra dưới đây. Nhưng khi tôi cố gắng tìm những nơi khác trên Google chứng thực quan điểm này, tôi đã gặp rất nhiều khó khăn, ngược lại với việc tìm kiếm ý kiến ​​về hiệu quả của biểu đồ hình tròn và âm mưu nổ. Vì vậy, tôi muốn biết mức độ đặc trưng của các bản đồ nhiệt được đưa ra trong khóa học là hợp lệ và khi nào các yếu tố chống lại chúng là ít quan trọng nhất và quan trọng nhất đối với một bối cảnh nhất định.

Những lý do được đưa ra là:

  1. Rất khó để ánh xạ màu lên một tỷ lệ liên tục.

    Có một số trường hợp ngoại lệ cho quy tắc này, vì vậy đây thường không phải là bộ ngắt thỏa thuận, nhưng trong trường hợp bản đồ nhiệt, vấn đề đặc biệt khó khăn, bởi vì nhận thức của chúng ta về màu sắc thay đổi tùy thuộc vào màu sắc lân cận. Do đó bản đồ nhiệt không phù hợp để xem kết quả riêng lẻ, ngay cả trong các tập dữ liệu nhỏ. Điều này dẫn đến:

  2. Trả lời các câu hỏi cụ thể bằng phương pháp tra cứu bảng nói chung là không khả thi, vì không thể suy ra đủ chính xác giá trị số tương ứng với một màu nhất định.

  3. Thông thường dữ liệu không được nhóm lại theo cách như vậy để đưa ra xu hướng.

    Nếu không có cụm như vậy, thường rất khó hoặc không thể suy ra bất cứ điều gì về các mẫu tổng thể chung.

  4. Bản đồ nhiệt thường chỉ được sử dụng để giao tiếp với "yếu tố wow" hoặc chỉ để trông thật ngầu, đặc biệt là khi sử dụng gradient nhiều màu, nhưng thường có những cách tốt hơn để truyền dữ liệu.

Vẽ dữ liệu liên tục theo thang điểm chung luôn là lựa chọn tốt nhất. Nếu có một thành phần thời gian, sự lựa chọn rõ ràng nhất là một biểu đồ đường.


15
Những lời chỉ trích về "bản đồ nhiệt" đã đi đến dòng cuối cùng của (4): chính xác những "cách tốt hơn" này để giao tiếp là gì? (Nếu không có cách nào tốt hơn, thì (1) - (3) hiếm khi có liên quan.) Nếu mục đích theo nghĩa đen là truyền đạt dữ liệu , thì rõ ràng có nhiều cách tốt hơn: ghi lại các con số. Tuy nhiên, mục đích của trực quan hóa là hiếm khi truyền đạt dữ liệu: thay vào đó, nó là để hỗ trợ cho việc giải thích hoặc gửi tin nhắn. Những nguồn giải thích nào mà nguồn của bạn có trong tâm trí và những gì nó tuyên bố là cách tốt hơn để trình bày những diễn giải đó?
whuber

4
@whuber Là một bổ sung cho điều đó - một điều rất hay về bản đồ nhiệt là trong nhiều trường hợp, thật dễ dàng để bổ sung chúng bằng cách hiển thị dữ liệu thô (có lẽ được làm tròn phù hợp) trực tiếp trên mỗi ô. Ngay cả việc sử dụng định dạng có điều kiện cho màu nền của các ô trên bảng tính là một "bản đồ nhiệt" rất hiệu quả và rất phổ biến, trong đó bối cảnh rất khó để thấy chúng có thể được cải thiện như thế nào.
Cá bạc

2
Nhận xét của tôi chỉ liên quan đến phê bình 1. Đúng là màu sắc (màu sắc) không ánh xạ tới một thang đo theo thứ tự tâm lý mặc dù nó thực sự (chiều dài sóng). Tuy nhiên, bằng cách thêm một kích thước dự phòng như độ sáng có thể khiến chúng dễ hiểu hơn. Bạn có thể có màu tối cao hơn ánh sáng nhưng sử dụng các màu như xanh nhạt và đỏ đậm.
David Lane

2
Phụ thuộc vào bối cảnh. Đây là một ví dụ tuyệt vời về thông tin có giá trị, có thể thực hiện được từ bản đồ nhiệt mà tôi không thể nghĩ ra loại hình trực quan dữ liệu nào tiện lợi hoặc hữu ích hơn.
Jason C

5
Màu sắc là không cần thiết (và, thừa nhận, được chọn kém - đó chỉ là bản màu hình ảnh mặc định trong R), nhưng đây là một ví dụ về trò chơi Minesweeper mà tôi đã làm việc cách đây vài năm. Tôi tìm thấy bản đồ nhiệt ngay lập tức chiếu sáng ở chỗ nó cho thấy cấu trúc về vấn đề trở nên rõ ràng bằng trực giác một khi bạn nhìn thấy nó và suy nghĩ về nó trong giây lát, nhưng điều đó không rõ ràng ngay lập tức (đối với hầu hết mọi người) trước khi nhìn thấy cốt truyện.
Đức hồng y

Câu trả lời:


15

Không có thứ gọi là cốt truyện "tốt nhất" cho cái này hay cái kia. Cách bạn vẽ dữ liệu của bạn phụ thuộc vào thông điệp bạn muốn truyền tải. Các lô thường được sử dụng có lợi thế là người dùng có nhiều khả năng đọc chúng hơn. Tuy nhiên, điều đó không có nghĩa là chúng nhất thiết phải là sự lựa chọn tốt nhất.

Về bản đồ nhiệt, tôi đã ra lệnh phản ứng của mình bằng các lập luận được cho là chống lại chúng.

Quảng cáo 1) Nếu bạn không tin tưởng màu sắc như một kênh mã hóa, thay vào đó, hãy sử dụng độ sáng, với tỷ lệ bao gồm các tông màu "màu" từ xám đậm đến xám nhạt. Thông thường, bạn muốn bin các biến liên tục (cũng xem 5), vì vậy bạn có thể giữ số lượng màu thấp và giúp người dùng dễ dàng giải mã hơn. Đây không phải là một mặc dù. Hãy xem ví dụ này , trong đó biến liên tục không được đánh dấu.

Quảng cáo 2) Chắc chắn, chúng không nên được sử dụng thay thế để tra cứu các giá trị chính xác. Bản đồ nhiệt chủ yếu nên được sử dụng để minh họa các mẫu, không phải để thay thế các bảng.

Quảng cáo 3 + 4) Tôi không thấy điều này sẽ chỉ liên quan đến bản đồ nhiệt.

Quảng cáo 5) Bản đồ nhiệt là lý tưởng nhưng không nhất thiết phải được sử dụng với các biến rời rạc. Đối với các biến liên tục, bản đồ nhiệt có thể được sử dụng như một loại biểu đồ hai chiều hoặc biểu đồ thanh, với độ chính xác, cũng như độ sáng như một kênh mã hóa.


2
Câu trả lời tuyệt vời! Ngoại trừ tôi không biết "Quảng cáo" nghĩa là gì. Latin? Viết tắt?
xan

1
Cảm ơn! "Quảng cáo" có nghĩa là "trên" hoặc "liên quan", tôi đoán nó xuất phát từ tiếng Latin.
g3o2

Tôi chưa bao giờ thấy "quảng cáo" được sử dụng theo cách đó (cc, @xan). Từ mô tả của bạn, tôi nghĩ rằng tôi có thể sử dụng tốc độ .
gung - Phục hồi Monica

1
Ngoài ra, hãy nhớ sửa gamma bản đồ nhiệt dựa trên độ sáng của bạn.
dùng253751

3
@gung Không hẳn, IMO. Nó không có ý nghĩa, không giống như tốc độ - nó chỉ có nghĩa là ngoài ra, phụ lục, liên quan đến, như ... Không đề cập đến nó là phổ quát ở phương Tây, đến từ tiếng Latin và được sử dụng rộng rãi trong thần học và tài liệu khoa học và chính trị, trong số những thứ khác. Trong hộp thoại (mail), hai bên sẽ sử dụng nó để tham chiếu các đối số cho mỗi điểm. Dường như nó đang rơi vào tình trạng hỗn loạn khi ngôn ngữ viết bị cắt xén. Việc thay thế thông thường chỉ là sử dụng "1.1" thay vì "Quảng cáo 1.1", điều này có thể hơi khó hiểu và có vẻ hơi thô lỗ đối với tôi, nhưng ồ.
Luaan

5

Ai đó không thể nói Bản đồ nhiệt là loại hình ảnh kém hiệu quả nhất. Tôi muốn nói rằng nó phụ thuộc vào yêu cầu của bạn. Trong một số trường hợp Bản đồ nhiệt rất hữu ích. Giả sử bạn phải làm một báo cáo về tội phạm ở một quốc gia thông thái (hoặc thành phố khôn ngoan). Ở đây bạn sẽ có một bộ dữ liệu khổng lồ có thể có phụ thuộc thời gian.

Tương tự, giả sử bạn phải chuẩn bị báo cáo về mức tiêu thụ điện cho các thành phố. Trong những trường hợp này, bạn có thể dễ dàng hình dung thông qua bản đồ nhiệt. Nó sẽ có ý nghĩa hơn và ít cồng kềnh hơn.

Vì vậy, một cách ngắn gọn, nếu bạn có nhiều dữ liệu liên tục và bạn muốn làm một báo cáo có thể xác định chính xác các câu trả lời thì bản đồ nhiệt là tốt nhất.


2
Đối với mức tiêu thụ năng lượng, thường không có âm mưu nào tốt hơn bản đồ nhiệt: argustech.be/wp-content/uploads/2012/04/heatmap.png Kết thúc tuần và giờ làm việc nhảy ngay vào người xem. Bạn có thể thấy tải cơ sở, bạn có thể thấy các đỉnh, bạn có thể thấy khi chúng xảy ra. Bạn có thể phát hiện bất kỳ mẫu lạ nào trong vài giây, ví dụ nếu một số thiết bị điện luôn bật hoặc bắt đầu quá sớm hoặc quá muộn.
Eric Duminil

4

Phê bình 1 trong câu hỏi ban đầu bao gồm nhược điểm lớn nhất - rằng rất khó để ai đó đọc bản đồ nhiệt để giải mã thông tin định lượng được truyền đạt. Xem xét một biểu đồ xy-scatter hoặc dấu chấm, trong đó đại lượng cơ bản có liên quan trực tiếp đến khoảng cách trên biểu đồ - rất đơn giản để giải thích.

Mặt khác, trong bản đồ nhiệt, người đọc biểu đồ có quyền tự do giải thích 10% 'đỏ hơn' hoặc 'tối hơn' cho sự hài lòng của chính họ. Trên hết là vấn đề về khả năng khác nhau của mọi người để phân biệt màu sắc và sắc thái để bắt đầu. Đây là những bất lợi thực sự, nhưng chúng không gây tử vong phổ biến.

Ngược lại, phê bình thứ ba dường như vô tình xác định một dịp khi bản đồ nhiệt đặc biệt hữu ích - khi dữ liệu được tập hợp trên mặt phẳng 2D để các giá trị tương tự trong chiều thứ ba hiển thị dưới dạng các mảng màu hoặc màu cụ thể. Vì vậy, trong khi một số bản đồ nhiệt không hiệu quả ở một số thứ, chúng hữu ích cho những thứ khác và chúng nên ở trong túi của bạn, giống như cách người chơi golf thường mang nêm hoặc tương tự mặc dù chúng vô dụng khi lái xe hoặc đặt, hoặc thợ mộc không coi thường búa vì chúng không tốt để cắt gỗ.

Trong dữ liệu trực quan chung nên được xem là hoạt động lặp đi lặp lại sẽ mất một thời gian khi bạn thử một số hình ảnh trực quan mang lại các tính năng quan trọng của dữ liệu, bao gồm thử nhiều hơn một loại trực quan hóa, sau đó thử nghiệm để tìm các cài đặt tốt nhất trong lựa chọn cụ thể. Cũng không nên giả định rằng kết quả sẽ là một hình ảnh trực quan - đôi khi một số hình ảnh trực quan của dữ liệu sẽ cần để làm nổi bật nhiều tính năng quan trọng của dữ liệu. Trong bối cảnh này, sẽ có những lúc đối với các tính năng cụ thể của các tập dữ liệu cụ thể, bản đồ nhiệt sẽ có hiệu quả nhất và các cụm giao tiếp như được mô tả có thể là một trong những thời điểm đó. Nhìn chung, sẽ có những dịp thường xuyên mà một hình ảnh trực quan không thể làm tất cả mọi thứ, và nhiều hơn một sẽ được yêu cầu.


3

Như đã nói ở trên bởi những người khác, thực sự không đúng khi nói rằng bản đồ nhiệt luôn không hiệu quả. Trên thực tế, chúng khá hiệu quả trong nhiều trường hợp.

Ví dụ: nếu bạn muốn trực quan hóa dữ liệu 4D, thì đủ đơn giản để thực hiện ba chiều đầu tiên trong nhiều phần mềm vẽ. Tuy nhiên, toàn bộ khái niệm 4D khá khó để khái niệm hóa. Hướng / chiều "thứ 4" là gì?

Đó là nơi bản đồ nhiệt có thể có hiệu quả, bởi vì nó sẽ cho phép vẽ ba chiều đầu tiên trên trục tọa độ và thứ tư có thể được hình dung bằng cách xếp bản đồ nhiệt lên mặt phẳng được vẽ của bạn (hoặc đường, nhưng ít có khả năng hơn).

Điểm mấu chốt là bạn cần bối cảnh. Bạn đang tìm kiếm gì trong hình dung của bạn? Ngoài ra, là một giáo viên tự học, tôi có thể nói với bạn rằng các khóa học trực tuyến này có xu hướng rất tầm thường và không có ích. Bạn sẽ tốt hơn nhiều khi chỉ sử dụng chúng khi bạn đang tìm kiếm thông tin / trợ giúp về các chủ đề cụ thể thay vì tìm kiếm để được dạy về toàn bộ một chủ đề.

Dù sao thì cũng may mắn nhất.


3

Về bản chất, bản đồ nhiệt hiển thị dữ liệu với hai biến độc lập liên tục (hoặc, không hoàn toàn tương đương, một biến độc lập từ không gian vectơ hai chiều) và một biến phụ thuộc liên tục. Đối với dữ liệu thuộc loại đó, bản đồ nhiệt chắc chắn là một trong những loại trực quan hóa dữ liệu hiệu quả nhất . Vâng, nó có vấn đề của nó, nhưng đó là điều không thể tránh khỏi: bạn thực sự chỉ có hai chiều để làm việc và một không gian ba chiều thể được ánh xạ tới đó theo cách bảo tồn cấu trúc , do đó bạn cần một bản hack như ánh xạ một chiều thành màu hoặc vẽ đường đồng mức, v.v.

R2X×Y của hai không gian riêng biệt thực sự là đồng nhất với bất kỳ không gian nào của cardinality|X||Y|, là hữu hạn cho một biến phân loại - nói cách khác, sản phẩm cartesian của hai biến phân loại có thể được coi là một biến phân loại duy nhất ! Và trong ánh sáng đó, bạn cũng có thể sử dụng các lô khác, không có vấn đề về bản đồ nhiệt.

Nếu bạn thấy mình trong một tình huống mà bản đồ nhiệt trên hai biến phân loại có vẻ hữu ích, thì đó là một dấu hiệu cho thấy đây có thể không phải là các biến phân loại thực sự, mà là các biến liên tục được lượng tử hóa.


4
Câu trả lời này rất thú vị, nhưng tôi nghĩ đưa ra sự rút ngắn cho khái niệm sử dụng bản đồ nhiệt với các biến phân loại. Ví dụ, người ta có thể xếp hạng các mức phân loại theo số lượng của chúng (hoặc một số biến sắp xếp có liên quan khác) và sau đó sử dụng bản đồ nhiệt để trực quan hóa phân phối chung hoặc một số đại lượng khác thay đổi theo cấp độ phân loại chung. Điều này có thể được gắn với các công thức (và các khái niệm tổng quát về chúng). Hình dung như vậy, khi được thực hiện tốt, có thể tiết lộ cấu trúc thực trong dữ liệu mà rất khó phát hiện. (...)
Đức hồng y

(...) Và, một cách tiếp cận như vậy không phụ thuộc vào bất kỳ khái niệm (trực tiếp) nào về việc đưa các cấp độ phân loại vào không gian Euclide.
Đức hồng y

Tôi đã tự hỏi nếu bạn có bất kỳ nhận xét nào về việc sử dụng bản đồ nhiệt cho dữ liệu biểu hiện gen / microarray sau đó - chúng có vẻ giống như các trường hợp sử dụng bản đồ nhiệt cho 2 biến phân loại và một biến liên tục mà các biến phân loại không thể thực sự là được hiểu là các biến liên tục được lượng tử hóa. Hoặc tôi đoán bản đồ nhiệt cho ma trận tương quan của các biến phân loại nói chung.
Chill2Macht

3

Bản đồ nhiệt rất tốt trong việc cung cấp một cái nhìn đơn giản về nhiều biến số theo quan điểm chuỗi thời gian - dữ liệu có thể thay đổi tuyệt đối theo thời gian hoặc được chuẩn hóa bằng cách sử dụng điểm Z hoặc các phương tiện khác để kiểm tra các biến với các khoảng đo khác nhau hoặc thay đổi tương đối của các nhóm con. Nó cung cấp một cái nhìn rất dễ nhận thấy rằng người ta có thể phát hiện ra các mối tương quan - hoặc đảo ngược và thay thế vô số đồ thị. Chúng cũng có thể được sử dụng trong quá trình tiền xử lý để đánh giá khả năng giảm kích thước có thể xảy ra - tức là Bao thanh toán hoặc PCA.

Các biến can thiệp xấu và các yếu tố khác có thể bị ẩn đi và được thông qua khi sử dụng phương pháp này để phát hiện mối tương quan. Các khía cạnh ẩn tương tự cũng xảy ra với biểu đồ đường - tuy nhiên với số lượng biến lớn - kinh nghiệm của tôi là bản đồ nhiệt mang lại nhiều thông tin đến mức người dùng không xem xét các khía cạnh can thiệp cũng như các yếu tố ẩn khác.

Điều này từ một nhà khoa học dữ liệu từ quan điểm kinh tế học tiến bộ với 20 năm trong lĩnh vực sản xuất dữ liệu và được giao nhiệm vụ giáo dục công chúng với dữ liệu đó.


1

Heatmap là lợi thế so với các biểu đồ phân tán khi có quá nhiều điểm dữ liệu để xem trên biểu đồ phân tán. Điều này có thể được giảm thiểu trong một biểu đồ phân tán bằng cách sử dụng các điểm dữ liệu mờ nhưng vượt quá một ngưỡng nhất định, việc tóm tắt dữ liệu sẽ trở nên tốt hơn.

Trong blog này, một ví dụ hấp dẫn về các biểu đồ phân tán khó diễn giải được đưa ra.

Một biểu đồ phân tán chỉ có thể biểu thị trực quan mật độ lên đến một ngưỡng nhất định - ngưỡng "điểm ở mọi nơi" ...

Mật độ lô, không điểm

Giải pháp là vẽ biểu đồ mật độ điểm đã đánh dấu chứ không phải chính điểm đó. Chúng ta đã biết phương pháp này trong một chiều là biểu đồ.

Trong hai chiều, có nhiều cách để làm điều đó. Các hình dạng thùng có thể được lấy từ bất kỳ phương pháp ốp lát đồng đều mặt phẳng, chẳng hạn như hình vuông hoặc hình lục giác. Đối với mỗi ô, số lượng điểm dữ liệu bên trong ô được tính. Gạch sau đó được chỉ định một màu theo số điểm.

Một tuyên bố tương tự từ các tài liệu ggplot2 trên sơ đồ nhiệt của số lượng thùng 2d :

Đây là một thay thế hữu ích cho geom_point()sự hiện diện của quá mức.

Trong các tài liệu của geom_point():

Quá mức

Vấn đề tiềm năng lớn nhất với một biểu đồ phân tán là quá mức: bất cứ khi nào bạn có nhiều hơn một vài điểm, các điểm có thể được đặt lên nhau. Điều này có thể làm biến dạng nghiêm trọng sự xuất hiện trực quan của cốt truyện. Không có một giải pháp cho vấn đề này, nhưng có một số kỹ thuật có thể giúp đỡ. Bạn có thể thêm thông tin bổ sung với geom_smooth(), geom_quantile()hoặc geom_density_2d(). Nếu bạn có một vài giá trị x duy nhất, geom_boxplot()cũng có thể hữu ích.

Ngoài ra, bạn có thể tóm tắt số điểm tại mỗi địa điểm và hiển thị mà một cách nào đó, sử dụng geom_count(), geom_hex()hoặc geom_density2d().

Một kỹ thuật khác là làm cho các điểm trong suốt (ví dụ geom_point(alpha = 0.05)) hoặc rất nhỏ (ví dụ geom_point(shape = ".")).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.