Làm thế nào bạn có thể hình dung một kênh phân đoạn? (và bạn có thể làm điều đó với Python không?)


9

Tôi thấy bài đăng này trên Moz đã trình bày một kênh tiếp thị được phân đoạn:nhập mô tả hình ảnh ở đây

Loại điều này sẽ có khá nhiều giá trị trong công việc của tôi. Điều tôi không biết là làm thế nào để trực quan hóa dữ liệu thô để hiển thị một kênh được phân đoạn như thế này. Ý tưởng là khách hàng tiềm năng đến từ các nguồn khác nhau (mà chúng tôi sử dụng để phân đoạn dữ liệu theo) và trải qua nhiều giai đoạn khi họ chuyển đổi sang thỏa thuận. Từ giai đoạn này đến giai đoạn khác thả ra. Độ rộng của mỗi lát được xác định bởi số lượng khách hàng tiềm năng tuyệt đối trong mỗi lát. [ EDIT : Lưu ý hình ảnh được sử dụng ở đây để tham khảo là sai lệch khi nói đến các số được chỉ định ở bên phải của mỗi lát. Dường như không có mối quan hệ giữa chiều rộng của lát và số. Hình ảnh chỉ nên được lấy làm tham chiếu đến thiết kế của kênh được phân đoạn].

Dù sao, bất kỳ ý tưởng làm thế nào để hình dung nó? Nếu có thể, tôi rất muốn có một cách để làm như vậy trong Python.

Đây là một tài liệu Google với một số dữ liệu giả nếu có ai cần ...

Mong được hiểu biết của bạn. Cảm ơn!


5
Tôi thấy minh họa khó hiểu vì Yếu tố Lie khổng lồ được tích hợp trong đó: các cấp độ liên tiếp của "phễu" sử dụng các thang đo khác nhau thay đổi không đều. Do đó, độ rộng của các dải không được xác định bởi các số tuyệt đối trong mỗi dải - ít nhất là không theo bất kỳ cách dễ hiểu hoặc trực quan nào. Vì vậy, bạn đang hỏi: liệu có cách nào tốt hơn để trực quan hóa dữ liệu đó hoặc làm thế nào để tạo đồ họa này trong Python?
whuber

Để làm việc trong bất kỳ phần mềm nào, bạn thường chỉ có thể kết hợp một danh mục bù cho các thanh được xếp chồng lên nhau và sau đó làm cho nó trở nên vô hình. Dưới đây là một ví dụ với cùng bảng tính google. Bạn có thể thấy nó là một viz không hiệu quả. cho các danh mục được thu nhỏ thành không có gì trong ví dụ đó.
Andy W

1
@whuber Xin chào. Không chắc tôi làm theo. Mỗi cấp là số tuyệt đối ... và mỗi cấp là một nhóm con của cấp trước. Hãy giải thích tại sao quy mô thay đổi bất thường sau đó. Cảm ơn!
Optimesh

3
Phân đoạn trên cùng đại diện cho 1,5 triệu lượt truy cập và kéo dài khoảng 500 pixel trên màn hình của tôi: một pixel = 3000 lượt truy cập. Phân đoạn dưới cùng đại diện cho 5000 lượt truy cập và kéo dài khoảng 150 pixel trên màn hình của tôi, thay vì dưới 2 (như @Andy đã chỉ ra với ví dụ của anh ấy). Đó là một sự phóng đại khoảng 100 đến 1. Vì đồ họa trong câu hỏi này dường như không quan tâm đến sự phóng đại như vậy, nên dường như không có điểm nào để thay đổi kích thước các phân đoạn: bạn sẽ có được thông tin tốt hơn bằng cách làm cho chúng có cùng độ dài và đồ họa sẽ ít lừa dối hơn.
whuber

1
@whuber ơi, tôi hiểu ý của bạn rồi. Phải, tôi chỉ mang hình ảnh đó làm ví dụ cho những gì tôi đang muốn làm một cách trực quan. Các con số là sai lệch, không có nghi ngờ.
Optimesh

Câu trả lời:


3

Biểu đồ này hiển thị bảng dự phòng hai chiều có dữ liệu xấp xỉ:

                      Branded Unbranded Social Referring Direct   RSS
First-time...          177276    472737  88638    265915 472737 59092
Return Visits...       236002    629339 118001    354003 629339 78667
4+ Visits in ...       166514    444037  83257    249771 444037 55505
10+ Visit in ...        28782     76751  14391     43172  76751  9594
At Least One Visit...    6707     17886   3354     10061  17886  2236
Last Touch...             660      1759    330       989   1759   220

Có vô số cách để xây dựng cốt truyện này. Chẳng hạn, bạn có thể tính toán vị trí của từng mảng màu hình chữ nhật và tách riêng từng mảng. Tuy nhiên, nói chung, nó giúp tìm một mô tả cô đọng về cách biểu đồ thể hiện dữ liệu.

Như một điểm khởi hành, chúng tôi có thể xem đây là một biến thể của biểu đồ thanh xếp chồng lên nhau.

Hình 1: biểu đồ thanh xếp chồng lên nhau.

Biểu đồ này hiếm khi cần một mô tả: thông qua sự quen thuộc, chúng ta biết rằng mỗi hàng hình chữ nhật tương ứng với mỗi hàng của bảng dự phòng; độ dài của các hình chữ nhật tỷ lệ thuận với số lượng của chúng; rằng họ không chồng chéo; và màu sắc tương ứng với các cột của bảng.

Nếu chúng ta chuyển đổi bảng này thành "khung dữ liệu" hoặc "bảng dữ liệu" có một hàng cho mỗi số với các trường chỉ ra tên hàng, tên cột và số đếm, thì hãy vẽ nó để gọi một hàm phù hợp và quy định nơi cần tìm tên hàng, tên cột và số đếm. Sử dụng triển khai Grammar of Graphics ( gói cho ) nó sẽ trông giống nhưXggplot2R

ggplot(X, aes(Outcome, Count, fill=Referral)) + geom_col() 

Các chi tiết của đồ họa, chẳng hạn như một hàng thanh rộng bao nhiêu và màu sắc nào sẽ sử dụng, thường cần phải được quy định rõ ràng. Làm thế nào được thực hiện phụ thuộc vào môi trường âm mưu (và vì vậy rất ít quan tâm: bạn chỉ cần tìm kiếm nó).

Việc triển khai Grammar of Graphics đặc biệt này cung cấp rất ít tính linh hoạt trong việc định vị các thanh. Một cách để tạo ra giao diện mong muốn, với nỗ lực tối thiểu, là chèn một danh mục vô hình ở gốc của mỗi thanh để các thanh được căn giữa. Một chút suy nghĩ cho thấy số lượng giả cần thiết để căn giữa mỗi thanh phải là trung bình của tổng chiều dài của thanh và của thanh dài nhất. Trong ví dụ này, đây sẽ là một cột ban đầu với các giá trị

 254478.0       0.0  301115.0  897955.0  993610.5 1019817.0 

Dưới đây là biểu đồ thanh xếp chồng kết quả hiển thị dữ liệu giả mạo màu xám nhạt:

Hình 2

Con số mong muốn được tạo bằng cách hiển thị đồ họa cho cột giả:

Hình 3

Mô tả Grammar of Graphics của cốt truyện không cần thay đổi: chúng tôi chỉ đơn giản cung cấp một bảng dự phòng khác để được hiển thị theo cùng một mô tả (và vượt qua sự gán màu mặc định cho cột giả).

Bình luận

Những đồ họa này là trung thực: phạm vi ngang của mỗi mảng màu tỷ lệ thuận với dữ liệu cơ bản, không bị biến dạng. So sánh chúng với bản gốc (trong câu hỏi) cho thấy mức độ biến dạng của nó cực kỳ như thế nào ( Yếu tố nói dối của Tufte ).

Nếu muốn hiển thị chi tiết ở cuối "kênh", hãy xem xét việc thể hiện số lượng theo khu vực thay vì chiều dài. Bạn có thể làm cho chiều dài của các thanh tỷ lệ với căn bậc hai của tổng chiều dài và chiều rộng của chúng (theo hướng dọc) cũng tỷ lệ với căn bậc hai. Bây giờ, đáy của "phễu" sẽ dài khoảng một phần hai mươi, thay vì một phần tư của nó, cho phép hiển thị một số chi tiết. Thật không may, việc ggplot2triển khai không cho phép một người ánh xạ một biến theo chiều rộng của thanh và do đó cần có một công việc liên quan nhiều hơn (một cái thực sự mô tả từng hình chữ nhật riêng lẻ). Có lẽ có một triển khai Python linh hoạt hơn.

Người giới thiệu

Edward Tufte, Hiển thị trực quan của thông tin định lượng . Báo chí Cheshire 1984.

Leland Wilkinson, Ngữ pháp của đồ họa. Mùa xuân năm 2005.


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.