Thu nhỏ dữ liệu theo các bậc độ lớn khác nhau để vẽ đồ thị


9

Nhìn vào tập dữ liệu sau:

 Date        Visits   Carts      carts       Orders
                      Created   converted    Created
2011-11-11    12277     161        9          36  
2011-11-12    11871     93         5          19    
2011-11-13    13072     107        8          8     
2011-11-14    13594     112        4          34    
2011-11-15    12741     129        8          43    
2011-11-16    15491     261        16         57 
2011-11-17    13418     186        17         42    

Tôi đã được yêu cầu vẽ biểu đồ này trên biểu đồ, sử dụng Ngày có Trục X và phần còn lại của dữ liệu trên Trục Y. Vấn đề là quy mô của dữ liệu là khác nhau đáng kể. Trong đó số lượt truy cập là hàng nghìn và Đơn đặt hàng được tạo ở mức thấp hàng chục, dữ liệu không thể hiện tốt trên biểu đồ.

Tôi đã tự hỏi một nhà thống kê sẽ làm gì trong kịch bản này, tôi có thể chia Số lượt truy cập cho 1000 và sau đó đưa vào mô tả (Lượt truy cập (K)), nhưng sau đó tôi bắt đầu gặp vấn đề tương tự với Xe đẩy được tạo ra, vì chúng là trong hàng trăm và mọi thứ khác là trong hàng chục thấp.

Những loại điều được thực hiện trong kịch bản này?

Câu trả lời:


14

Không phải là không hợp lý khi bắt đầu vẽ biểu đồ đường dưới dạng một chuỗi các bội số nhỏ, với các tỷ lệ khác nhau cho trục Y nhưng với trục X (ngày) được căn chỉnh. nhập mô tả hình ảnh ở đây

Tôi nghĩ rằng đây là một khởi đầu tốt, vì nó cho phép một người kiểm tra dữ liệu thô và cho phép so sánh các xu hướng giữa các biểu đồ đường khác nhau. IMO bạn nên xem dữ liệu thô trước, sau đó suy nghĩ về chuyển đổi hoặc cách bình thường hóa các biểu đồ để có thể so sánh được sau khi bạn kiểm tra dữ liệu thô.

Như King đã đề cập, có vẻ như các biến của bạn có thứ tự tự nhiên dựa trên tên và số và giả sử nó phù hợp, tôi đã tạo ba biến mới dựa trên tỷ lệ phần trăm được chuyển đổi ở mỗi trạng thái. Các biến mới là;

% Carts Created = Carts_Created/Visits
% Orders Created = Orders_Created/Carts_Created
% Carts Converted = Carts_Converted/Orders_Created

Tạo tỷ lệ phần trăm là một cách để đưa chuỗi gần với tỷ lệ chung, nhưng ngay cả khi đặt tất cả các dòng trên một biểu đồ (như bên dưới) vẫn khó có thể hình dung hiệu quả của chuỗi. Mức độ và biến thể của các đơn đặt hàng được tạo và chuyển đổi các sao lùn chuyển đổi của các chuỗi khác. Bạn không thể thấy bất kỳ biến thể nào trong các giỏ hàng được tạo theo tỷ lệ này (và tôi nghi ngờ đó là biến thể bạn quan tâm nhất). nhập mô tả hình ảnh ở đây

Vì vậy, một lần nữa, IMO một cách tốt hơn để kiểm tra điều này là sử dụng các quy mô khác nhau. Dưới đây là biểu đồ Tỷ lệ sử dụng các tỷ lệ khác nhau.

nhập mô tả hình ảnh ở đây

Với những đồ họa này, dường như tôi không có bất kỳ mối tương quan có ý nghĩa thực sự nào với tôi giữa các bộ, nhưng bạn có rất nhiều biến thể thú vị trong mỗi loạt (đặc biệt là tỷ lệ được chuyển đổi). Có chuyện 2011-11-13gì thế? Bạn có tỷ lệ đơn hàng được tạo thấp hơn nhiều nhưng mỗi đơn hàng được tạo là một giỏ hàng được chuyển đổi. Bạn có bất kỳ biện pháp can thiệp nào khác có thể giải thích xu hướng trong các lượt truy cập trang web hoặc tỷ lệ hoặc tỷ lệ phần trăm được tạo không?

Đây chỉ là phân tích dữ liệu thăm dò và để thực hiện thêm các bước nữa tôi sẽ cần cái nhìn sâu sắc hơn về dữ liệu (tôi hy vọng đây là một khởi đầu tốt). Bạn có thể bình thường hóa biểu đồ đường theo những cách khác để có thể vẽ biểu đồ theo tỷ lệ tương đương, nhưng đó là một nhiệm vụ khó khăn và tôi nghĩ có thể được thực hiện bằng cách chọn hiệu quả các thang đo tùy ý dựa trên thông tin được cung cấp cho dữ liệu thay vì chọn một số đề án chuẩn hóa mặc định. Một ứng dụng thú vị khác của việc xem nhiều biểu đồ đường cùng một lúc là biểu đồ đường chân trời , nhưng đó là nhiều hơn để xem nhiều biểu đồ đường khác nhau cùng một lúc.


Cảm ơn bạn đã chi tiết trong câu trả lời của bạn, ban đầu tôi đã có nhiều biểu đồ. Sếp của tôi đã quyết định rằng họ muốn tất cả các chuỗi trên biểu đồ (tôi nghĩ có lẽ là quá nhiều loạt nhưng không phải tôi sẽ xem nó :)) Tôi nghĩ rằng tôi sẽ xem xét việc bình thường hóa dữ liệu, có thể thành 0 - 1. Họ chỉ muốn sử dụng biểu đồ để xem xu hướng, dữ liệu bảng thường được hiển thị dưới biểu đồ.
Mike

@Mike, đó là một yêu cầu hợp lý. Chuẩn hóa chuỗi không nên thay đổi xu hướng (chỉ mức độ và biến thể của từng chuỗi). Hy vọng rằng bạn nhận được nhiều câu trả lời sâu sắc hơn về cách bình thường hóa bộ truyện theo một số cách hiệu quả, nhưng vẫn có ý nghĩa. Mặc dù chỉ là một lời cảnh báo, thông thường bạn chỉ muốn vẽ 3-5 dòng trên một biểu đồ, rất nhiều khó khăn để thực hiện tất cả các so sánh đó (mặc dù bội số nhỏ là một vấn đề xoay quanh vấn đề này).
Andy W

1
@Mike Có, trong trường hợp này (chỉ hiển thị dữ liệu không có số), bạn có thể chỉ cần thể hiện dữ liệu của mình theo tỷ lệ tối thiểu / tối đa, như được thực hiện trong màn hình song song . Hiển thị số dưới bảng cũng là một ý tưởng tốt.
chl

1
Chỉ cần lưu ý thêm về việc chuẩn hóa theo tỷ lệ tối thiểu / tối đa như @chl đề xuất. Trước tiên, bạn nên xem dữ liệu thô, nếu bạn có một số ngoại lệ lớn, bạn có thể muốn xem xét không bao gồm giá trị đó trong quy trình chuẩn hóa (mặc dù điều này sẽ rõ ràng nếu bạn thực hiện trong biểu đồ chuẩn hóa, ví dụ: nếu bạn có biểu đồ đường với một giá trị cao / thấp và phần còn lại là phẳng). Tôi nghĩ Michael Friendly cũng đồng ý với cả bảng bên dưới biểu đồ.
Andy W

2

Bạn có thể có 2 trục y riêng biệt, Lượt truy cập (k) và Xe đẩy được tạo thành một, 2 cái còn lại trong một cái khác (hoặc bất kỳ cách nào phù hợp với mục đích của bạn).

Đây chắc chắn không phải là một phương pháp tao nhã, nhưng tôi nhớ đã thực hiện nó từ nhiều năm trước khi tôi chỉ muốn so sánh các xu hướng theo thời gian.

HOẶC LÀ

Bạn chỉ có thể vẽ biểu đồ phần trăm thay đổi theo thời gian nếu nó phù hợp với mục đích của bạn.


Tôi đã xem xét tuyến đường mà bạn đã đề cập với 2 trục Y khác nhau, nhưng điều tôi không thích là: nếu một loạt mới được giới thiệu không phù hợp với một trong hai trục Y, tôi có thể sẽ bị kẹt. cảm ơn bạn đã gợi ý, và có lẽ một lần khác tôi sẽ xem xét điều này nhiều hơn :)
Mike

Điều gì về gợi ý thứ hai về việc sử dụng tỷ lệ phần trăm? tức là lập chỉ mục mọi thứ ở mức 100 vào ngày bắt đầu (hoặc bất kỳ ngày nào làm cho biểu đồ của bạn đẹp). Bạn có thể thêm nhiều bộ phim mới như bạn muốn!
Vua

Đó là một tùy chọn, tôi hiện đang trên excel đang cố gắng tìm ra cách bình thường hóa dữ liệu này và nếu nó hoạt động. thất bại là tôi sẽ cho ý tưởng tỷ lệ phần trăm đi :)
Mike

2

Cuối cùng, tôi quyết định bình thường hóa dữ liệu bằng cách chia mỗi giá trị cho giá trị tối đa và sau đó nhân với 100.

  1. Tìm giá trị tối đa:

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    12277     161        9          36  
    2011-11-12    11871     93         5          19    
    2011-11-13    13072     107        8          8     
    2011-11-14    13594     112        4          34    
    2011-11-15    12741     129        8          43    
    2011-11-16    15491     261        16         57 
    2011-11-17    13418     186        17         42    
    
    maximum       15491     261        17         57
    
  2. Chia mỗi số cho tối đa và sau đó nhân với 100:

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    79.25     61.68      52.94      63.15  
    2011-11-12    76.63     35.63      29.41      33.33    
    2011-11-13    84.38     40.99      47.05      14.03      
    2011-11-14    87.75     42.91      23.52      59.64    
    2011-11-15    82.24     49.42      47.05      75.43    
    2011-11-16    100       100        94.11      100
    2011-11-17    86.61     71.26      100        73.68    
    
  3. Sau đó tôi đã vẽ biểu đồ này trên biểu đồ, rõ ràng điều này chỉ thể hiện xu hướng và người dùng có bảng dữ liệu ở cuối trang.


0

Đó cũng là cách tiếp cận của tôi - - để điều chỉnh các kích thước khác nhau cho cùng một tỷ lệ bằng cách chia cho X nhưng tôi sẽ sử dụng giá trị avg, không phải giá trị tối đa hoặc tối thiểu. Lý do là - khi bạn thêm dữ liệu theo thời gian, mức tối đa hoặc tối thiểu của bạn sẽ có thể thay đổi, và sau đó 100% trong biểu đồ cuối cùng là một thứ khác - lần này biểu đồ không thể điều chỉnh dễ dàng với các biểu đồ trước - - nếu bạn sử dụng avg thì những thay đổi không quyết liệt như vậy.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.