Biện pháp nâng trong khai thác dữ liệu


36

Tôi đã tìm kiếm nhiều trang web để biết chính xác thang máy sẽ làm gì? Kết quả mà tôi thấy tất cả là về việc sử dụng nó trong các ứng dụng chứ không phải chính nó.

Tôi biết về chức năng hỗ trợ và tự tin. Từ Wikipedia, trong khai thác dữ liệu, thang máy là thước đo hiệu suất của một mô hình trong việc dự đoán hoặc phân loại các trường hợp, đo lường theo mô hình lựa chọn ngẫu nhiên. Nhưng bằng cách nào? Sự tự tin * hỗ trợ là giá trị của thang máy Tôi cũng đã tìm kiếm một công thức khác nhưng tôi không thể hiểu tại sao biểu đồ thang máy lại quan trọng về độ chính xác của các giá trị dự đoán. Ý tôi là tôi muốn biết chính sách và lý do nào đứng sau thang máy?


2
Cần bối cảnh ở đây. Trong tiếp thị, đây sẽ là một biểu đồ cho biết mức tăng phần trăm doanh thu dự kiến ​​từ các hoạt động tiếp thị khác nhau, nhưng bạn có thể có một bối cảnh khác trong tâm trí.
zbicyclist

Câu trả lời:


59

Tôi sẽ đưa ra một ví dụ về cách "nâng" hữu ích ...

Hãy tưởng tượng bạn đang chạy một chiến dịch thư trực tiếp nơi bạn gửi thư cho khách hàng với hy vọng họ phản hồi. Dữ liệu lịch sử cho thấy rằng khi bạn gửi thư hoàn toàn cho cơ sở khách hàng của mình, khoảng 8% trong số họ trả lời thư (tức là họ đến và mua sắm với lời đề nghị). Vì vậy, nếu bạn gửi 1.000 khách hàng, bạn có thể mong đợi 80 người trả lời.

Bây giờ, bạn quyết định điều chỉnh mô hình hồi quy logistic với dữ liệu lịch sử của bạn để tìm các mẫu có thể dự đoán được liệu khách hàng có khả năng trả lời thư hay không. Sử dụng mô hình hồi quy logistic mỗi khách hàng được chỉ định xác suất phản hồi và bạn có thể đánh giá độ chính xác vì bạn biết liệu họ có thực sự phản hồi hay không. Khi mỗi khách hàng được chỉ định xác suất của họ, bạn xếp hạng họ từ khách hàng có điểm cao nhất đến thấp nhất. Sau đó, bạn có thể tạo một số đồ họa "nâng" như thế này:

nhập mô tả hình ảnh ở đây

Bỏ qua các biểu đồ hàng đầu cho bây giờ. Biểu đồ phía dưới nói rằng sau khi chúng tôi sắp xếp khách hàng dựa trên xác suất phản hồi của họ (cao đến thấp), sau đó chia họ thành mười thùng bằng nhau, tỷ lệ phản hồi trong thùng số 1 (10% khách hàng hàng đầu) là 29 % so với 8% khách hàng ngẫu nhiên, cho mức tăng 29/8 = 3,63. Vào thời điểm chúng tôi ghi được khách hàng trong thùng thứ 4, chúng tôi đã bắt được rất nhiều ba người trước đó mà tỷ lệ phản hồi thấp hơn so với những gì chúng tôi mong đợi gửi thư cho mọi người một cách ngẫu nhiên.

Nhìn vào biểu đồ hàng đầu bây giờ, điều này nói rằng nếu chúng ta sử dụng điểm số xác suất của khách hàng, chúng ta có thể nhận được 60% tổng số người trả lời chúng ta sẽ gửi thư ngẫu nhiên bằng cách chỉ gửi 30% khách hàng được ghi điểm hàng đầu. Nghĩa là, bằng cách sử dụng mô hình, chúng tôi có thể nhận được 60% lợi nhuận dự kiến ​​cho 30% chi phí thư bằng cách chỉ gửi 30% khách hàng được ghi điểm hàng đầu và đây là điều mà thang máy thực sự đề cập đến.


Giải thích tốt đẹp cảm ơn bạn rất nhiều. Bạn có thể vui lòng cho tôi biết trong biểu đồ Nâng tại sao chúng ta cần mẫu ngẫu nhiên? Tôi hiểu 8% là từ ngẫu nhiên nhưng tại sao cần phải theo dõi ngẫu nhiên? Tôi thấy một biểu đồ khác theo dõi trung bình của các giá trị và tôi cũng không biết lý do tồn tại của trung bình
Nickool

điều tôi nhận được là thang máy = 3,63 đang nói rằng cho đến khi cột 4 chúng ta có tỷ lệ phản hồi tốt hơn 8%, thì bạn chỉ cần giả sử cột 1 và bằng cách xem xét 29% (ước tính 30%) bạn mới xem xét cột 1 Sau đó, thang máy đã làm gì với 3,63?
Nickool

1
Ôi chúa ơi! Tôi hiểu sai lầm của mình 30% không liên quan đến 29% 30% có nghĩa là 3/10 3 cột dữ liệu đầu tiên! Bây giờ tôi hoàn toàn hiểu nó: DI rất hạnh phúc !!!!! cảm ơn bạn>: D <
Nickool

1
1000mmộttôitôitôingmộttôitôi1000cbạnStomerSmộtndweexpectsố 8300)thenweexpecttoget601000-get-80-cbạnStomerSvSSpend-

1
@ user1700890 Biểu đồ trên cùng thường được gắn nhãn biểu đồ mức tăng tích lũy, trong khi biểu đồ dưới cùng không giống như biểu đồ thang tích lũy (trong đó thang máy không bao giờ có thể thấp hơn 1) mà chia dữ liệu thành mười thùng riêng biệt.
RobertF

3

Biểu đồ thang máy biểu thị tỷ lệ giữa phản ứng của một mô hình so với sự vắng mặt của mô hình đó. Thông thường, nó được biểu thị bằng tỷ lệ phần trăm của các trường hợp trong X và số lần phản hồi tốt hơn trong trục Y. Ví dụ: một mô hình có thang máy = 2 tại điểm 10% có nghĩa là:

  • Nếu không có bất kỳ mô hình nào chiếm 10% dân số (không có thứ tự vì không có mô hình), tỷ lệ y = 1 sẽ là 10% tổng dân số với y = 1.

  • Với mô hình, chúng tôi nhận được gấp 2 lần tỷ lệ này, tức là, chúng tôi hy vọng sẽ có được 20% tổng dân số với y = 1. Trong nhãn char X đại diện cho thứ tự dữ liệu theo dự đoán. 10% đầu tiên là 10% dự đoán hàng đầu


3

Nâng không là gì ngoài tỷ lệ của niềm tin với niềm tin mong đợi. Trong lĩnh vực quy tắc kết hợp - "Tỷ lệ nâng lớn hơn 1.0 ngụ ý rằng mối quan hệ giữa tiền lệ và hậu quả có ý nghĩa hơn mong đợi nếu hai bộ độc lập. Tỷ lệ nâng càng lớn, liên kết càng có ý nghĩa. " Ví dụ-

nếu cơ sở dữ liệu siêu thị có 100.000 giao dịch điểm bán, trong đó 2.000 giao dịch bao gồm cả hai mặt hàng A và B và 800 trong số này bao gồm mặt hàng C, quy tắc kết hợp "Nếu A và B được mua, thì C được mua trên cùng chuyến đi, "có hỗ trợ 800 giao dịch (thay thế 0,8% = 800 / 100.000) và độ tin cậy 40% (= 800 / 2.000). Một cách để nghĩ về hỗ trợ là xác suất một giao dịch được chọn ngẫu nhiên từ cơ sở dữ liệu sẽ chứa tất cả các mục trong tiền đề và hệ quả, trong khi đó độ tin cậy là xác suất có điều kiện rằng một giao dịch được chọn ngẫu nhiên sẽ bao gồm tất cả các mục trong do đó, cho rằng giao dịch bao gồm tất cả các mục trong tiền lệ.

Sử dụng ví dụ trên, Tự tin dự kiến, trong trường hợp này, có nghĩa là "sự tự tin, nếu mua A và B không tăng cường xác suất mua C." Đó là số lượng giao dịch bao gồm hệ quả chia cho tổng số giao dịch. Giả sử tổng số giao dịch cho C là 5.000. Do đó, niềm tin dự kiến ​​là 5.000 / 1,00,000 = 5%. Đối với ví dụ về siêu thị, thang máy = Độ tin cậy / Độ tin cậy dự kiến ​​= 40% / 5% = 8. Do đó, thang máy là một giá trị cung cấp cho chúng tôi thông tin về sự gia tăng xác suất của phần sau đó (do đó). đây là đường dẫn đến bài viết nguồn


2

Nâng chỉ là một biện pháp để đo lường tầm quan trọng của quy tắc

đó là một biện pháp để kiểm tra xem quy tắc này có trong danh sách một cách tình cờ hay chúng ta đang mong đợi

Nâng = Tự tin / Tự tin dự kiến


0

Giả sử chúng tôi đang sử dụng ví dụ về cửa hàng tạp hóa đang kiểm tra tính hợp lệ của quy tắc kết hợp có tiền đề và hậu quả (ví dụ: "Nếu khách hàng mua bánh mì, họ cũng sẽ mua bơ").

Nếu bạn xem xét tất cả các giao dịch và kiểm tra một giao dịch một cách ngẫu nhiên, xác suất mà giao dịch đó chứa kết quả là "Độ tin cậy dự kiến". Nếu bạn xem tất cả các giao dịch có chứa tiền đề và chọn một giao dịch ngẫu nhiên từ các giao dịch này, xác suất giao dịch đó sẽ chứa hậu quả là "Tự tin". "Nâng" về cơ bản là sự khác biệt giữa hai. Với thang máy, chúng ta có thể kiểm tra mối quan hệ giữa hai mặt hàng có độ tin cậy cao (nếu độ tin cậy thấp thì về cơ bản thang máy không liên quan).

Nếu họ có độ tin cậy cao và lực nâng thấp, thì chúng tôi vẫn biết các mặt hàng thường được mua cùng nhau nhưng chúng tôi không biết liệu hậu quả có xảy ra do tiền lệ hay đó chỉ là sự trùng hợp ngẫu nhiên (có lẽ cả hai thường được mua cùng nhau vì chúng Cả hai sản phẩm rất phổ biến nhưng không có bất kỳ mối quan hệ nào với nhau).

Tuy nhiên, nếu độ tin cậy và lực nâng đều cao, thì chúng ta có thể giả định một cách hợp lý rằng hậu quả đang xảy ra do tiền đề. Thang máy càng cao thì xác suất càng thấp là mối quan hệ giữa hai vật phẩm chỉ là sự trùng hợp ngẫu nhiên. Về mặt toán học:

Nâng = Tự tin / Tự tin dự kiến

Trong ví dụ của chúng tôi, nếu độ tin cậy của quy tắc của chúng tôi cao và độ nâng thấp, điều đó có nghĩa là nhiều khách hàng sẽ mua bánh mì và bơ, nhưng chúng tôi không biết liệu đó có phải là do mối quan hệ đặc biệt giữa bánh mì và bơ hay không bánh mì và bơ chỉ là những mặt hàng phổ biến riêng lẻ và thực tế là chúng thường xuất hiện trong các xe đẩy hàng tạp hóa cùng nhau chỉ là một sự trùng hợp ngẫu nhiên. Nếu niềm tin vào quy tắc của chúng tôi cao và thang máy cao, điều này cho thấy mối tương quan khá mạnh mẽ giữa tiền lệ và hậu quả, có nghĩa là chúng tôi có thể giả định rằng khách hàng mua bơ thực tế là họ đang mua bánh mì. Thang máy càng cao, chúng ta càng có thể tự tin hơn trong hiệp hội này.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.