Thuật toán Apriori bằng tiếng Anh?


9

Tôi đọc bài viết wiki về Apriori. Tôi gặp khó khăn trong việc hiểu các bước cắt tỉa và tham gia. Bất cứ ai có thể giải thích cho tôi làm thế nào thuật toán Apriori hoạt động bằng các thuật ngữ đơn giản (như Novice như tôi có thể hiểu dễ dàng)?

Sẽ tốt nếu ai đó giải thích quy trình từng bước liên quan đến nó.


Bạn có thể quan tâm đến việc triển khai Python của tôi .
Martin Thoma

Câu trả lời:


11

Các bài viết trên Wikipedia không phải là đặc biệt ấn tượng. Bạn có thể thấy các slide này hữu ích hơn: 1 , 2 , 3 .

Ở mỗi cấp độ , bạn có các bộ -item thường xuyên (có hỗ trợ hiệu quả). kkk

Ở cấp độ tiếp theo, các tập hợp + bạn cần xem xét phải có thuộc tính mà mỗi tập hợp con của chúng phải thường xuyên (có hỗ trợ hiệu quả). Đây là thuộc tính apriori : bất kỳ tập hợp con của các mục thường xuyên phải thường xuyên.1k1

Vì vậy, nếu bạn biết ở cấp 2, các bộ , , và là các bộ duy nhất có đủ hỗ trợ, thì ở cấp 3, bạn kết hợp những thứ này với nhau để tạo ra , , và nhưng bạn chỉ cần xem xét thêm : những cái khác đều có các tập hợp con với sự hỗ trợ không hiệu quả (chẳng hạn như hoặc ).{ 1 , 3 } { 1 , 5 } { 3 , 5 } { 1 , 2 , 3 } { 1 , 2 , 5 } { 1 , 3 , 5 } { 2 , 3 , 5 } { 1 , 3 , 5 } { 2 , 3 } {{1,2}{1,3}{1,5}{3,5}{1,2,3}{1,2,5}{1,3,5}{2,3,5}{1,3,5}{2,3}{2,5}


2

Thuật toán Apriori là một thuật toán khai thác quy tắc kết hợp được sử dụng trong khai thác dữ liệu. Nó được sử dụng để tìm các mục thường xuyên trong số các giao dịch nhất định.

Về cơ bản bao gồm hai bước

  1. Tự tham gia
  2. Cắt tỉa

Lặp lại các bước này k lần, trong đó k là số lượng vật phẩm, trong lần lặp cuối cùng, bạn nhận được các bộ vật phẩm thường xuyên chứa k vật phẩm.

Nhìn vào đây để có một lời giải thích rất đơn giản với một ví dụ chi tiết http://nikhilvithlani.blogspot.com/2012/03/apriori-alerskym-for-data-mining-ADE.html .

Nó có một lời giải thích đơn giản mà không có bất kỳ phương trình phức tạp.


2
Tôi đã để lại thông báo bài đăng này bởi vì nó thường tốt hơn để cung cấp một bản tóm tắt các điểm chính bạn muốn nhấn mạnh hơn là liên kết đến một blog mà không cần giải thích thêm. Hơn nữa, mục đích của trang web này là xây dựng một tập hợp các câu trả lời có hiểu biết cho các câu hỏi cụ thể với sự phụ thuộc tối thiểu vào các liên kết lơ lửng hoặc phù du. Vì vậy, trừ khi bạn có thể đảm bảo rằng liên kết trên sẽ vẫn còn tồn tại sau 10 năm nữa, tôi sẽ khuyến khích bạn tóm tắt những điểm chính của nó trong câu trả lời hiện tại.
chl

1

Apriori bằng tiếng Anh đơn giản.

Apriori sử dụng một cách tiếp cận lặp đi lặp lại được gọi là tìm kiếm theo cấp độ, trong đó các mục k được sử dụng để khám phá (k + 1) -itemsets . Đầu tiên, bộ tập hợp 1 mục thường xuyên được tìm thấy bằng cách quét cơ sở dữ liệu để tích lũy số lượng cho từng mục và thu thập các mục đó đáp ứng hỗ trợ tối thiểu. Tập kết quả được ký hiệu là L1 . Tiếp theo, L1 được sử dụng để tìm L2 , tập hợp các mục 2 mục thường xuyên , được sử dụng để tìm L3, v.v., cho đến khi không thể tìm thấy các mục k thường xuyên hơn . Việc tìm kiếm mỗi Lk yêu cầu quét toàn bộ cơ sở dữ liệu.

Ở lần lặp cuối cùng, bạn sẽ kết thúc với nhiều mục k được gọi là quy tắc kết hợp . Để chọn các quy tắc thú vị từ tập hợp tất cả các quy tắc có thể, các biện pháp ràng buộc khác nhau như hỗ trợtự tin được áp dụng.

Điều khoản và thuật ngữ

  • 1 mục có nghĩa là {a}, {b}, {c}
  • 2 mục có nghĩa là {a, b}, {d, d}, {a, c}
  • Các mục K có nghĩa là {i1, i2, i3, ... ik}, {j1, j2, j3, .... jk}

Bước tham gia: có nghĩa là 1 mục được tạo để tự tham gia với chính nó để tạo 2 mục.

Bước cắt tỉa: ở đây kết quả thiết lập từ tham gia được lọc với ngưỡng hỗ trợ tối thiểu.

tập cardinality: tập kết quả từ bước Prune.

Hỗ trợ = no.of chuyển đổi có chứa 'a' và 'b' / tổng số không có giao dịch.

Hỗ trợ => supp (a, b) => p (a U b)

Tự tin = Không có giao dịch nào chứa 'a' và 'b' / không có giao dịch có chứa 'a'.

Tự tin => con (a, b) ==> P (b | a) không có gì ngoài xác suất có điều kiện.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.