Làm thế nào để phân loại Bayes ngây thơ xử lý dữ liệu bị thiếu trong đào tạo?


7

Naive Bayes rõ ràng xử lý dữ liệu bị thiếu khác nhau, tùy thuộc vào việc chúng tồn tại trong các trường hợp đào tạo hoặc kiểm tra / phân loại.

Khi phân loại các thể hiện, thuộc tính có giá trị bị thiếu chỉ đơn giản là không được bao gồm trong phép tính xác suất ( http://www.inf.ed.ac.uk/teaching/cifts/iaml/slides/naive-2x2.pdf )

Trong đào tạo, "ví dụ [với dữ liệu bị thiếu] không được bao gồm trong số tần số cho kết hợp lớp giá trị thuộc tính." ( http://www.csee.wvu.edu/~timm/cs591o/old/BasicMethods.html )

Điều đó có nghĩa là hồ sơ đào tạo cụ thể đơn giản là không được bao gồm trong giai đoạn đào tạo? Hay nó có nghĩa gì khác?


1
Có lẽ Laplace Smoothing là những gì bạn đang tìm kiếm? vi.wikipedia.org/wiki/Additive_smoothing
Regenschein

về nhận xét, xin lưu ý rằng 'giá trị thiếu' khác với 'xác suất không'. Không có xác suất có nghĩa là chúng ta biết giá trị và nó bằng không. Nhưng thiếu giá trị có nghĩa là chúng ta không biết xác suất. Nó 'có thể là' không. Nhưng nó cũng có thể là 0,75 hoặc 0,3 hoặc bất kỳ giá trị nào trong khoảng từ 0 đến 1. Nhưng chúng ta không biết điều đó. Và chúng tôi sử dụng làm mịn laplacian để xử lý vấn đề xác suất bằng không. không thiếu vấn đề giá trị. đối với vấn đề giá trị bị thiếu, chúng tôi chỉ bỏ qua thuộc tính đó như được đưa ra trong câu trả lời ở trên.
Kavin Ranawella

Câu trả lời:


10

Nói chung, bạn có một sự lựa chọn khi xử lý các giá trị còn thiếu hen đào tạo một trình phân loại Bayes ngây thơ. Bạn có thể chọn một trong hai

  1. Bỏ qua hồ sơ với bất kỳ giá trị thiếu,
  2. Chỉ bỏ qua các thuộc tính còn thiếu.

Tôi sẽ sử dụng ví dụ được liên kết ở trên để trình bày hai cách tiếp cận này. Giả sử chúng ta thêm một hồ sơ đào tạo vào ví dụ đó.

Outlook  Temperature  Humidity   Windy   Play
-------  -----------  --------   -----   ----
rainy    cool        normal    TRUE    no
rainy    mild        high      TRUE    no
sunny    hot         high      FALSE   no
sunny    hot         high      TRUE    no
sunny    mild        high      FALSE   no
overcast cool        normal    TRUE    yes
overcast hot         high      FALSE   yes
overcast hot         normal    FALSE   yes
overcast mild        high      TRUE    yes
rainy    cool        normal    FALSE   yes
rainy    mild        high      FALSE   yes
rainy    mild        normal    FALSE   yes
sunny    cool        normal    FALSE   yes
sunny    mild        normal    TRUE    yes
NA       hot         normal    FALSE   yes
  1. Nếu chúng tôi quyết định bỏ qua bản ghi cuối cùng do outlookgiá trị bị thiếu , chúng tôi sẽ có cùng một mô hình được đào tạo chính xác như được thảo luận trong liên kết.

  2. Chúng tôi cũng có thể chọn sử dụng tất cả các thông tin có sẵn từ hồ sơ này. Chúng ta có thể chọn đơn giản là bỏ qua thuộc tính outlooktừ bản ghi này. Điều này sẽ mang lại bảng cập nhật sau đây.

           Độ ẩm nhiệt độ Outlook   
==================== ================= ============= ====  
          Có Không Có Không Có Không Không 
Nắng 2 3 Nóng 3 2 Cao 3 4
U ám 4 0 Nhẹ 4 2 Bình thường 7 1 
Mưa 3 2 Mát 3 1
          ----------- --------- ---------- 
Nắng 2/9 3/5 Nóng 3/10 2/5 Cao 3/10 4/5 
U ám 4/9 0/5 Nhẹ 4/10 2/5 Bình thường 7/10 1/5
Mưa 3/9 2/5 Mát 3/10 1/5


            Chơi gió
================= ========
      Có Không Có Không Không
Sai 7 2 10 5
Đúng 3 3
      ---------- ----------
Sai 7/10 2/5 10/15 5/15
Đúng 3/10 3/5

Lưu ý rằng có 15 quan sát cho mỗi thuộc tính ngoại trừ Outlook , chỉ có 14. Điều này là do giá trị đó không có sẵn cho bản ghi cuối cùng. Tất cả sự phát triển hơn nữa sẽ tiếp tục như được thảo luận trong bài viết được liên kết.

Ví dụ, trong gói R, e1071naiveBayes triển khai có tùy chọn na.actioncó thể được đặt thành na.omit hoặc na.pass.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.