Làm thế nào để xử lý hệ số 0 trong tính toán Phân loại Naive Bayes?


13

Nếu tôi có một tập dữ liệu huấn luyện và tôi huấn luyện Bộ phân loại Naive Bayes trên đó và tôi có một giá trị thuộc tính có xác suất bằng không. Làm cách nào để xử lý việc này nếu sau này tôi muốn dự đoán phân loại trên dữ liệu mới? Vấn đề là, nếu có một số 0 trong phép tính thì toàn bộ sản phẩm trở thành số không, bất kể tôi có bao nhiêu giá trị khác mà có thể sẽ tìm ra giải pháp khác.

Thí dụ:

P(x|Spmộtm= =yeS)= =P(TTôimeZone= =BạnS|Spmộtm= =yeS)P(GeoLocmộttTôion= =EBạn|Spmộtm= =yeS) ... = =0,004

P(x|Spmộtm= =no)= =P(TTôimeZone= =BạnS|Spmộtm= =no)P(GeoLocmộttTôion= =EBạn|Spmộtm= =no) ... = =0

Toàn bộ sản phẩm trở thành vì trong dữ liệu đào tạo, thuộc tính TimeZone US luôn có trong tập dữ liệu đào tạo nhỏ của chúng tôi. Làm thế nào tôi có thể xử lý này? Tôi có nên sử dụng một bộ dữ liệu đào tạo lớn hơn hay có khả năng khác để khắc phục vấn đề này không?0


Nếu bạn nhận được một giá trị thuộc tính rời rạc, xác suất của nó không thể bằng 0, theo định nghĩa.
Paul

Tại sao chúng ta thêm vấn đề tần số 1 trong 0, logic đằng sau điều này là gì tại sao chúng ta không thêm một số khác.
Aftab Hussaiin

Câu trả lời:


12

Cách tiếp cận để khắc phục 'vấn đề tần số 0' này trong cài đặt Bayes là thêm một vào số đếm cho mọi kết hợp lớp giá trị thuộc tính khi giá trị thuộc tính không xảy ra với mọi giá trị lớp. Vì vậy, ví dụ, giả sử dữ liệu đào tạo của bạn trông như thế này:

Thư rác= =yeSThư rác= =noMúi giờ= =BạnS105Múi giờ= =EBạn00

P(Múi giờ= =BạnS|Thư rác= =yeS)= =1010= =1

P(Múi giờ= =EBạn|Thư rác= =yeS)= =010= =0

Sau đó, bạn nên thêm một vào mỗi giá trị trong bảng này khi bạn đang sử dụng nó để tính xác suất:

Thư rác= =yeSThư rác= =noMúi giờ= =BạnS116Múi giờ= =EBạn11

P(Múi giờ= =BạnS|Thư rác= =yeS)= =1112

P(Múi giờ= =EBạn|Thư rác= =yeS)= =112


4
Thật. Lưu ý rằng đôi khi bạn có thể thêm các giá trị khác hơn một. Để biết chi tiết, xem en.wikipedia.org/wiki/Additive_smoothing
DaL
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.