Hầu hết các bộ dữ liệu nguồn mở được định dạng tốt, tức là mỗi thông báo email được phân tách tốt như bộ dữ liệu email enron. Nhưng trong thế giới thực, rất khó để tách một email hàng đầu khỏi một chuỗi các email.
Ví dụ xem xét tin nhắn dưới đây.
Hi,
Can you offer me a better discount.
Thanks,
Mr.X
Customer Relations.
---- On Wed, 10 May 2017 04:05:16 -0700 someone@somewhere.com wrote ------
Hello Mr.X,
Does the below work out. Do let us know your thoughts.
Thanks,
Mr.Y
Sales Manager.
Bây giờ lý do tại sao chúng tôi muốn phân chia các email là vì chúng tôi muốn phân tích tình cảm. Khi chúng tôi thất bại trong việc phân tách email thì kết quả sẽ sai.
Tôi đã tìm kiếm xung quanh và tìm thấy tài liệu nghiên cứu rất toàn diện này . Cũng tìm thấy một thực hiện bằng súng thư gọi là mail gun Talon . Nhưng thật không may, nó không hoạt động tốt đối với một số loại patters.
Ví dụ: khi thông báo thứ hai trong chuỗi email bị hỏng như
---------- Forwarded message ----------
thay vì ở trên
---- On Wed, 10 May 2017 04:05:16 -0700 someone@somewhere.com wrote ------
Câu hỏi của tôi là nhiều người đang cố gắng làm những thứ như vậy chắc chắn sẽ phải đối mặt với những vấn đề như vậy, nhưng khu vực này vẫn còn khá mờ ám. Có bất kỳ thực hiện khá vững chắc của bài báo hoặc một cái gì đó phân chia email khá tốt.