Trích xuất từng email từ một chuỗi email


7

Hầu hết các bộ dữ liệu nguồn mở được định dạng tốt, tức là mỗi thông báo email được phân tách tốt như bộ dữ liệu email enron. Nhưng trong thế giới thực, rất khó để tách một email hàng đầu khỏi một chuỗi các email.

Ví dụ xem xét tin nhắn dưới đây.

Hi,

Can you offer me a better discount.

Thanks,
Mr.X
Customer Relations.

---- On Wed, 10 May 2017 04:05:16 -0700 someone@somewhere.com wrote ------

Hello Mr.X,

Does the below work out. Do let us know your thoughts.

Thanks,
Mr.Y

Sales Manager.

Bây giờ lý do tại sao chúng tôi muốn phân chia các email là vì chúng tôi muốn phân tích tình cảm. Khi chúng tôi thất bại trong việc phân tách email thì kết quả sẽ sai.

Tôi đã tìm kiếm xung quanh và tìm thấy tài liệu nghiên cứu rất toàn diện này . Cũng tìm thấy một thực hiện bằng súng thư gọi là mail gun Talon . Nhưng thật không may, nó không hoạt động tốt đối với một số loại patters.

Ví dụ: khi thông báo thứ hai trong chuỗi email bị hỏng như

---------- Forwarded message ---------- 

thay vì ở trên

---- On Wed, 10 May 2017 04:05:16 -0700 someone@somewhere.com wrote ------

Câu hỏi của tôi là nhiều người đang cố gắng làm những thứ như vậy chắc chắn sẽ phải đối mặt với những vấn đề như vậy, nhưng khu vực này vẫn còn khá mờ ám. Có bất kỳ thực hiện khá vững chắc của bài báo hoặc một cái gì đó phân chia email khá tốt.


liên kết này không hữu ích cho bạn ???
Abhishek Verma

nó mô tả vấn đề theo một cách chung chung, nhưng tôi chỉ muốn xem liệu có bất kỳ tiện ích / thư viện đã sẵn sàng nào để làm việc này không. Nó rất hữu ích nhưng có quá nhiều thứ để nghiên cứu và thực hiện.
Coder tham lam

1
Không biết bạn đã xem chưa, nhưng tác giả của bài báo mà bạn trích dẫn đã có sẵn trên trang web của anh ấy một triển khai phương pháp của họ trong một phần mềm có tên là jangada , có thể điều chỉnh xung quanh nó?
Bogas

@BAF: Cảm ơn. Tôi chưa từng thấy điều đó trước đây. Sẽ xem xét cách nó hoạt động.
Coder tham lam

Câu trả lời:


1

Trước tiên, bạn có thể đọc về định dạng của tin nhắn văn bản internet ARPA .

Bạn sẽ phải phân tích cú pháp Regex nếu bạn muốn trích xuất bất kỳ thông tin có ý nghĩa nào từ các email. Tôi muốn đề xuất cuốn sách Oreilly trên regex hoặc đọc qua các biểu thức thông thường .

Ngoài ra còn có một công cụ để chụp văn bản từ các email đến và ghi vào một tệp văn bản .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.