8

Khi một ứng dụng cho phép các email được gửi tới nó để trả lời bình luận hoặc thêm todos, việc cắt xén những email đó chỉ để văn bản có liên quan trở thành một vấn đề, vì có nhiều tiêu chuẩn khác nhau. Nhiều lần bạn sẽ thấy những thứ như thế này:

Này Joe, thật tốt khi nghe tin từ bạn. Hãy cho tôi biết khi nào bạn sẽ quay lại thị trấn.
Đăng bởi Bob, 30 phút trước

Tôi sẽ trở lại vào ngày 13.

-
Trân trọng,
Joseph R. Roberts
Đối tác cao cấp

Thông tin liên lạc này là bí mật và là tài sản của Công ty Luật.
Đăng bởi Joe, 10 giây trước

Chữ ký có lẽ là khó khăn nhất để thoát khỏi, và trích dẫn văn bản dễ nhất. Tôi tưởng tượng bất kỳ chiến lược toàn diện để cắt tỉa sẽ là đa thực tế, và lý tưởng nhất là học tập. Tôi nghĩ rằng một hệ thống tốt nên:

Hủy bỏ trích dẫn cơ thể
Xóa tiêu đề trích dẫn ("Vào ngày 15 tháng 10, Joe đã viết:")
Xóa chữ ký
Bảo quản bất cứ thứ gì được gõ bằng tay.

Những bước nào mà một hệ thống sẽ cần phải thực hiện để thực hiện điều này, và những cạm bẫy nào cần phải biết?

^{Câu trả lời này là một ví dụ tốt về một câu trả lời hữu ích cho một câu hỏi tương tự}

algorithms machine-learning

— Nicole
nguồn

Hãy cẩn thận với việc xóa thông tin thực tế trong khi phân tích cú pháp vì nó loại bỏ ngữ cảnh, có thể đánh dấu các dòng / chỉ mục tốt hơn là loại bỏ thay vì loại bỏ chúng.

— Carlo Kuip

Có một dấu phân cách chữ ký tiêu chuẩn bất thành văn, đó là hai dấu gạch nối và một khoảng trắng trên chính dòng.

— Blrfl

Nhưng hai dấu gạch nối không phải lúc nào cũng có nghĩa là, ví dụ như khi người gửi muốn tách một cái gì đó nhưng cuối cùng thì thứ hai lại bị cắt. Đau quá ...

— Erica Xu

1

Các "-" được sử dụng vì phần mềm eMail thường vứt bỏ dấu không gian, vì vậy nó nên chỉ xảy ra như một delimiter .sig. Như với HTML và MIME nói chung, YMMV, nhưng tôi không chạy qua các sự cố tình cờ về điều này trong thực tế. Trong số những thứ khác, Evolution và Gmail thực hiện phân tích cú pháp "-".

— BRPocock

2

Chữ ký được định dạng chính xác rất dễ xác định bởi dòng '-' (dấu gạch ngang dấu gạch ngang) đi trước chúng. Chúc may mắn tìm được nhiều. Mặc dù netiquette yêu cầu chữ ký không quá ba dòng, nhiều tổ chức có chữ ký tiêu chuẩn và từ chối trách nhiệm vượt xa điều này.

Văn bản trích dẫn được định dạng chính xác sẽ bắt đầu bằng một ký tự '>' quặng. Điều này giả định rằng bạn có một bản sao văn bản đơn giản của cơ thể để trích xuất dữ liệu từ đó.

Các tin nhắn được định dạng HTML có thể có kiểu CSS sẽ giúp làm những gì bạn muốn.

— BillThor
nguồn

1

Bạn chỉ có thể cắt email như mọi người thường làm với laser mắt của họ. Bỏ qua các phần trích dẫn và chữ ký.

Nhưng hãy chắc chắn để lưu một bản sao trong trường hợp cắt xén lộn xộn. Hoặc bạn có thể để khách hàng cắt một vài email trước và làm theo thói quen của anh ấy / cô ấy.

Tuy nhiên, cẩn thận và cân nhắc, tôi không nghĩ có cách nào để đảm bảo tất cả các email đều được cắt xén tài sản. Một số điều kỳ lạ được viết bằng tay sẽ bị cắt bỏ.

(Hoặc bạn có thể thay đổi cách viết email - tạo dấu trong khi mọi người thực sự gõ hoặc sao chép và dán và bảo quản các phần đó. Nhưng thay đổi này có thể mất nhiều thời gian ...)

— Erica Xu
nguồn

1

Sẽ không dễ dàng để dọn rác trong e-mail vì phần mềm e-mail của khách hàng và con người không gắn thẻ các phần e-mail một cách thuận tiện, nhưng để làm sạch các tin nhắn tôi sẽ bắt đầu bằng cách:

Phản hồi có thể có văn bản trộn với dấu ngoặc kép, trước, sau hoặc trộn với chuỗi khối. Trong một số trường hợp, như bạn đã đề cập, một số yếu tố có thể được làm sạch trực tiếp:

tiêu đề ẩn;
chuyển tiếp và trả lời tiêu đề từ các khách hàng email lớn
blockquote từ các khách hàng email lớn

Không nhiều, nhưng là một sự khởi đầu.

Bạn có thể cải thiện điều này bằng cách xâu chuỗi các thông điệp theo luồng và sử dụng thuật toán diff theo cách tương tự như git làm cho mã nguồn

Tin nhắn e-mail có các tiêu đề ẩn có thể được sử dụng để xâu chuỗi các câu trả lời và chuyển tiếp với nhau. Sử dụng đó bạn có thể gắn một biểu đồ hướng dẫn của các cuộc hội thoại. Tôi không biết điều này đáng tin cậy đến mức nào, nhưng tôi nghi ngờ điều đó sẽ nhóm rất nhiều cuộc trò chuyện. Nhiều máy chủ danh sách có điều hướng "luồng" hoạt động tốt và tôi nghi ngờ rằng họ sẽ xâu chuỗi các tin nhắn theo cách đó.

Bạn có thể cải thiện điều này bằng cách so sánh trực tiếp các email từ cùng một nguồn để cô lập chữ ký

Chữ ký tự động có mặt trong hầu hết các e-mail từ cùng một nguồn. Không chỉ vậy, mà các khẩu hiệu và trang trí khác thường được sử dụng bởi một tác giả. Bằng cách so sánh một số e-mail từ cùng một người, những trang trí đó có thể được tìm thấy và làm mờ đi không đáng kể đối với nội dung. Trực giác của tôi nói với tôi rằng sẽ cần một số điều chỉnh để cô lập trang trí khi bắt đầu và kết thúc e-mail và tránh các biểu thức phổ biến trong văn bản được sử dụng bởi tác giả.

Bạn có thể cải thiện điều này bằng cách so sánh trực tiếp e-mail với cơ sở dữ liệu e-mail để tìm các văn bản tương tự

Điều này sẽ khó phát triển, nhưng có thể chứng minh là một công cụ kiểm toán tuyệt vời.

Trực giác của tôi là bằng cách viết một tin nhắn, tìm các tin nhắn có cùng từ và so sánh chúng, sẽ có thể sử dụng một cơ sở dữ liệu tìm kiếm toàn văn bản PostgreQuery để cung cấp hiệu suất hợp lý cho điều đó.

  [chunk 1][chunk 3][chunk 5][chunk 7]
      [chunk 2][chunk 4][chunk 6]

  chunk 1: 0-50; chunk 2: 25-75; chunk 3: 50-100 ...

Ý tưởng là liệt kê các từ trong một đoạn, xác định những từ ít được sử dụng và truy vấn cơ sở dữ liệu các e-mail có chúng. Sau đó so sánh các e-mail mặc dù thuật toán diff để xem phần nào bằng nhau.

Điều này sẽ cho phép vượt ra ngoài chuỗi trực tiếp bởi id tin nhắn. Ví dụ, nó sẽ nhận ra bản sao và dán.

Tuy nhiên một số điều chỉnh sẽ là cần thiết ở đây

Bạn có thể cải thiện kết hợp bằng các kỹ thuật khai thác văn bản

Khai thác văn bản tiêu chuẩn (như được mô tả trong nhiều luận án), bao gồm một bước làm sạch trong đó văn bản được đơn giản hóa. Các kết nối được xóa khỏi văn bản (a, is, và, hoặc, v.v.) và các từ được chuyển đổi như (ví dụ: đã thay đổi, có thể thay đổi để thay đổi). Văn bản chuyển đổi này không thể đọc được, nhưng đối với văn bản phù hợp là tốt.

Việc dọn dẹp như thế sẽ tách biệt các vấn đề khớp thường xảy ra khi người đó định dạng lại email hoặc e-mail được chuyển đổi từ html từ / sang văn bản thuần túy. Điều này cũng sẽ ngăn việc sửa lỗi chính tả đơn giản để phá vỡ chuỗi.

Phần kết luận

Đây là một vấn đề tuyệt vời. Đề nghị của tôi hoàn toàn dựa trên trực giác, chưa được kiểm tra và suy đoán tốt nhất. Đó là con đường ban đầu mà tôi sẽ bắt đầu nghiên cứu nếu gặp vấn đề như thế này. Tôi tin rằng sẽ khó phát triển, nhưng có thể là một công cụ kiểm toán và truyền thông mạnh mẽ.

Một giải pháp như thế này có thể sẽ làm cho một kho lưu trữ e-mail tốt. Bằng cách xâu chuỗi các tin nhắn và chỉ lưu trữ các khác biệt và khối, bạn có thể sẽ có một yếu tố nén lớn hơn bất cứ thứ gì mà một zip có thể làm.

Ngoài ra, đây sẽ là một công cụ kiểm toán mạnh mẽ. Nó sẽ trở nên rõ ràng khi một người giả mạo một blockquote, một câu trả lời hoặc một chuyển tiếp. Blockquote đã sửa đổi sẽ được xác định là văn bản gốc và sẽ không được làm sạch bằng giải pháp.

— Lucas
nguồn

0

Sự thật khách quan là ở đây không có cách nào an toàn để làm điều đó - không dành cho bất kỳ email / thảo luận chung chung nào.

NẾU các email bạn muốn phân tích LUÔN LUÔN tuân theo một số quy tắc nghiêm ngặt, bạn có thể gặp may.

NẾU các email có thể đến từ bất kỳ ai sử dụng bất kỳ ứng dụng email nào, bạn luôn có nguy cơ vứt bỏ dữ liệu tốt và giữ rác.

Chữ ký: chúng có tất cả các hình thức và hình dạng, từ thiếu hoàn toàn đến rất ngắn gọn, để chứa các kịch bản và hình ảnh động phức tạp.

"Tiêu đề" và "chân trang" cũng có thể có tất cả các loại nội dung / từ khóa.

"Tốt nhất" là gì: đó là thói quen nếu email ban đầu chứa danh sách các câu hỏi, câu trả lời trong email mới sẽ thực sự được chỉnh sửa xen kẽ với các dòng của email cũ.

— virolino
nguồn

Làm thế nào để cắt email cho cơ thể, khi sử dụng email làm đầu vào cho một hệ thống bên ngoài?