Trên một tập thể đa ngôn ngữ


7

Tôi đang tìm cách biên dịch một tập hợp tình cảm cho các bài báo bằng nhiều ngôn ngữ (~ 100k mỗi lang. Cho một thử nghiệm học máy) trong đó mỗi bài viết được gắn nhãn tích cực, trung tính hoặc tiêu cực. Tôi đã tìm kiếm cao và thấp nhưng không thể tìm thấy bất cứ thứ gì như thế này có sẵn. Tôi đã có các bài báo tin tức trong mỗi ngôn ngữ.

Câu hỏi của tôi với cộng đồng là làm thế nào bạn đạt được điều này chính xác nhất có thể?

Lần đầu tiên tôi nhìn vào Mechanical Turk , nơi bạn có thể thuê người dán nhãn cho mỗi bài viết theo cách thủ công cho bạn. Và đây có thể là cách tốt nhất về phía trước nhưng đắt tiền . nhập mô tả hình ảnh ở đây

Tiếp theo, tôi nghĩ về tất cả những thư viện phổ biến hiện có (một số người đã sử dụng Mechanical Turk) thực hiện phân tích tình cảm ( AFINN , Bing Liu , MPQA , VADER , TextBlob , v.v.)

  1. Ý tưởng tình cảm

Ý tưởng hiện tại của tôi là tôi chạy từng bài báo trên một vài trong số các thư viện này (ví dụ AFINN, sau đó là TextBlob, rồi VADER) và cho những bài viết thể hiện sự tích cực, tiêu cực, trung lập nhất trí mặc dù cả ba lib đều được chấp nhận vào kho văn bản. Điều đó có vẻ như là một quá trình xác minh khá mạnh mẽ và hợp lý?

  1. Ý tưởng ngôn ngữ

Vấn đề tiếp theo liên quan đến chính ngôn ngữ. 3 đường ống lib ở trên có thể được thực hiện bằng tiếng Anh mà không có vấn đề gì. Tuy nhiên, các thư viện này không đồng nhất hỗ trợ nhiều ngôn ngữ khác (Tây Ban Nha, Đức, Trung Quốc, Ả Rập, Pháp, Bồ Đào Nha, v.v.) Tôi đã suy nghĩ về việc làm những gì VADER gợi ý và lấy các câu chuyện tin tức bằng các ngôn ngữ không phải tiếng Anh và gửi chúng qua Google Dịch API để đưa chúng sang tiếng Anh và sau đó gửi chúng qua 3 đường dẫn lib hiện có ở trên. Tôi nhận ra rằng sẽ có một sự mất mát về ngữ nghĩa cho nhiều bài viết. Tuy nhiên, hy vọng của tôi là đủ bài viết sẽ dịch đủ tốt để một số người vượt qua 3 đường dẫn lib.

Tôi biết rằng việc dịch và gửi các bài báo qua đường ống tình cảm mù quáng này có thể mất 100 nghìn và mang lại kết quả 10 nghìn. Tôi ổn với điều đó. Sự chính xác và sau đó giá cả là mối quan tâm của tôi. Tôi có thể dễ dàng có được nhiều dữ liệu hơn.

Bạn sẽ làm gì có thể là một cách chính xác hơn để đạt được một tình cảm của các bài báo? Có một thực hành được sử dụng tốt nhất hiện có để lắp ráp một kho văn bản như thế này?


2
Tôi nghĩ vấn đề chính với điều này là một bài viết càng dài thì tình cảm càng không rõ ràng. Một bài báo dài có thể dễ dàng chứa các phần tích cực, tiêu cực và trung tính trong các tỷ lệ khác nhau. Đó là lý do tại sao bạn thấy phân tích tình cảm chủ yếu dành cho văn bản ngắn như phản hồi khảo sát, tweet, v.v ... Có phải khá rõ ràng từ bài viết của bạn về tình cảm mà họ nên được gán cho?
oW_

Hấp dẫn. Cảm ơn bạn đã phản hồi của bạn! Không rõ tình cảm chung cho các tập tin là gì.
Chris

@Chris nếu không rõ tình cảm là gì, tại sao bạn lại muốn gắn nhãn cho họ? Mục tiêu của việc có tình cảm trên mỗi bài viết là gì?
Bruno Lubascher

Cảm ơn bạn @BrunoGL. Tôi muốn dán nhãn cho mỗi bài viết cho một bộ đào tạo. Đây là những bài viết ngẫu nhiên. Tôi đang sử dụng chúng đặc biệt để khái quát hóa (đào tạo NN) trên toàn thể.
Chris

Làm thế nào về việc ghi nhãn không phải toàn bộ bài viết với 1 tình cảm mà thay vào đó, mỗi dòng trong các bài viết có thể có tình cảm riêng của họ?
atmarges

Câu trả lời:


1

Một số câu hỏi và suy nghĩ đến trong tâm trí.

  1. Những ngôn ngữ trong kho văn bản? Điều này có thể ảnh hưởng đến những dịch vụ bạn có thể tận dụng.
  2. Tôi thích "Ý tưởng tình cảm" cho các ngôn ngữ được hỗ trợ nguyên bản bởi các dịch vụ bạn đã đề cập.
  3. Tôi sẽ giữ "Ý tưởng ngôn ngữ" là phương sách cuối cùng vì có thể công cụ dịch thuật không thể nắm bắt được tình cảm của ngôn ngữ gốc.
  4. Mechanical Turk sẽ là một lựa chọn tốt nếu bạn có thể giới hạn số lượng mẫu được gửi để phân loại. Đối với mỗi ngôn ngữ, bạn có thể thử phân cụm các đoạn bằng cách, ví dụ, đếm từ thành 30 cụm (bạn chọn) và sau đó thực hiện lấy mẫu trong các cụm để xác định các đoạn ứng cử viên để gửi đến Mechanical Turk. Tôi đã sử dụng kỹ thuật này để cố gắng lấy mẫu trên không gian vectơ đồng đều hơn.

Đừng bỏ qua bình luận của oW_. Bạn nên nghiêm túc xem xét việc chia các bài viết thành các đoạn văn. Bạn luôn có thể tổng hợp điểm số đoạn văn cho bài viết, nhưng thật khó để có được một điểm đại diện vì văn bản dài hơn.

HTH

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.