Ví dụ về khai thác văn bản với R (gói tm)

14

Tôi đã dành ba ngày để tìm tmhiểu sau khi đọc một bản thảo của một người bạn nơi anh ta khám phá một văn bản văn bản với UCINET, hiển thị các đám mây văn bản, đồ thị mạng hai chế độ và Phân tích giá trị đơn (với đồ họa, sử dụng Stata). Tôi đã chạy theo một số lượng lớn các vấn đề: trên Mac OS X, có các vấn đề với Java đằng sau các thư viện như Snowball (xuất phát) hoặc Rgraphviz (biểu đồ).

Có thể một người nào đó điểm ra không gói - Tôi đã xem xét tm, wordfishvà wordscores, và biết về NLTK - nhưng nghiên cứu, nếu có thể với mã, trên dữ liệu văn bản, mà sử dụng thành công tmhay cái gì khác để phân tích dữ liệu như các cuộc tranh luận của quốc hội hoặc văn bản pháp luật? Tôi dường như không thể tìm thấy nhiều về vấn đề này, và thậm chí ít mã hơn để học hỏi.

Dự án của riêng tôi là một cuộc tranh luận tại quốc hội kéo dài hai tháng, với các biến này được thông báo trong tệp CSV: phiên nghị viện, diễn giả, nhóm nghị sĩ, văn bản can thiệp bằng miệng. Tôi đang tìm kiếm sự khác biệt giữa các diễn giả và đặc biệt là giữa các nhóm nghị sĩ trong việc sử dụng các thuật ngữ hiếm và ít hiếm, ví dụ như "cuộc nói chuyện an ninh" chống lại cuộc nói chuyện "tự do dân sự".

r text-mining

— Cha
nguồn

1

stackoverflow.com/questions/4070483/text-retriny-USE-r

7

Luận án Tiến sĩ từ Tác giả của tm, Ingo Feinerer từ Áo, được viết bằng tiếng Anh. Chương 7-10 của tài liệu này chứa các ứng dụng của gói tm, với độ phức tạp tăng dần.

http://epub.wu.ac.at/1923/

Chương 7 trình bày một ứng dụng của tm bằng cách phân tích danh sách gửi thư R-devel 2006. Chương 8 cho thấy một ứng dụng khai thác văn bản cho doanh nghiệp cho thương mại điện tử tiêu dùng. Chương 9 là một ứng dụng của tm để điều tra các khu vực tài phán của tòa án hành chính tối cao của Áo liên quan đến các khoản phí và thuế. [...] . Chương 10 cho thấy một ứng dụng cho phép đo kiểu dáng và quyền tác giả trên tập dữ liệu Wizard of Oz.

Đọc toàn bộ tài liệu để che. Tuy nhiên, lưu ý rằng tài liệu được viết vào năm 2008 và kể từ đó, đã có một vài thay đổi API, ví dụ, luận án tiến sĩ đề cập đến một chức năng tmMap()đã được đổi tên thành tm_map(). Vì vậy, các ví dụ mã sẽ không hoạt động như hiện tại, bạn không thể sử dụng tính năng cắt và dán để thử chúng.

Bạn cũng có thể đi đến

http://tm.r-forge.r-project.org/users.html

"Trong nỗ lực thông báo cho người dùng mới về các ứng dụng tm hiện có, trang web này nhằm mục đích cung cấp (một bảng chữ cái không đầy đủ) của người dùng tm và nhận xét của họ. Người dùng được biết đến từ các viện nghiên cứu qua các công ty cho đến các cá nhân."

và tìm kiếm trên trang đó cụm từ "đã viết một bài báo" và bạn sẽ tìm thấy nhiều liên kết. Tôi chỉ đọc một trong những bài báo, "phát hiện chủ đề tự động trong lời bài hát". Khá thú vị, và hài hước.

— đầu gối
nguồn

Tôi nghĩ rằng luận án của Feinerer là tài liệu đã giúp tôi nhiều nhất cho đến nay. Cảm ơn!

— Cha

5

Một nơi tốt để bắt đầu có thể là danh sách các ấn phẩm tại trang web tm, chẳng hạn như trang này:

Cơ sở hạ tầng khai thác văn bản trong R. http://www.jstatsoft.org/v25/i05

Danh sách tài liệu tham khảo ở cuối mỗi ấn phẩm này bao gồm các ứng dụng thành công tm, đó là những gì bạn dường như đang tìm kiếm. Có rất nhiều - đặc biệt là nếu sau đó bạn làm theo các tài liệu tham khảo của các tài liệu tham khảo.

Ví dụ: Đây là một trong những có thể có liên quan:

Feinerer I, Hornik K (2007). \ Khai thác văn bản của các khu vực hành chính của tòa án hành chính tối cao. "Trong C Preisach, H Burkhardt, L Schmidt-Thieme, R Decker (chủ biên), \ Phân tích dữ liệu, học máy và ứng dụng (Kỷ yếu của Hội nghị thường niên lần thứ 31 của Gesellschaft Klassikation eV, ngày 7 tháng 3 {9, 2007, Freiburg, Đức), "Nghiên cứu về phân loại, phân tích dữ liệu và tổ chức tri thức. Springer-Verlag.

Chúc may mắn.

— Aman
nguồn

Cảm ơn các tài liệu tham khảo. Tuy nhiên, mức độ chi tiết không đủ trong các ấn phẩm này - tôi đã phải đọc từ luận văn của Feinerer để có đủ thông tin chi tiết về cách vận hành tmcủa tôi. Tuy nhiên, cảm ơn rất nhiều :)

— Fr.