Có một phần mềm thực hiện phân tích văn bản trên blog? [đóng cửa]


8

Công ty của tôi đang tìm cách tạo trực quan PivotViewer cho các bài đăng trên blog Wordpress 2 của khách hàng trong 11 năm qua. Tuy nhiên, để làm như vậy, chúng ta cần chỉnh sửa các thẻ hơi khó hiểu, không đầy đủ và nói chung là kém để sử dụng làm danh mục có thể sắp xếp. Tôi đang tìm kiếm một công cụ sẽ phân tích các mục blog của họ và thực hiện đếm từ, để cho chúng tôi biết ý nghĩa của chúng tôi.

Lý tưởng nhất, nó sẽ có tất cả các tính năng sau:

  1. Danh sách đen từ (bỏ qua)
  2. Từ bắt nguồn
  3. Hợp nhất từ ​​đồng nghĩa
  4. Đếm tất cả các mục đích sử dụng
  5. Đếm số lượng bài viết một từ xuất hiện trong.

Tôi đã có thể nghĩ rằng loại phân tích văn bản này sẽ cực kỳ phổ biến, nhưng tôi không thể tìm thấy bất kỳ phần mềm nào thực hiện loại điều này trên toàn bộ blog. Có phần mềm có sẵn để làm điều này?


3
Hấp dẫn. Khi nghi ngờ, Python đã lấy lại của bạn.
James T Snell

Vâng ... tôi thực sự hy vọng tôi không phải tự lăn lộn trên cái này.
Brian Bauman

có một cái gì đó làm điều này ... Tôi nhớ một người bạn đã phân tích wikipedia ... Tôi sẽ kiểm tra với anh ta vào ngày mai
Keltari

Câu trả lời:


3

Phần mềm bạn đang tìm kiếm có thể có nhiều tiêu đề, như "Phân tích nội dung" , "Thẻ đám mây" hoặc "Thẻ meta" và nhiều phần mềm khác như "phân tích văn bản" và "khai thác văn bản".

Có rất nhiều công cụ phần mềm cho các mục đích này, cả miễn phí và thương mại.

Tôi không có kinh nghiệm cá nhân với các công cụ như vậy, nhưng một nơi tốt để bắt đầu là Công cụ phân tích văn bản liệt kê hàng tá công cụ như vậy, cả miễn phí và thương mại.

Một danh sách khác là Phân tích văn bản, Khai thác văn bản và Phần mềm truy xuất thông tin .


Tôi đã lọc theo cách của mình thông qua danh sách đầu tiên, nhưng không có tùy chọn miễn phí nào bao gồm nhiều hơn phân tích ngôn ngữ. Chưa xem qua danh sách thứ hai - tôi có thể sẽ tự mình lăn lộn.
Brian Bauman

2

Hãy xem Rapidminer hoặc Weka

Xem như là một blog của khách hàng, bạn có thể có quyền truy cập cơ sở dữ liệu. Tải xuống tất cả các bài viết dưới dạng bản rõ và sử dụng một trong các chương trình trên để giải quyết các câu hỏi xử lý ngôn ngữ tự nhiên (1,2,3 và 5).

Số lượng sử dụng rất khó để tự động thực sự vì nó phải làm với việc tự động xác định nghĩa của các từ bằng cách sử dụng ngữ cảnh.


Đếm tất cả các mục đích sử dụng, không phải người dùng. Tuy vậy vẫn cảm ơn về những gợi ý.
Brian Bauman

Tôi đọc sai, mybad. Tuy nhiên, bạn nên kiểm tra Rapidminer hoặc Weka để xử lý ngôn ngữ tự nhiên. Đó là, trừ khi bộ dữ liệu rất lớn, bởi vì cả hai đều cố gắng để phù hợp với nó trong bộ nhớ
suweller

2

một trong những phần mềm phân tích nội dung nhất là WordStat được thiết kế bởi Provalis Research

WordStat là một mô-đun phân tích văn bản cho QDA Miner hoặc SimStat. WordStat kết hợp phương pháp phân tích nội dung bằng cách sử dụng phương pháp từ điển và nhiều thuật toán thăm dò hoặc các phương pháp khai thác văn bản khác nhau. WordStat có thể áp dụng các từ điển phân loại hiện có cho một văn bản mới. Nó cũng có thể được sử dụng trong việc phát triển và xác nhận các từ điển phân loại mới. Khi được sử dụng cùng với mã hóa thủ công, mô-đun này có thể cung cấp hỗ trợ cho việc áp dụng các quy tắc mã hóa có hệ thống hơn, giúp phát hiện ra sự khác biệt trong cách sử dụng từ giữa các nhóm con của các cá nhân và hỗ trợ sửa đổi mã hóa hiện có bằng cách sử dụng bảng KWIC (Keyword In Context). WordStat được thiết kế đặc biệt để nghiên cứu thông tin văn bản như trả lời các câu hỏi mở, phỏng vấn, tiêu đề, bài báo, bài phát biểu công khai, thông tin liên lạc điện tử, v.v.

http://provalisresearch.com/products/content-analysis-software/



0

Một số câu hỏi này có thể được trả lời một cách nhanh chóng và bẩn thỉu bằng cách sử dụng Google Tìm kiếm trên blog của bạn (dễ nhất nếu nó có tên miền riêng).


0

Zemanta phân tích và có thể đề xuất các thẻ và liên kết. Đây cũng là một plugin wordpress.

Vấn đề duy nhất: vì hiện tại nó đứng, nó yêu cầu mở thủ công và chọn và lưu từng bài.

Có một số lượng lớn các plugin tự động gắn thẻ cho wordpress. Bạn nên tìm kiếm công cụ tìm plugin và thử một vài lần.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.