Tôi có dự án phụ này, nơi tôi thu thập dữ liệu các trang web tin tức địa phương ở nước tôi và muốn xây dựng một chỉ số tội phạm và chỉ số bất ổn chính trị. Tôi đã bao gồm phần lấy thông tin của dự án. Kế hoạch của tôi là làm:
- Khai thác chủ đề không giám sát.
- Phát hiện gần trùng lặp.
- Phân loại giám sát và mức độ sự cố (tội phạm / chính trị - cao / trung bình / thấp).
Tôi sẽ sử dụng python và sklearn và đã nghiên cứu các thuật toán mà tôi có thể sử dụng cho các tác vụ đó. Tôi nghĩ 2. có thể cho tôi một yếu tố liên quan đến một câu chuyện: càng nhiều bài báo xuất bản về một câu chuyện hoặc chủ đề càng phù hợp cho ngày hôm đó.
Bước tiếp theo của tôi là xây dựng chỉ số hàng tháng, hàng tuần và hàng ngày (toàn quốc và mỗi thành phố) dựa trên các tính năng mà tôi có và tôi hơi lạc lõng ở đây vì "độ nhạy không ổn định" có thể tăng theo thời gian. Ý tôi là, chỉ số từ sự cố mất ổn định lớn của năm ngoái có thể thấp hơn chỉ số của năm nay. Ngoài ra nếu để sử dụng tỷ lệ cố định 0-100 hay không.
Sau này tôi muốn có thể dự đoán các sự cố dựa trên điều này, ví dụ liệu sự thành công của các sự kiện trong những tuần trước có dẫn đến một sự cố lớn hay không. Nhưng bây giờ tôi sẽ hài lòng với việc phân loại làm việc và xây dựng mô hình chỉ mục.
Tôi sẽ đánh giá cao bất kỳ con trỏ đến một bài báo, bài đọc hoặc suy nghĩ có liên quan. Cảm ơn.
PD: Xin lỗi nếu câu hỏi không thuộc về nơi này.
CẬP NHẬT : Tôi chưa "làm được", nhưng gần đây có một tin tức về một nhóm các nhà khoa học đang làm việc trong một hệ thống để dự đoán các sự kiện bằng cách lưu trữ tin tức và phát hành một bài báo có liên quan Khai thác Web để dự đoán các sự kiện trong tương lai (PDF ).