Tôi muốn xây dựng một chỉ số tội phạm và chỉ số bất ổn chính trị dựa trên những câu chuyện tin tức


17

Tôi có dự án phụ này, nơi tôi thu thập dữ liệu các trang web tin tức địa phương ở nước tôi và muốn xây dựng một chỉ số tội phạm và chỉ số bất ổn chính trị. Tôi đã bao gồm phần lấy thông tin của dự án. Kế hoạch của tôi là làm:

  • Khai thác chủ đề không giám sát.
  • Phát hiện gần trùng lặp.
  • Phân loại giám sát và mức độ sự cố (tội phạm / chính trị - cao / trung bình / thấp).

Tôi sẽ sử dụng python và sklearn và đã nghiên cứu các thuật toán mà tôi có thể sử dụng cho các tác vụ đó. Tôi nghĩ 2. có thể cho tôi một yếu tố liên quan đến một câu chuyện: càng nhiều bài báo xuất bản về một câu chuyện hoặc chủ đề càng phù hợp cho ngày hôm đó.

Bước tiếp theo của tôi là xây dựng chỉ số hàng tháng, hàng tuần và hàng ngày (toàn quốc và mỗi thành phố) dựa trên các tính năng mà tôi có và tôi hơi lạc lõng ở đây vì "độ nhạy không ổn định" có thể tăng theo thời gian. Ý tôi là, chỉ số từ sự cố mất ổn định lớn của năm ngoái có thể thấp hơn chỉ số của năm nay. Ngoài ra nếu để sử dụng tỷ lệ cố định 0-100 hay không.

Sau này tôi muốn có thể dự đoán các sự cố dựa trên điều này, ví dụ liệu sự thành công của các sự kiện trong những tuần trước có dẫn đến một sự cố lớn hay không. Nhưng bây giờ tôi sẽ hài lòng với việc phân loại làm việc và xây dựng mô hình chỉ mục.

Tôi sẽ đánh giá cao bất kỳ con trỏ đến một bài báo, bài đọc hoặc suy nghĩ có liên quan. Cảm ơn.

PD: Xin lỗi nếu câu hỏi không thuộc về nơi này.

CẬP NHẬT : Tôi chưa "làm được", nhưng gần đây có một tin tức về một nhóm các nhà khoa học đang làm việc trong một hệ thống để dự đoán các sự kiện bằng cách lưu trữ tin tức và phát hành một bài báo có liên quan Khai thác Web để dự đoán các sự kiện trong tương lai (PDF ).


Về phần kỹ thuật (các công cụ), tôi muốn giới thiệu hai cuốn sách là điểm nhìn tốt cả về O'Reiley: Collective Intelligence (với mã Python), Machine Learning (với mã R) ... để nắm bắt các chủ đề liên quan đến bạn. Bước tiếp theo có thể là trang web Manning ... Về phần phương pháp luận, tôi muốn giới thiệu nhóm Semantic Web trên LinkedIn.
Radu Marius Florin

Rất giống câu hỏi này. Hãy cập nhật cho chúng tôi !!
entropy

Câu trả lời:


1

Xem xét các biến thể về điểm số GINI.

Nó được chuẩn hóa và đầu ra của nó nằm trong khoảng từ 0 đến 1.

BIÊN TẬP:

Tại sao GINI "mát mẻ" hoặc ít nhất có khả năng thích hợp:

Nó là thước đo của bất bình đẳng hoặc bất bình đẳng. Nó được sử dụng như một biện pháp miễn phí theo tỷ lệ để mô tả tính không đồng nhất của các mạng không có tỷ lệ, bao gồm các mạng vô hạn và ngẫu nhiên. Nó rất hữu ích trong việc xây dựng các cây GIỎI vì nó là thước đo sức mạnh phân chia của một sự phân chia dữ liệu cụ thể.

Bởi vì phạm vi của nó:

  • có ít lỗi vòng hơn. Phạm vi xa từ 1.0 có xu hướng bị các vấn đề số.
  • nó là con người có thể đọc được, và con người dễ tiếp cận hơn. Con người có một nắm bắt cụ thể hơn về các vật thể so với hàng tỷ.

Bởi vì nó được chuẩn hóa:

  • so sánh điểm số có ý nghĩa, 0,9 ở một quốc gia có nghĩa là cùng một mức độ không đồng đều tương đối như 0,9 ở bất kỳ quốc gia nào khác.
  • Nó được chuẩn hóa theo đường cong Lorenz để có sự đồng nhất hoàn hảo do đó các giá trị là các chỉ số phù hợp về mối quan hệ của phân phối các giá trị quan tâm đối với đường cong Lorenz.

Người giới thiệu:


4
Chào mừng đến với trang web, @EngrStudent. Bạn có phiền khi nói thêm một chút về hệ số GINI không, và tại sao đó là câu trả lời đúng ở đây? Vì bạn mới ở đây và bắt đầu đóng góp, bạn có thể muốn đọc Câu hỏi thường gặp của chúng tôi , trong đó có rất nhiều thông tin về trang web.
gung - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.