Tôi không chắc liệu câu hỏi này có hoàn toàn phù hợp ở đây không, nếu không, xin vui lòng xóa.
Tôi là một sinh viên tốt nghiệp kinh tế. Đối với một dự án điều tra các vấn đề về bảo hiểm xã hội, tôi có quyền truy cập vào một số lượng lớn các báo cáo vụ việc hành chính (> 200k) liên quan đến các đánh giá đủ điều kiện. Những báo cáo này có thể có thể được liên kết với thông tin hành chính cá nhân. Tôi muốn trích xuất thông tin từ các báo cáo có thể được sử dụng trong phân tích định lượng và lý tưởng hơn là tìm kiếm từ khóa / regex đơn giản bằng cách sử dụng grep
/ awk
v.v.
Làm thế nào hữu ích là xử lý ngôn ngữ tự nhiên cho việc này? Phương pháp khai thác văn bản hữu ích khác là gì? Từ những gì tôi hiểu đây là một lĩnh vực rộng lớn, và rất có thể một số báo cáo sẽ phải được chuyển đổi để được sử dụng như một kho văn bản. Có đáng để đầu tư một chút thời gian để làm quen với các tài liệu và phương pháp? Nó có thể hữu ích và có một cái gì đó tương tự đã được thực hiện trước đây? Có đáng giá về mặt phần thưởng không, tức là tôi có thể trích xuất thông tin hữu ích bằng cách sử dụng NLP cho một nghiên cứu thực nghiệm trong kinh tế học không?
Có thể có kinh phí để thuê ai đó đọc và chuẩn bị một số báo cáo. Đây là một dự án lớn hơn và có khả năng xin cấp thêm kinh phí. Tôi có thể cung cấp thêm chi tiết về chủ đề nếu thực sự cần thiết. Một biến chứng tiềm ẩn là ngôn ngữ là tiếng Đức, không phải tiếng Anh.
Về trình độ chuyên môn, tôi hầu hết được đào tạo về kinh tế lượng, và có một số kiến thức về thống kê tính toán ở cấp độ của Hastie et al. sách. Tôi biết Python, R, Stata và có thể nhanh chóng làm quen với Matlab. Với các thư viện, tôi cho rằng Python là công cụ được lựa chọn cho việc này. Không được đào tạo về các phương pháp định tính nếu điều này có liên quan, nhưng tôi biết một số người tôi có thể tiếp cận.
Tôi vui mừng cho bất kỳ đầu vào nào về điều này, tức là nếu điều này có khả năng hữu ích, nếu vậy, bắt đầu đọc ở đâu và cụ thể là công cụ nào để tập trung vào.