Sử dụng khai thác văn bản / công cụ xử lý ngôn ngữ tự nhiên cho toán kinh tế lượng


9

Tôi không chắc liệu câu hỏi này có hoàn toàn phù hợp ở đây không, nếu không, xin vui lòng xóa.

Tôi là một sinh viên tốt nghiệp kinh tế. Đối với một dự án điều tra các vấn đề về bảo hiểm xã hội, tôi có quyền truy cập vào một số lượng lớn các báo cáo vụ việc hành chính (> 200k) liên quan đến các đánh giá đủ điều kiện. Những báo cáo này có thể có thể được liên kết với thông tin hành chính cá nhân. Tôi muốn trích xuất thông tin từ các báo cáo có thể được sử dụng trong phân tích định lượng và lý tưởng hơn là tìm kiếm từ khóa / regex đơn giản bằng cách sử dụng grep/ awkv.v.

Làm thế nào hữu ích là xử lý ngôn ngữ tự nhiên cho việc này? Phương pháp khai thác văn bản hữu ích khác là gì? Từ những gì tôi hiểu đây là một lĩnh vực rộng lớn, và rất có thể một số báo cáo sẽ phải được chuyển đổi để được sử dụng như một kho văn bản. Có đáng để đầu tư một chút thời gian để làm quen với các tài liệu và phương pháp? Nó có thể hữu ích và có một cái gì đó tương tự đã được thực hiện trước đây? Có đáng giá về mặt phần thưởng không, tức là tôi có thể trích xuất thông tin hữu ích bằng cách sử dụng NLP cho một nghiên cứu thực nghiệm trong kinh tế học không?

Có thể có kinh phí để thuê ai đó đọc và chuẩn bị một số báo cáo. Đây là một dự án lớn hơn và có khả năng xin cấp thêm kinh phí. Tôi có thể cung cấp thêm chi tiết về chủ đề nếu thực sự cần thiết. Một biến chứng tiềm ẩn là ngôn ngữ là tiếng Đức, không phải tiếng Anh.

Về trình độ chuyên môn, tôi hầu hết được đào tạo về kinh tế lượng, và có một số kiến ​​thức về thống kê tính toán ở cấp độ của Hastie et al. sách. Tôi biết Python, R, Stata và có thể nhanh chóng làm quen với Matlab. Với các thư viện, tôi cho rằng Python là công cụ được lựa chọn cho việc này. Không được đào tạo về các phương pháp định tính nếu điều này có liên quan, nhưng tôi biết một số người tôi có thể tiếp cận.

Tôi vui mừng cho bất kỳ đầu vào nào về điều này, tức là nếu điều này có khả năng hữu ích, nếu vậy, bắt đầu đọc ở đâu và cụ thể là công cụ nào để tập trung vào.


LASSO, Least Angle Regression và phân tích Logistic là một vài công cụ có khả năng liên quan. Bạn có thể muốn kiểm tra cách tôi tiếp cận một vấn đề tương tự cho bằng tiến sĩ của mình. luận án ở đây và bài viết trên blog của tôi về các công cụ NLP trong kinh tế học ở đây . Nếu bạn có bất cứ nơi nào có điều này, sẽ rất tuyệt khi nghe về sự tiến bộ của bạn hoặc bất kỳ thử thách nào bạn có thể gặp phải.
tốt nghiệp

Câu trả lời:


2

Tôi nghĩ rằng nó sẽ có lợi cho bạn để xác định thông tin bạn muốn trích xuất từ ​​dữ liệu. Các tìm kiếm từ khóa / regex đơn giản thực sự có thể rất hiệu quả đối với bạn. Tôi làm việc trong bảo hiểm và chúng tôi sử dụng loại khai thác văn bản này khá thường xuyên - nó được cho là ngây thơ và chắc chắn không hoàn hảo, nhưng đó là một khởi đầu tương đối tốt (hoặc gần đúng) với những gì chúng ta thường quan tâm.

Nhưng theo quan điểm chính của tôi, để tìm hiểu xem phương pháp bạn chọn có phù hợp hay không, tôi khuyên bạn nên xác định chính xác những gì bạn muốn trích xuất từ ​​dữ liệu; Theo tôi, đó là phần khó nhất.

Có thể rất thú vị khi tìm thấy các từ duy nhất trong tất cả các chuỗi và thực hiện tần suất 1000 từ hàng đầu hoặc lâu hơn. Điều này có thể tốn kém về mặt tính toán (tùy thuộc vào RAM / bộ xử lý của bạn) nhưng có thể thú vị khi xem xét. Nếu tôi đang khám phá dữ liệu mà không có nhiều kiến ​​thức về nó, thì đây là nơi tôi bắt đầu (những người khác có thể cung cấp các quan điểm khác nhau).

Mong rằng sẽ giúp.


cảm ơn, tôi chắc chắn đã suy nghĩ về việc bắt đầu với một cái gì đó như thế này. Tôi biết câu hỏi của tôi rất mơ hồ, nhưng tôi thường quan tâm nhiều hơn đến loại thông tin nào tôi có thể trích xuất bằng các phương pháp khác. Tôi thừa nhận tôi không chắc liệu có thể trả lời điều này mà không biết bối cảnh cụ thể.
ilprincipe

1
Tôi nghĩ đó luôn là thách thức với bất kỳ công việc / nghề nghiệp liên quan đến dữ liệu. Có lẽ tôi khuyên bạn nên xem xét một số dữ liệu của bạn, nếu có các biến có mô tả về dữ liệu hoặc sự kiện bảo hiểm, hãy đọc một vài chục - hãy cảm nhận về dữ liệu. Hãy nhớ rằng, tất cả những gì chúng ta từng cố gắng làm là mô hình hóa quy trình cơ bản của dữ liệu và để thực sự làm tốt công việc mà bạn phải biết dữ liệu.
Francisco Arceo
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.