Lưu ý rằng tôi đang làm mọi thứ trong R.
Vấn đề diễn ra như sau:
Về cơ bản, tôi có một danh sách các sơ yếu lý lịch (CV). Một số ứng viên sẽ có kinh nghiệm làm việc trước đây và một số thì không. Mục tiêu ở đây là: dựa trên văn bản trên CV của họ, tôi muốn phân loại chúng thành các lĩnh vực công việc khác nhau. Tôi đặc biệt trong những trường hợp đó, trong đó các ứng viên không có kinh nghiệm / là sinh viên và tôi muốn đưa ra dự đoán để phân loại ngành nghề nào mà ứng viên này sẽ thuộc về sau khi tốt nghiệp.
Câu 1: Tôi biết các thuật toán học máy. Tuy nhiên, tôi chưa bao giờ làm NLP trước đây. Tôi đã xem qua phân bổ Dirichlet tiềm ẩn trên internet. Tuy nhiên, tôi không chắc đây có phải là cách tiếp cận tốt nhất để giải quyết vấn đề của tôi không.
Ý tưởng ban đầu của tôi: làm cho điều này trở thành một vấn đề học tập có giám sát . Giả sử chúng tôi đã có một lượng lớn dữ liệu được dán nhãn, nghĩa là chúng tôi đã gắn nhãn chính xác cho các lĩnh vực công việc cho một danh sách các ứng cử viên. Chúng tôi đào tạo mô hình bằng các thuật toán ML (tức là hàng xóm gần nhất ...) và cung cấp dữ liệu không ghi nhãn đó, những ứng viên không có kinh nghiệm làm việc / là sinh viên và cố gắng dự đoán họ sẽ thuộc ngành nghề nào.
Cập nhật Câu hỏi 2: Có nên tạo một tệp văn bản bằng cách trích xuất mọi thứ trong sơ yếu lý lịch và in các dữ liệu này ra trong tệp văn bản để mỗi sơ yếu lý lịch được liên kết với một tệp văn bản chứa các chuỗi không có cấu trúc, sau đó chúng tôi áp dụng các kỹ thuật khai thác văn bản cho các tệp văn bản và làm cho dữ liệu trở nên có cấu trúc hoặc thậm chí để tạo ra một ma trận tần số của các thuật ngữ được sử dụng trong các tệp văn bản? Ví dụ: tệp văn bản có thể trông giống như thế này:
I deployed ML algorithm in this project and... Skills: Java, Python, c++ ...
Đây là những gì tôi có nghĩa là 'không cấu trúc', nghĩa là thu gọn mọi thứ thành một chuỗi dòng duy nhất.
Cách tiếp cận này có sai không? Xin hãy sửa tôi nếu bạn nghĩ cách tiếp cận của tôi là sai.
Câu 3: Phần khó là: làm thế nào để xác định và trích xuất các từ khóa ? Sử dụng tm
gói trong R? Thuật toán tm
dựa trên gói nào? Tôi có nên sử dụng thuật toán NLP? Nếu có, tôi nên xem xét các thuật toán nào? Xin vui lòng chỉ cho tôi một số tài nguyên tốt để xem xét là tốt.
Bất cứ ý tưởng sẽ là tuyệt vời.