Làm thế nào bạn sẽ phân loại / trích xuất thông tin ra khỏi mô tả công việc?


8

Tôi có một loạt các mô tả công việc được nhập bởi người dùng. Có tất cả các loại lỗi chính tả và dữ liệu xấu. I E:

...
tulane univ hospital
tulip
tullett prebon
... 
weik investment
weill cornell university medical center
weis
weiss waldee hohimer dds
welded constrction l.p.
welder
welder
welder
...

Những bước bạn sẽ thực hiện để 'gia tăng' giá trị này với những hiểu biết liên quan đến công việc?

Điều tốt nhất tôi có thể nghĩ đến là đưa nó cho wolfram alpha. Nhưng tôi tự hỏi nếu có những kỹ thuật có thể truy cập khác mà tôi có thể sử dụng bằng python.

Cập nhật: Tôi phát hiện ra rằng có Phân loại nghề nghiệp tiêu chuẩn , tôi thực sự muốn ghép tên với SOC và SOC với một loạt các mức lương trung bình.


Bạn có thể lập bản đồ này bằng tay không?
Aksakal

Không, có hơn 10.000 mô tả công việc ..
fabrizioM

2
10.000 từ là khoảng 22 trang. Không nhiều lắm nếu bạn hỏi tôi.
Aksakal

Câu trả lời:


5

Một cách tiềm năng để bắt đầu điều này là sử dụng Bộ công cụ ngôn ngữ tự nhiên (NLTK) của Python , có thể được sử dụng để phân tích văn bản và chủ đề nhưng cũng có các chức năng hữu ích để trích xuất một số từ nhất định từ các chuỗi. Ví dụ, bạn có thể trích xuất từ ​​mô tả công việc các từ "y tế", "bệnh viện", v.v. để tìm các ngành nghề và lĩnh vực rộng lớn. Do những lỗi chính tả và chất lượng dữ liệu, tôi không nghĩ rằng nó có thể được thực hiện theo cách hoàn toàn tự động để bạn có thể tự mình viết mã SOC. Tuy nhiên, có các ngành nghề và lĩnh vực rộng lớn theo cách này đã giúp công việc trở nên dễ dàng hơn rất nhiều.

Nếu bạn quan tâm đến việc xử lý ngôn ngữ tự nhiên / phân tích văn bản và phân tích chủ đề / khai thác văn bản ngoài điều này, một cuốn sách khá rẻ tiền nhưng hữu ích là của Bird et al. (2009) "Xử lý ngôn ngữ tự nhiên với Python" .

Các chức danh nghề nghiệp đã được liên kết với mức lương của David Autor. Ông đã liên kết dữ liệu trong Khảo sát dân số hiện tại (dữ liệu được sử dụng để tạo ra số liệu thất nghiệp của Hoa Kỳ) với các chức danh SOC mà từ đó bạn cũng có thể nhận được tiền lương trong mỗi nghề nghiệp. Từ những điều này, bạn có thể dễ dàng tính lương trung bình trong mỗi nghề nghiệp và thậm chí bạn có thể có ý tưởng về phương sai (trong bất bình đẳng thu nhập nghề nghiệp) trong mỗi nghề nghiệp. David làm cho bộ dữ liệu của mình có sẵn trên kho lưu trữ dữ liệu của mình tại MIT.


2

kk

Phân tích của tôi với LDA là trong R nhưng tất nhiên có một gói Python mặc dù tôi chưa bao giờ sử dụng nó trong công việc của mình.

Bạn có thể cân nhắc chọn số chủ đề tương ứng với số nghề nghiệp trong SOC. Khi bạn đã tạo các chủ đề, hãy kiểm tra chúng và xem liệu bạn có thể tìm thấy các liên kết có ý nghĩa với SOC và điều chỉnh số chủ đề cho phù hợp cho đến khi bạn hài lòng.

Để ước tính mức lương cho từng mô tả công việc, hãy cân nhắc từng mức lương bằng cách sử dụng xác suất chủ đề. Ví dụ: nếu một mô tả công việc có xác suất 80% là nhà phát triển phần mềm SOC có trọng số bằng 0,80 và các chủ đề còn lại cũng vậy. Nếu điều đó tạo ra quá nhiều tiếng ồn, chỉ cần đặt mức cắt (có thể là 20%) và loại bỏ các trọng số chủ đề còn lại khỏi ước tính lương.

Đối với lỗi chính tả, bạn luôn có thể tấn công nó bằng trình kiểm tra chính tả và xem cách so sánh với kết quả mà không cần công cụ. Đồng thời đảm bảo sử dụng các kỹ thuật NLP tiêu chuẩn như xóa dấu chấm câu và xuất phát từ trước khi chạy LDA.


nên tương đối dễ thực hiện thủ tục kiểm tra chính tả (hoặc đúng hơn là tạo một danh sách tất cả các từ được sử dụng với số từ và sử dụng từ đó (ví dụ: chỉ nhìn vào các từ hiếm nhất) để ánh xạ lại chính tả. Có thể muốn xem dự án github của OpenRegine (trước đây là google tinh chỉnh mở) để dọn dẹp
seanv507

1

Đó không phải là rất nhiều mô tả công việc như chức danh công việc. Nếu bạn đã có các mô tả như ví dụ này từ các định nghĩa SOC , bạn có thể sử dụng mô hình chủ đề theo đề xuất của Chris:

1011 Giám đốc điều hành Xác định và xây dựng chính sách và đưa ra định hướng chung cho các công ty hoặc tổ chức khu vực tư nhân và công cộng theo các hướng dẫn được thiết lập bởi một ban giám đốc hoặc cơ quan quản lý tương tự. Lập kế hoạch, chỉ đạo hoặc điều phối các hoạt động vận hành ở cấp quản lý cao nhất với sự giúp đỡ của các giám đốc điều hành cấp dưới và quản lý nhân viên.

Trong trường hợp không có văn bản dạng dài, bạn có thể sử dụng trình phân loại Bayes ngây thơ (vì bạn có vấn đề về phân loại) sử dụng mạng xã hội như một tính năng, vì mọi người có thể làm việc trong cùng loại công việc như bạn bè của họ. Một tính năng khác có thể là sự tương tự chuỗi với Tệp Tiêu đề Đối sánh Trực tiếp (Tôi nghĩ rằng cơ sở dữ liệu này chính là thứ bạn cần), cung cấp ánh xạ giữa các chức danh công việc và SOC.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.