LinkedIn web cạo


11

Gần đây tôi đã phát hiện ra gói R mới để kết nối với API LinkedIn. Thật không may, API LinkedIn có vẻ khá hạn chế để bắt đầu; ví dụ: bạn chỉ có thể nhận dữ liệu cơ bản về các công ty và điều này được tách ra khỏi dữ liệu về các cá nhân. Tôi muốn nhận dữ liệu về tất cả nhân viên của một công ty nhất định mà bạn có thể thực hiện thủ công trên trang web nhưng không thể thực hiện được thông qua API.

import.io sẽ là hoàn hảo nếu nó nhận ra phân trang LinkedIn (xem cuối trang).

Có ai biết bất kỳ công cụ hoặc kỹ thuật quét web nào có thể áp dụng cho định dạng hiện tại của trang LinkedIn hay các cách bẻ cong API để thực hiện phân tích linh hoạt hơn không? Tốt nhất là trong R hoặc dựa trên web, nhưng chắc chắn mở cho các phương pháp khác.


2
Web cào LinkedIn là trái với điều khoản dịch vụ của họ. Xem LinkedIn, TUYỆT VỜI và DỪNG ĐỪNG - - KHÔNG: "Sử dụng phần mềm thủ công hoặc tự động, thiết bị, robot kịch bản, các phương tiện hoặc quy trình khác để truy cập, scrape, trâu bò, bò hoặc dịch vụ mạng nhện hoặc bất kỳ dữ liệu hoặc thông tin liên quan; "
Brian Spiering

Câu trả lời:



3

Scrapy là một thư viện Python tuyệt vời có thể giúp bạn quét các trang web khác nhau nhanh hơn và làm cho cấu trúc mã của bạn tốt hơn. Không phải tất cả các trang web đều có thể được phân tích cú pháp bằng các công cụ cổ điển, bởi vì chúng có thể sử dụng xây dựng nội dung JS động. Đối với nhiệm vụ này, tốt hơn là sử dụng Selenium (Đây là khung kiểm tra cho các trang web, nhưng nó cũng là một công cụ quét web tuyệt vời). Ngoài ra còn có một trình bao bọc Python có sẵn cho thư viện này. Trong Google, bạn có thể tìm thấy một vài thủ thuật có thể giúp bạn sử dụng Selenium bên trong Scrapy và làm cho mã của bạn rõ ràng, có tổ chức và bạn có thể sử dụng một số công cụ tuyệt vời cho thư viện Scrapy .

Tôi nghĩ rằng Selenium sẽ là một công cụ cạo tốt hơn cho Linkedin so với các công cụ cổ điển. Có rất nhiều javascript và nội dung động. Ngoài ra, nếu bạn muốn xác thực trong tài khoản của mình và quét tất cả nội dung có sẵn, bạn sẽ gặp nhiều vấn đề với xác thực cổ điển bằng các thư viện đơn giản như yêu cầu hoặc urllib .


1

Tôi thích đầu kết hợp với trình cắm chrome SelectorGadget để chọn các phần có liên quan.

Tôi đã sử dụng đầu tư và xây dựng các tập lệnh nhỏ để phân trang thông qua các diễn đàn bằng cách:

  1. Tìm kiếm đối tượng "Trang n Of m"
  2. Trích xuất m
  3. Dựa trên cấu trúc trang, xây dựng danh sách các liên kết từ 1 đến m (ví dụ: www.sample.com/page1)
  4. Lặp lại các cạp thông qua danh sách đầy đủ các liên kết

0

Tôi cũng sẽ đi với beautifulsoup, nếu bạn biết trăn. Trong trường hợp bạn thay vì mã javascript / JQuery (và bạn đã quen thuộc với node.js), bạn có thể muốn kiểm tra CoffeeScript (Kiểm tra Hướng dẫn ) Tôi đã sử dụng thành công trong một số trường hợp để quét các trang web.


0

lxml là một thư viện loại bỏ web đẹp trong Python. Beautiful Soup là một gói trên lxml. Vì vậy, lxml nhanh hơn cả súp vụn và đẹp và có đường cong học tập dễ dàng hơn nhiều.

Đây là một ví dụ về một cái cạp mà tôi đã xây dựng cho nó cho một dự án cá nhân, có thể lặp lại trên các trang web.


0

BeautifulSoup không hoạt động trên LinkedIn. Scrappy vi phạm chính sách. Bạch tuộc chỉ dành cho Windows. Có cách nào khác không? Tôi muốn trích xuất dữ liệu Người tương tự cho tài khoản của một người. Xin vui lòng giúp đỡ!


1
Vui lòng gửi bài này dưới dạng nhận xét hoặc đặt câu hỏi mới
christopherlovell

Đây là thông tin quan trọng nhưng vui lòng xóa câu hỏi trong đó nếu đây được cho là câu trả lời.
Pithikos

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.