selen với liệu pháp cho trang động

Question 1

Tôi đang cố gắng thu thập thông tin sản phẩm từ một trang web bằng cách sử dụng phương pháp thu thập dữ liệu. Trang web sắp sửa của tôi trông như thế này:

bắt đầu với trang product_list với 10 sản phẩm
một cú nhấp chuột vào nút "tiếp theo" sẽ tải 10 sản phẩm tiếp theo (url không thay đổi giữa hai trang)
tôi sử dụng LinkExtractor để theo từng liên kết sản phẩm vào trang sản phẩm và nhận được tất cả thông tin tôi cần

Tôi đã cố gắng tái tạo lệnh gọi tiếp theo nhưng không thể hoạt động, vì vậy, tôi đang dùng thử selen. Tôi có thể chạy webdriver của selen trong một tập lệnh riêng biệt, nhưng tôi không biết cách tích hợp với scrapy. Tôi sẽ đặt phần selen ở đâu trong con nhện phế liệu của mình?

Con nhện của tôi khá chuẩn, như sau:

class ProductSpider(CrawlSpider):
    name = "product_spider"
    allowed_domains = ['example.com']
    start_urls = ['http://example.com/shanghai']
    rules = [
        Rule(SgmlLinkExtractor(restrict_xpaths='//div[@id="productList"]//dl[@class="t2"]//dt'), callback='parse_product'),
        ]

    def parse_product(self, response):
        self.log("parsing product %s" %response.url, level=INFO)
        hxs = HtmlXPathSelector(response)
        # actual data follows

Bất kỳ ý tưởng được đánh giá cao. Cảm ơn bạn!

Question 2

Nó thực sự phụ thuộc vào cách bạn cần quét trang web và cách thức và dữ liệu bạn muốn lấy.

Đây là một ví dụ về cách bạn có thể theo dõi phân trang trên ebay bằng cách sử dụng Scrapy+ Selenium:

import scrapy
from selenium import webdriver

class ProductSpider(scrapy.Spider):
    name = "product_spider"
    allowed_domains = ['ebay.com']
    start_urls = ['http://www.ebay.com/sch/i.html?_odkw=books&_osacat=0&_trksid=p2045573.m570.l1313.TR0.TRC0.Xpython&_nkw=python&_sacat=0&_from=R40']

    def __init__(self):
        self.driver = webdriver.Firefox()

    def parse(self, response):
        self.driver.get(response.url)

        while True:
            next = self.driver.find_element_by_xpath('//td[@class="pagn-next"]/a')

            try:
                next.click()

                # get the data and write it to scrapy items
            except:
                break

        self.driver.close()

Dưới đây là một số ví dụ về "nhện selen":

Ngoài ra còn có một giải pháp thay thế để phải sử dụng Seleniumvới Scrapy. Trong một số trường hợp, sử dụng ScrapyJSphần mềm trung gian là đủ để xử lý các phần động của trang. Mẫu sử dụng trong thế giới thực:

Cóp nhặt nội dung động bằng python-Scrapy

Question 3

Nếu (url không thay đổi giữa hai trang) thì bạn nên thêm dont_filter = True với scrapy của mình. Request () hoặc scrapy sẽ tìm url này là một bản sao sau khi xử lý trang đầu tiên.

Nếu bạn cần hiển thị các trang bằng javascript, bạn nên sử dụng scrapy-splash , bạn cũng có thể kiểm tra phần mềm trung gian scrapy này có thể xử lý các trang javascript bằng cách sử dụng selen hoặc bạn có thể làm điều đó bằng cách khởi chạy bất kỳ trình duyệt không có đầu nào

Nhưng giải pháp hiệu quả hơn và nhanh hơn là kiểm tra trình duyệt của bạn và xem những yêu cầu nào được thực hiện trong quá trình gửi biểu mẫu hoặc kích hoạt một sự kiện nhất định. Cố gắng mô phỏng các yêu cầu giống như trình duyệt của bạn gửi. Nếu bạn có thể sao chép (các) yêu cầu một cách chính xác, bạn sẽ nhận được dữ liệu mình cần.

Đây là một ví dụ :

class ScrollScraper(Spider):
    name = "scrollingscraper"

    quote_url = "http://quotes.toscrape.com/api/quotes?page="
    start_urls = [quote_url + "1"]

    def parse(self, response):
        quote_item = QuoteItem()
        print response.body
        data = json.loads(response.body)
        for item in data.get('quotes', []):
            quote_item["author"] = item.get('author', {}).get('name')
            quote_item['quote'] = item.get('text')
            quote_item['tags'] = item.get('tags')
            yield quote_item

        if data['has_next']:
            next_page = data['page'] + 1
            yield Request(self.quote_url + str(next_page))

Khi url phân trang giống nhau cho mọi trang và sử dụng yêu cầu POST thì bạn có thể sử dụng scrapy.FormRequest () thay vì scrapy.Request () , cả hai đều giống nhau nhưng FormRequest thêm một đối số mới ( formdata = ) vào hàm tạo.

Đây là một ví dụ về nhện khác trong bài đăng này :

class SpiderClass(scrapy.Spider):
    # spider name and all
    name = 'ajax'
    page_incr = 1
    start_urls = ['http://www.pcguia.pt/category/reviews/#paginated=1']
    pagination_url = 'http://www.pcguia.pt/wp-content/themes/flavor/functions/ajax.php'

    def parse(self, response):

        sel = Selector(response)

        if self.page_incr > 1:
            json_data = json.loads(response.body)
            sel = Selector(text=json_data.get('content', ''))

        # your code here

        # pagination code starts here
        if sel.xpath('//div[@class="panel-wrapper"]'):
            self.page_incr += 1
            formdata = {
                'sorter': 'recent',
                'location': 'main loop',
                'loop': 'main loop',
                'action': 'sort',
                'view': 'grid',
                'columns': '3',
                'paginated': str(self.page_incr),
                'currentquery[category_name]': 'reviews'
            }
            yield FormRequest(url=self.pagination_url, formdata=formdata, callback=self.parse)
        else:
            return