Bạn có thể viết một phần mềm để:
- Lấy các từ khóa từ biểu thức chính quy;
- Google các từ khóa và nhận được một danh sách kết quả;
- Thu thập dữ liệu từng URI kết quả và lọc nó với biểu thức chính quy hoàn chỉnh.
Hãy nghiên cứu một trường hợp: từ site:gog.com
tìm tất cả các trò chơi có tiếng nói tiếng Tây Ban Nha.
Biểu thức chính quy là:
Audio[^:]*:[^.,]*Spanish
Nó sẽ phù hợp, ví dụ:
Audio lanuage: English, German, Spanish, French.
Và không khớp:
Audio language: only-English. Text language: Spanish.
Bước 1. Hãy để phần mềm của bạn tìm kiếm cái này trên Google:
site:gog.com audio Spanish inurl:game
inurl:game
ở đây có nghĩa là chỉ tìm kiếm trong các trang mô tả trò chơi
Bước 2. Nhận 300 liên kết kết quả và bò vào mỗi một trong số chúng.
Bước 3. Lọc kết quả với biểu thức chính quy định:
Audio[^:]*:[^.,]*Spanish
Điều này nên dễ dàng để xây dựng. Thực tế tôi không hiểu tại sao tôi không thể tìm thấy thứ gì đó đã được xây dựng theo cách đó.
Vì các công cụ tìm kiếm không đủ khả năng tài nguyên để quét dữ liệu của họ với biểu thức thông thường, công việc bẩn thỉu này thuộc về bạn và máy tính của bạn sẽ làm điều đó với những gì công cụ tìm kiếm đã cung cấp.