Làm thế nào để tránh bị cào?


8

Chúng tôi có Cơ sở dữ liệu có thể tìm kiếm (DB), chúng tôi giới hạn kết quả ở mức 15 trên mỗi trang và chỉ có 100 kết quả vẫn khiến mọi người cố gắng cạo trang web.

Chúng tôi đang cấm các trang web đánh nó đủ nhanh. Tôi đã tự hỏi nếu có bất cứ điều gì khác mà chúng ta có thể làm. Flash kết quả có thể?


Hãy chắc chắn rằng bạn có robot.txt ... vâng tôi biết không phải ai cũng tôn vinh nó .. nhưng một số người vẫn làm
trent

Câu trả lời:


6

Bạn có thể làm cho nó khó khăn hơn một chút bằng cách truy xuất các bản ghi thông qua AJAX và sử dụng ID xác thực (như khóa API) cho các cuộc gọi AJAX.

Tất nhiên bạn có thể khắc phục điều này bằng cách đọc ID và sau đó thực hiện yêu cầu AJAX bằng cách đó.

Kết xuất với Flash là một cách thay thế như bạn chỉ ra (mặc dù vẫn không thể quét được 100%), như hiển thị trong PDF.


13

Vì rõ ràng là có nhu cầu cho cơ sở dữ liệu của bạn, bạn đã nghĩ đến việc xoay vòng và cung cấp những gì người dọn dẹp muốn chưa? Hình thành một kết nối kinh doanh với người dọn dẹp và khuyến khích sử dụng phù hợp với API?


1
Có, tôi yêu các API
Isaac Waller

+1 Bạn thậm chí có thể tính một khoản phí nhỏ cho việc sử dụng API và kiếm một vài buchs từ các khách hàng đã biến thành người dọn dẹp
Sander Marechal

Có, chúng tôi thiết lập bộ đếm thời gian và cấm nếu các trang bị tấn công quá nhanh, miễn là bán thông tin có vẻ như không thể, trước đây họ đã sử dụng thông tin để đưa nó lên một trang web khác và mang lại doanh thu nhấp chuột.
Randin


4

Không có giải pháp công nghệ nào để ngăn chặn một cá nhân có động lực cạo nội dung truy cập công khai của bạn.

Tuy nhiên, bạn có thể bảo vệ hợp pháp tài sản trí tuệ của mình bằng cách:

  • Đảm bảo rằng trang web của bạn có bản quyền được đánh dấu rõ ràng
  • Đăng một Điều khoản dịch vụ trong phần chân trang rõ ràng nghiêm cấm
  • Xem xét việc nhúng một hình mờ kỹ thuật số vào tất cả nội dung của trang web của bạn. Đừng quên rằng văn bản cũng có thể được watermark!

2

Làm thế nào về việc thiết lập xác thực (và có lẽ là captcha), theo dõi việc sử dụng và giới hạn quyền truy cập vào một số số lượng hồ sơ hoặc tìm kiếm là một khoảng thời gian nhất định?


1

Bạn có thể sẽ thấy rằng những người dọn dẹp sẽ cải thiện khi họ áp dụng các kỹ thuật khác nhau. Có lẽ có một cách để phân tích hành vi của người dùng cạo và trình bày một hình ảnh xác thực hoặc sự gián đoạn khác? Có lẽ bạn có thể giới hạn kết quả ở một số lượng nhỏ hơn trong một khoảng thời gian để buộc người dọn dẹp phải chờ trong 10 ngày. Nếu họ không đăng nhập ở giữa thì giả sử họ là người ghi chép?

Dù bạn làm gì, hãy đảm bảo trộn lẫn các kỹ thuật của bạn để mang lại tuổi thọ cao hơn một chút.


1

Bạn cần xem xét rằng những người dọn dẹp có thể không sử dụng các trang web và biểu mẫu của bạn, họ có thể chỉ đang gọi trang web của bạn ở cấp độ http.

Tôi nghĩ rằng giải pháp tốt nhất sẽ là bắt kịp một Catchpa sau khi một địa chỉ IP yêu cầu nhiều hơn một ngưỡng yêu cầu nhất định.

Bạn cần phải RẤT cẩn thận mặc dù để đảm bảo rằng bạn không ảnh hưởng đến khả năng mở rộng của bạn cho người dùng thực sự.

Giới hạn số lượng dữ liệu trên mỗi trang như bạn mô tả trong câu hỏi sẽ chỉ làm tăng số lượng yêu cầu mà khách hàng sẽ thực hiện đối với máy chủ của bạn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.