Làm thế nào để biết một trang bao nhiêu tuổi?


15

Tôi nghĩ rằng Google ít nhiều chính xác trong việc xác định ai đã đăng văn bản trước và ai đã sao chép. Tuy nhiên, khi tôi sử dụng "công cụ tìm kiếm: khoảng thời gian tùy chỉnh" thì kết quả khá kỳ lạ. Tôi đã tìm thấy các trang có từ năm 2002 cho một trang web tôi đã có chỉ một vài năm.

Vì vậy, Google không chính xác để tìm ra ai đã sao chép và ai đã viết bản gốc. Những gì là?

nhập mô tả hình ảnh ở đây

Nếu stackexchange.comđược tạo ra vào năm 2009 thì làm sao điều này có thể? hermeneutics.secũ hơn Stack Overflow!


Có ai đó sở hữu tên miền trước bạn? Trang bạn đang so sánh trong Google là gì?
Closnoc 18/03/2016

Tôi đã cập nhật câu hỏi với dữ liệu SE. Dấu thời gian không thể chính xác.
Renan

2
Ồ Tôi không chắc. Tôi hiểu các cơ chế của điều này một cách bình thường, nhưng những gì Google làm vẫn còn là một bí ẩn. Có rất ít thông tin trên mạng về cách Google xác định ngày. Chúng tôi đã có một câu hỏi liên quan đến cách Google xác định ngày sửa đổi chỉ một lúc trước. Tôi đã làm một số nghiên cứu và hầu như không có gì. Tuy nhiên, tôi sẽ xem xét lại. Nhưng nó có thể mất một vài ngày. Hãy nhớ rằng phần mềm CMS và có khả năng mã SE không trả về tạo và sửa đổi ngày như Apache cho các trang HTML. Và đây có thể là câu trả lời.
Closnoc 18/03/2016

Nó không phải là Google nhưng tôi thực sự muốn biết liệu người dùng của tôi có đạo văn hay bị đạo văn hay không. = /
Renan

Cho đến nay, có vẻ như Google không hiểu định dạng ngày trong HTML nhưng điều này không có kết luận. Mã nguồn của trang ví dụ đầu tiên không cung cấp manh mối ngày rõ ràng cho Google. Google (ít nhất) trông hoặc một ngày theo thứ tự này: URL, tiêu đề, nội dung (nội dung), thẻ meta, ngày sửa đổi cuối cùng từ phản hồi HTTP. Một yêu cầu CHÍNH trả về tạo ngày và ngày sửa đổi cuối cùng. Đồng thời, một GET với if-đã sửa đổi - vì sẽ trả về tài nguyên với 200 Ok hoặc trả về 304 Không được sửa đổi. Mã SE có thể không trả về những cái này và chỉ có URL, tiêu đề, nội dung và thẻ meta có sẵn.
Closnoc 18/03/2016

Câu trả lời:


12

Tôi đã nghiên cứu câu trả lời cho câu hỏi này theo cách này: sử dụng Google vì đây là ví dụ tôi có, cách Google lấy ngày tạo và ngày sửa đổi và định dạng ngày mà Google nhận ra. Xin hiểu rằng thông tin này không tồn tại trên một vài trang và tôi đã phải tìm ra dữ liệu từ rất nhiều nguồn mà một số trong đó dường như không áp dụng trực tiếp và ghép chúng lại với nhau. Trong một số trường hợp, thông tin có nguồn gốc từ một số nguồn và không phải lúc nào cũng có thể trích dẫn.

Google tìm ngày trang theo thứ tự này; URL, thẻ tiêu đề, nội dung (nội dung), thẻ meta, tiêu đề phản hồi HTTP ít nhất là liên quan đến công cụ tìm kiếm Google. Trong các đoạn khác trong các tài liệu khác, không có thứ tự nào được ghi lại, nhưng danh sách đã được thảo luận và dường như để xác nhận danh sách. Nếu bạn nghĩ về nó, điều này phản ánh thứ tự mà một công cụ tìm kiếm sẽ làm; một - khám phá trang của bạn (liên kết) và hai - đọc trang của bạn từ trên xuống dưới (tiêu đề, nội dung và thẻ meta) ngoại trừ thẻ meta (chi tiết nhỏ) và tiêu đề phản hồi HTTP. Dưới đây là danh sách liên quan đến thiết bị:https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule

Lưu ý: Ngày bắt đầu là ngày mà trang được Google yêu cầu lần đầu tiên. Trong trường hợp không có ngày tạo, ngày bắt đầu được sử dụng.

1] Bất kỳ công cụ tìm kiếm nào cũng có thể yêu cầu tài nguyên thông qua yêu cầu HTTP GET và máy chủ web trả về ngày sửa đổi cuối cùng trong tiêu đề phản hồi với tài nguyên trong gói dữ liệu.

2] Bất kỳ công cụ tìm kiếm nào cũng có thể yêu cầu thông tin tiêu đề của tài nguyên thông qua yêu cầu HTTP Head và máy chủ web trả về ngày đã sửa đổi trong tiêu đề phản hồi mà không cần tài nguyên trong gói dữ liệu.

3] Bất kỳ công cụ tìm kiếm nào cũng có thể yêu cầu nếu một tài nguyên đã được sửa đổi kể từ một ngày nhất định bằng cách yêu cầu tài nguyên có HTTP GET với if-Sửa đổi-kể từ khi được đặt thành một ngày. Nếu tài nguyên đã được sửa đổi kể từ ngày được đặt, máy chủ web sẽ phản hồi với phản hồi 200 Ok và trả về tài nguyên hoặc nếu tài nguyên chưa được sửa đổi kể từ ngày được đặt, máy chủ web sẽ phản hồi với 304 Không được sửa đổi mà không trả lại tài nguyên .

Google thực hiện nhiều yêu cầu bằng phương pháp số 3 để tiết kiệm băng thông. Bạn sẽ thấy những điều này trong các tệp nhật ký máy chủ web của bạn.

Lưu ý: Có thể hệ thống quản lý nội dung (CMS) hoặc phần mềm khác không thể cung cấp ngày thích hợp trong tiêu đề phản hồi.

Những ví dụ ngày này cũng đến từ tài liệu thiết bị của Google nhưng cũng tồn tại ở những nơi khác liên quan đến tìm kiếm chung. Tôi lấy các chi tiết này từ tài liệu thiết bị đơn giản vì nó có thể được cắt và dán dưới dạng một danh sách mà ở những nơi khác nó không gọn gàng.

4] Google tìm kiếm một ngày trong URL. Nó tìm các định dạng sau; YYYMMDĐHH - YYYY - YYYYMM.

5] Google tìm kiếm một ngày trong thẻ tiêu đề. Nó tìm các định dạng sau; YYYMMDDHH - YYYY - YYYYMM mặc dù tôi nghi ngờ các định dạng khác có thể được nhận ra. Xem bên dưới.

6] Google tìm kiếm một ngày trong thẻ body (nội dung). Nó tìm các định dạng sau; YYYMMDĐHH - YYYYMMD Xem bên dưới.

Lưu ý: Được biết, Google trông đặc biệt cho một ngày ngay dưới H1thẻ đầu tiên . Điều này là do các blog thường đặt ngày ở vị trí này.

7] Google tìm kiếm một thẻ meta như thế này. <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />

Google cũng được cho là nhận ra các định dạng ngày sau.

YYYY-MD - YYYY.MD - YYYY / M / D - MD-YYYY - MDYYYY - M / D / YYYY - YY-MM-DD - YY.MM.DD - YY / MM / DD - WK, D MON, Y - WK, MON D, YR - D MON, YR - MON YYYY - MON D, YR - MON YY - YYYY-DM - ​​YYYY.DM - YYYY / D / M - DM-YYYY - DMYYYY - D / M / YYYY DD-MM-YY - MM-DD-YY - DD / MM / YY - MM / DD / YY - YYYYMMDDHH - YYYYMMDD - YYYYMM - YYYY - DDMMYYYY - MMDDYYYY - YYMMYYYYY

Các nghiên cứu tôi tìm thấy đã không trả lời câu hỏi về thời gian.

Trong trường hợp các ví dụ được trích dẫn, các trang không cung cấp manh mối ngày ngoại trừ trong thẻ span có thể bị bỏ qua. Có thể phần mềm / máy chủ web SE không thể trả về ngày tạo và sửa đổi trong bất kỳ tiêu đề phản hồi nào.

Tại sao và làm thế nào Google bắt nguồn những ngày này là một câu hỏi hay có thể không bao giờ được giải quyết. Tôi sẽ tiếp tục tìm kiếm tuy nhiên.


3
Bạn có bất kỳ tài liệu tham khảo nào cho "Google tìm ngày của trang theo thứ tự này không, URL, thẻ tiêu đề, nội dung (nội dung), thẻ meta, tiêu đề phản hồi HTTP."? Bạn có bất kỳ số liệu hoặc số liệu thống kê cho nghiên cứu này?. Nếu bạn có thể đăng tài liệu tham khảo cho những gì bạn đăng ở đây, nó sẽ tốt hơn nhiều cho tất cả chúng ta.
PatomaS

Tôi đánh giá cao yêu cầu của bạn này. Phần lớn những gì tôi tìm thấy là ở bit và miếng. Danh sách đã được tìm thấy ở một số nơi, nhưng thứ tự đã được tìm thấy trong tài liệu cho công cụ tìm kiếm Google và dường như được sao lưu trong các đoạn văn ở những nơi khác. Tôi thực sự đã xem xét vài chục tài liệu mất khá nhiều thời gian để tìm. Tôi đã cố gắng cẩn thận để nói rằng tôi phải ghép dữ liệu từ nhiều nguồn khác nhau vì dường như không có bất kỳ thông tin trực tiếp nào về việc này. Tôi sẽ chỉnh sửa các tuyên bố để làm cho nó rõ ràng hơn.
Closnoc

Tôi cũng có thể xác nhận rằng chuỗi định dạng ngày sau có ở một article.post > div.post-content > h2 > pmức nào đó đã được Google chọn và sử dụng để hiển thị ngày: "Cập nhật lần cuối: ngày 7 tháng 10 năm 2018"
Matt

-2

Nếu bạn muốn xem một tên miền bao nhiêu tuổi, hãy tìm kiếm trên Google cho máy tìm đường . Trang web này là những gì bạn đang tìm kiếm: http://archive.org/web/ .

Nếu bạn muốn phát hiện đạo văn, liên kết này sẽ giúp bạn: http://copyscape.com/signup.php?pro=0&o=f

Ngoài ra, tìm kiếm trên Google cho "trình kiểm tra đạo văn".

Hy vọng tôi đã giúp.


3
Với sự tôn trọng, bạn cần đọc lại câu hỏi.
Closnoc 18/03/2016

Câu hỏi là "Làm thế nào để biết một trang bao nhiêu tuổi?" Vui lòng theo liên kết của tôi và bạn sẽ thấy rằng câu trả lời là tốt. Cảm ơn đã đọc nó.
Pascut

3
Bạn không đọc câu hỏi. Bạn đang đọc tiêu đề. Cách trở lại máy không trả lời câu hỏi.
Closnoc 18/03/2016

Bạn nói đúng, tôi đã chỉnh sửa câu hỏi của mình ..
Pascut 18/03/2016

1
Máy Wayback theo dõi trang trong miền. Không hữu ích khi so sánh ngày giữa các trang cụ thể. Tôi đang tìm kiếm phương tiện chính xác để nói cái nào được đăng đầu tiên.
Renan
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.