Được chứ. Đây sẽ là một trong những trường hợp tôi sẽ làm việc trong suốt quá trình để nó trở nên rõ ràng hơn. Nó sẽ hơi dài, nhưng hy vọng không đau đớn lâu.
Chúng ta hãy bắt đầu từ đầu?
Bắt đầu với những gì chúng ta biết về cách Google hoạt động ban đầu dựa trên tài liệu nghiên cứu của Brin và Page vào năm 1997, chúng tôi biết một số điều mà rất có thể vẫn còn tồn tại cho đến ngày nay.
Google có một URL trong chỉ mục của nó và tìm nạp hàng đợi và tìm nạp trang. Mã cho trang được lưu trữ trong cơ sở dữ liệu của nó cho các hình thức xử lý khác nhau. Một trong những quy trình sẽ là tìm liên kết mới. Bất kỳ liên kết nào được tìm thấy bởi Google sẽ được đặt đầu tiên trong chỉ mục liên kết nếu nó tồn tại. Nếu không, liên kết sẽ được thêm vào bảng liên kết và thêm vào hàng đợi.
Bất kỳ liên kết nào trong bảng liên kết đều có ít nhất các yếu tố này, URL liên kết, URL nguồn và văn bản liên kết. Có khả năng là có các yếu tố dữ liệu khác, tuy nhiên, những yếu tố này không thúc đẩy cuộc thảo luận. Bất kỳ liên kết nào được thêm vào bảng liên kết đều có URL nguồn được xác minh, nhưng không nhất thiết phải là URL mục tiêu. Lấy ví dụ về cơ sở dữ liệu quan hệ, URL nguồn và URL mục tiêu có thể là ID URL trong bảng URL và bảng tham gia sẽ tham gia URL nguồn của bảng liên kết và các thành phần URL mục tiêu bằng cách sử dụng ID trở lại bảng URL. Bối rối? Đừng như vậy.
Đối với bất kỳ trường hợp nào mà trang đích chưa được tìm nạp, liên kết trong bảng liên kết được gọi là liên kết lơ lửng. Khi trang được tìm nạp, liên kết trong bảng liên kết hoàn tất. Nếu trang đích không tồn tại, thì liên kết trong bảng liên kết là một liên kết bị hỏng. Đơn giản?
Chỉ các liên kết hoàn chỉnh có thể vượt qua giá trị. Thuật toán PageRank yêu cầu một liên kết hoàn chỉnh để tính giá trị. Tất cả các liên kết lơ lửng và bị hỏng dừng mọi tính toán bằng liên kết. Trước đây, PR là một quá trình đệ quy sẽ tính toán các giá trị liên kết bằng cách sử dụng bảng liên kết nhiều lần cho đến khi giá trị có thể được điều chỉnh theo bất kỳ liên kết nào nằm trong một giá trị số nhỏ đến mức nó sẽ không tạo ra sự khác biệt. Tôi chắc chắn rằng điều này vẫn xảy ra như là một quá trình giữ nhà. Tuy nhiên, PR ngày nay được tính toán bằng phương pháp khác tương tự như bước nhảy trong mạng đo khoảng cách từ trang này đến trang khác có tầm quan trọng tương đối. Nó dựa trên mô hình mạng tin cậy, đó là cách mô hình PageRank ban đầu được thiết kế để mô phỏng. Một liên kết là một phiếu tín nhiệm từ thực thể này sang thực thể khác. Trong khi nó trở nên phức tạp hơn thế này, Bạn nhận được hình ảnh. Nó thực sự làm điều tương tự như quy trình đệ quy sử dụng phép tính thời gian thực hơn mặc dù có thể ít chính xác hơn nhưng đủ chính xác để đáng tin cậy. Điều này đòi hỏi các liên kết hoàn chỉnh vì các giá trị tin cậy (sử dụng mô hình mạng tin cậy) không thể được thông qua nếu niềm tin không được thiết lập. Hãy nhớ rằng một liên kết là một phiếu tín nhiệm hoặc liên kết trong mô hình mạng tin cậy. PageRank được thể hiện dưới dạng giá trị tin cậy trong mạng tin cậy.
Bây giờ bạn đã hiểu các liên kết và tầm quan trọng của chúng, hãy tiếp tục.
Đối với một công cụ tìm kiếm, sẽ không có ý nghĩa gì khi xóa bất kỳ URL nào. Nếu một URL không tồn tại trong bảng URL, thì bạn không thể biết bất cứ điều gì về URL và sẽ bị mất. Các URL thường không bị xóa trừ khi nó có ý nghĩa, ví dụ, nếu URL không còn tồn tại. Tuy nhiên, khi một trang được đặt thành NOINDEX, thì công cụ tìm kiếm đã được hướng dẫn rõ ràng KHÔNG lập chỉ mục trang. Vì một trang web trong chỉ mục bao gồm hai thứ, một URL và mã nguồn HTML, NOINDEX sẽ xóa trang một cách hiệu quả vào thời điểm này. Liên kết đến một trang NOINDEX ít nhất là lơ lửng.
Bây giờ bạn đã biết một trang được lập chỉ mục trông như thế nào, hãy di chuyển xa hơn.
Có nhiều cách mà một công cụ tìm kiếm sẽ xử phạt một trang web hoặc trang web. Một là hủy bỏ niêm yết. Đây là hình phạt nặng nhất trong tất cả các hình phạt và mất nhiều thời gian để phục hồi. Thể loại hình phạt này bạn có thể làm bằng chứng vì trang sẽ không và không thể được tìm thấy. Đồng thời, Googles Search Console cũng sẽ thông báo cho bạn biết rằng các trang đang bị hủy bỏ. Trong số các hình phạt còn lại, các hình phạt được áp dụng trong các bộ lọc SERP.
Khi một truy vấn tìm kiếm được thực hiện, thực tế có một số truy vấn đối với chỉ mục cùng một lúc sau đó được trộn vào một tập kết quả dựa trên một phần của thuật toán. Thuật toán còn lại, mà chúng ta thường đề cập đến như một thực thể duy nhất, là một loạt các thuật toán SERP tương đối đơn giản. Các thuật toán chính sẽ sắp xếp lại tập kết quả dựa trên các số liệu thời gian thực hơn như xu hướng. Trong số các thuật toán, những thuật toán loại bỏ các mục khỏi tập kết quả hoặc hạ cấp nghiêm trọng vị trí của một mục trong tập kết quả được gọi là các bộ lọc. Một bộ lọc được áp dụng là bộ lọc xử lý DMCA như được chứng minh bằng...we have removed 1 result(s) from this page...
Vì vậy, bây giờ bạn đã biết cách áp dụng hình phạt, các liên kết, PR và bộ lọc DMCA được kết nối?
Với điều này, chúng tôi biết một bộ lọc đã được áp dụng, tuy nhiên, điều này không liên quan gì đến chỉ mục liên kết, đó là cách tính toán của PageRank. Nó được loại bỏ khỏi quá trình liên kết / PR như nó có thể nhận được. Liên kết và PR là ở phần đầu của quá trình lập chỉ mục trong khi loại bỏ trang bị phạt DMCA là ở cuối quá trình truy vấn. Trên thực tế, đây là hai động cơ hoàn toàn riêng biệt. Vì vậy, trong khi một trang có thể bị xóa do khiếu nại DMCA, thì nó không thực sự bị xóa khỏi chỉ mục và do đó các liên kết đến và từ trang vẫn được tính toán.
Rõ như bùn? Tôi hy vọng rằng tôi đã giải thích điều này tốt. Xin vui lòng cho tôi biết nếu tôi có thể làm rõ một cái gì đó cho bạn.
[Cập nhật]
Một ngoại lệ không áp dụng cho kịch bản của OP.
@StephenOstermiller mang đến một điểm tốt mà không làm suy yếu những điều trên, tuy nhiên, tôi muốn thêm nó cho đầy đủ.
Như bạn đã biết, việc ghi một trang web hoặc trang trong tìm kiếm đòi hỏi nhiều yếu tố. Mặc dù điều này không phải là kỹ thuật hoặc thần bí như bạn có thể tưởng tượng, nó vẫn còn rất nhiều hoặc yếu tố để cân nhắc. Tôi quên mất ảnh hưởng của điểm tin cậy chủ yếu là vì nó không được áp dụng trong trường hợp của OP. Vì vậy, tôi đang thêm nó ở đây.
Rõ ràng có những trang web không tốt như các trang web spam. Trong phân loại các trang web này là các trang web thường xuyên lạm dụng nội dung bản quyền. Đây là một vấn đề lớn trong nhiều năm trước, nơi những người dọn dẹp nội dung sẽ xây dựng các trang web từ công việc khó khăn của bạn. Trong một thời gian dài, không có gì được thực hiện. Các trang web có nội dung ban đầu sẽ thua các trang web cạp khá nhất quán. Tôi nên biết. Tôi đã có hai trang web PR 8 bị mất gần như toàn bộ lưu lượng truy cập do các trang web cào mà hoàn toàn không có sự truy đòi.
Tuy nhiên mọi thứ đã thay đổi. Và nó chỉ mới được khoảng bốn năm kể từ khi những thay đổi đáng kể đã bắt đầu.
Đối với các phân loại đặc biệt của các trang web, điểm tin cậy của các trang web có thể được giảm đáng kể. Điều này là nổi tiếng. Phải mất nhiều năm để xây dựng lại điểm tin cậy và đối với một số trang web, điều này có thể không bao giờ xảy ra. Ví dụ, tại sao bạn nghĩ rằng những người kiếm tiền từ miền sẵn sàng dọn rác triệt để một trang web với hàng trăm ngàn người đang chờ đợi trong cùng một vụ lạm dụng? Đó là bởi vì thực tế là một miền có thể phá hỏng giá trị của nó vượt quá sự cứu chuộc.
Có nhiều yếu tố đi vào việc thiết lập niềm tin. Tôi sẽ không nhận được ở đây. Tuy nhiên, phải biết rằng niềm tin là một thành phần chính của việc xây dựng thứ hạng cho bất kỳ trang web nào.
Điều đó nói rằng, đối với bất kỳ trang web nào là người vi phạm nghiêm trọng DMCA với hồ sơ theo dõi khá rộng rãi, sẽ thấy một cú đánh nghiêm trọng vào điểm tin cậy của nó. Đây không phải là kịch bản mà OP đang mô tả. Tuy nhiên, đó là kịch bản tôi đang giả định ở đây.
Liên kết và thiết lập PageRank có nhiều hơn một thành phần. Một là PageRank (quyền) của chính trang đó. Đối với các trang có thẩm quyền cao, có một giới hạn thẩm quyền. Một trang PR 8 sẽ không chia sẻ giá trị 8 trong số các liên kết trên trang đó. Đây là một phần của thuật toán PageRank ban đầu nhằm đưa đường cong tự nhiên hơn vào PR. Nếu không, gần như không thể để một trang mới cạnh tranh với một trang có thẩm quyền cao ngay cả sau một thời gian dài. Giá trị của chính liên kết được ghi bằng một số yếu tố bao gồm giá trị ngữ nghĩa của văn bản liên kết, URL liên kết, vị trí của liên kết (nổi bật), giá trị ngữ nghĩa của khối nội dung có chứa liên kết nếu được áp dụng, v.v. được tính điểm từ 0 đến 0,9. Việc tính toán thẩm quyền và điểm liên kết là giá trị được thông qua bởi bất kỳ liên kết nào.
Tốt và tốt. Vậy làm thế nào để điều này ảnh hưởng đến một trang web là một người vi phạm đáng kể của DMCA?
Giá trị của bất kỳ liên kết trong nước nào sẽ không nhất thiết bị ảnh hưởng bởi điểm tin cậy của trang đích vì giá trị liên kết đến từ trang nguồn. Tuy nhiên, bất kỳ liên kết ngoài có thể được. Quyền hạn của bất kỳ trang web nào là kẻ lạm dụng DMCA đáng kể sẽ bị ảnh hưởng bởi điểm tin cậy. Sau tất cả, thẩm quyền đến từ sự tin tưởng. Vì vậy, theo cách này, giá trị của một liên kết trong sẽ không được chuyển qua các liên kết ngoài mà không bị suy giảm tùy thuộc vào điểm số tin cậy.
Điều này thay đổi câu trả lời phần nào.
Mặc dù nó không áp dụng cho kịch bản của OP, nhưng có một kịch bản trong đó giá trị liên kết trong không hoàn toàn được chuyển qua trang web có vi phạm DMCA. Tuy nhiên, đây là một trường hợp khó khăn và do đó ngưỡng trước khi điều này xảy ra là rất đáng kể.