Tôi có nên không cho phép thu thập thông tin HTTP sau khi chuyển sang HTTPS không?


7

Tôi chỉ di chuyển trang web được lập chỉ mục tốt của mình từ HTTP sang HTTPS.

Các bước kế hoạch:

  1. Tất cả các trang HTML chuẩn sẽ là HTTPS ngay bây giờ
  2. Tất cả các trang HTTP sẽ chuyển hướng 301 đến HTTPS với cùng một URL
  3. Tất cả các sơ đồ trang web sẽ có URL HTTPS
  4. Tất cả các liên kết trên các trang HTML sẽ là HTTPS

Vấn đề 1:

Hiện robots.txttại ở cấp HTTPS, không cho phép tất cả, vì chúng tôi không muốn trình thu thập thông tin thu thập dữ liệu các trang HTTPS.

Điều gì nên là cách tiếp cận của chúng tôi bây giờ: Cho phép https bây giờ cho tất cả các liên kết là rõ ràng.

Nhưng những gì về việc cho phép / không cho phép HTTP (như thể nó không thu thập thông tin HTTP thì làm sao biết rằng không có gì mới xảy ra, chỉ HTTP đã được di chuyển sang HTTPS) Mặc dù 301 sẽ chỉ ra điều đó nhưng điều đó sẽ chỉ xảy ra khi trình thu thập thông tin mở cùng trang HTTP.

Vấn đề 2:

Nếu trong sơ đồ trang web tôi thêm tất cả các liên kết HTTPS, nó sẽ đưa tôi đến cùng một câu hỏi ở trên. Trình thu thập thông tin sẽ bắt đầu thu thập các liên kết https và lập chỉ mục cho chúng. Nhưng chúng tôi muốn nó biết rằng đó là cùng một phiên bản HTTP và vượt qua thứ hạng

Vì vậy, lý tưởng trong một khoảng thời gian cho đến khi tất cả các liên kết của chúng tôi được lập chỉ mục với HTTPS, liệu chúng ta có nên có cả HTTP và HTTPS trong sơ đồ trang web không?

Theo sự hiểu biết hiện tại, sau đây là kế hoạch:

Nếu google dừng thu thập dữ liệu http, nó sẽ không vượt qua thứ hạng. Vì vậy, tôi đang lên kế hoạch cho phép cả http và https theo robot có liên quan.

Nhưng không biết họ sẽ thu thập dữ liệu như thế nào trên máy chủ web của chúng tôi, chúng tôi đang chuyển hướng tất cả các liên kết http sang đối tác https. Vì vậy, ngay cả khi nó thu thập thông tin gốc của trang web của tôi, hãy nói http://www.example.com , cuối cùng nó sẽ chuyển hướng đến https://www.example.com nơi nó sẽ tìm thấy tất cả các liên kết https và do đó sẽ theo đó.

Có thể nó cũng cố gắng thu thập thông tin các liên kết mà nó đã lập chỉ mục (tất cả các liên kết http) và sẽ thấy rằng chúng được chuyển hướng, nhưng điều đó phụ thuộc vào hành vi và tần suất của trình thu thập thông tin. Trong khoảng thời gian giữa sự hiểu biết của trình thu thập thông tin về phiên bản 301 và https cũng được thu thập, nó sẽ tạo ra vấn đề trùng lặp nội dung và do đó ảnh hưởng đến thứ hạng của chúng tôi.


3
Câu trả lời nhanh? Cho phép thu thập thông tin HTTP để G biết có thay đổi. Sơ đồ trang web chỉ nên có các trang HTTPS được liệt kê. Sẽ mất khá nhiều thời gian trước khi G tìm nạp tất cả các trang của bạn, cả HTTP và HTTPS. Trong thời gian này, sẽ có một sự gián đoạn trong tìm kiếm trong khi tất cả điều này thẳng ra.
Closnoc 18/03/2016

@closetnoc: Tôi phù hợp với đề xuất của bạn cho đến khi người khác có thể cung cấp câu trả lời tốt hơn.
abhinsit

Tại sao bạn không muốn trình thu thập thông tin thu thập dữ liệu các trang HTTPS? Nếu các liên kết được chuyển hướng đến https và nó bị chặn bởi robots.txt thì nó sẽ bị tổn thương rất nhiều.
Goyllo

Tôi không chặn https thông qua robot.txt
abhinsit 20/03/2016

Câu trả lời:


5

Nếu bạn đã chuyển hướng lưu lượng HTTP 301 sang HTTPS thì bạn đã hoàn thành bước lớn nhất. Mọi liên kết đến các trang HTTP sẽ được chuyển hướng đến trang HTTPS có liên quan và các công cụ tìm kiếm sẽ theo những trang đó giống như người dùng thực. Miễn là sơ đồ trang web của bạn đề cập đến phiên bản HTTPS, bạn sẽ ổn.

Đối với các bit khó hiểu hơn, tôi cũng khuyên bạn nên kiểm tra như sau:

Sơ đồ trang web

Bạn đã đề cập đến việc cập nhật này, nhưng một số người sử dụng plugin để tạo lại nó thường xuyên. Đảm bảo rằng bất kỳ tập lệnh nào bạn sử dụng không vô tình thay thế HTTPS bằng HTTP bằng một số quy trình tự động.

Canonicals

Nếu bạn có các liên kết chính tắc tại chỗ trên trang web của mình, hãy đảm bảo rằng chúng trỏ đến HTTPS. Nếu bạn sử dụng plugin WordPress, nó có thể không tự động nhận "Địa chỉ trang web" mới, vì vậy hãy kiểm tra cụ thể các plugin SEO của bạn. Nếu bạn có một trang web tùy chỉnh, chỉ cần kiểm tra giao thức bạn bao gồm.

Robots.txt

Phiên bản HTTP của bạn robots.txtthậm chí sẽ không thể đọc được nữa nếu nó được chuyển hướng sang phiên bản HTTPS. Chỉ cần đảm bảo phiên bản bạn phục vụ qua HTTPS không chặn các trang bạn thực sự muốn thu thập thông tin.

Liên kết nội bộ

Liên kết đến các trang trong trang web của bạn phải luôn sử dụng HTTPS ngay bây giờ. Có thể dễ dàng kiểm tra trong các menu toàn cầu, nhưng kiểm tra các liên kết trong trang trở nên khó khăn hơn. phpMyAdmin có một công cụ tìm kiếm phong nha để tìm bất kỳ, vì vậy nếu bạn có tìm kiếm đó http://www.example.comvà cập nhật từ đó. Các công cụ DB khác nên có các phương tiện tương tự. WordPress có các plugin thậm chí cho phép bạn thực hiện tìm kiếm / thay thế tại chỗ.

Liện kết ngoại

Bạn sẽ không thể kiểm soát tất cả các liên kết bên ngoài vào trang web của mình (ồ thật tuyệt vời) nhưng bạn có thể kiểm soát nhiều hơn bạn nghĩ. Cập nhật tất cả các hồ sơ truyền thông xã hội của bạn (Facebook / Twitter / & c.) Để liên kết lại với phiên bản HTTPS của trang web của bạn. Kiểm tra các liên kết từ chữ ký email là tốt, chỉ để trang trải căn cứ của bạn.

HSTS

HTTP Strict Transport Security là một cách để thông báo cho các trình duyệt chỉ sử dụng HTTPS khi quay lại trang web của bạn. Ngay cả khi người dùng nhấp vào liên kết HTTP, nếu họ biết chính sách HSTS của bạn, trình duyệt của họ sẽ tự động yêu cầu phiên bản HTTPS mà không phải chờ chuyển hướng. Bạn thậm chí có thể gửi trang web của mình đến "danh sách được tải sẵn STS" để các trình duyệt sẽ được tải sẵn tên miền của bạn và sẽ tự động yêu cầu tài nguyên qua HTTPS theo mặc định. Thêm một Strict-Transport-Security: max-age=10886400; includeSubDomains; preloadtiêu đề và gửi tới https://hstspreload.appspot.com/ hoặc đọc https://www.owasp.org/index.php/HTTP_Strict_Transport_Security để biết thêm thông tin.


2

Vấn đề 1

Không, không có lợi thế nào để chặn thu thập thông tin HTTP nên không có lý do gì để làm điều đó. Hơn nữa, và đây là một chút suy đoán, nó có thể can thiệp vào dòng giá trị từ các liên kết bên ngoài tham chiếu các phiên bản HTTP cũ của bạn.

Vấn đề 2

Một lần nữa, không có lợi trong việc này. Các chuyển hướng 301 sẽ thực hiện công việc chuyển giá trị cho các URL mới.


3
Không cần phải cảm thấy đầu cơ. Nếu công cụ tìm kiếm không thể thu thập dữ liệu và thấy chuyển hướng 301, nó không thể chuyển giá trị SEO sang phiên bản HTTPS.
Stephen Ostermiller

0

Không. Đơn giản chỉ cần thực hiện một ca: http sang https. Tôi không biết mô hình kinh doanh của bạn nhưng tùy thuộc vào thẩm quyền của trang web của bạn, bảng xếp hạng của Google bạn sẽ thấy sự gián đoạn lớn. Trạng thái cân bằng sẽ được thiết lập với Google trong vòng 4 tuần, miễn là bạn đã đưa các trang cũ sang trang mới. Câu trả lời đơn giản là không chặn một liên kết trung gian từ http.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.