Không thể lưu chính xác nguồn của tệp .html chứa các chữ cái tiếng Nga là .txt


0

Khi tôi lưu nguồn của trang này của một trang web tiếng Nga:

http://www.mail.ru/

dưới dạng tệp .txt, tất cả các chữ cái tiếng Nga đều biến thành chữ Trung Quốc (hiện tại tôi đang làm việc trên máy tính Trung Quốc), nhưng khi tôi lưu một trang khác của một trang web tiếng Nga khác:

http: //starling.rinet.ru/cgi-bin/response.cgi? root = / usr / local / share / starling / morpho & amp; hình ozhegov & amp; đầu tiên = 4001

cũng như một tệp .txt, tất cả các chữ cái tiếng Nga được lưu chính xác.

Bất cứ ý tưởng tại sao điều này có thể xảy ra?

Câu trả lời:


2

Các trang web bạn đề cập sử dụng mã hóa khác nhau. Trang mail.ru sử dụng Cyrillic Windows-1251, trang rinet.ru sử dụng Unicode UTF-8.

Có thể là nguồn mail.ru được lưu chính xác như máy chủ đã gửi nó, nhưng trình soạn thảo văn bản của bạn không phát hiện được mã hóa hoặc hoàn toàn không hỗ trợ nó. Xem trình soạn thảo văn bản của bạn có tùy chọn Mã hóa hoặc trình đơn và thử các mã hóa khác nhau.

Để kiểm tra, bạn có thể kéo và thả tệp văn bản vào trình duyệt web của mình. Nếu văn bản tiếng Nga không xuất hiện chính xác, bạn có thể thử các bảng mã khác nhau. Tùy thuộc vào trình duyệt web của bạn, bạn có thể sử dụng một cái gì đó như nhấp chuột phải → Mã hóa hoặc menu trang → Mã hóa hoặc Xem → Mã hóa.

Thử nghiệm này có thể giúp xác nhận nếu trình soạn thảo văn bản không phát hiện mã hóa hoặc nếu mã hóa của tệp văn bản được chuyển đổi không chính xác khi được lưu.


1

Như đã thấy trong nguồn html, hai trang này có các điều kiện khác nhau: mail.ru nằm trong windows-1251 và liên kết thứ hai trong utf-8.

UTF-8 được sử dụng trên toàn thế giới và có thể được sử dụng để mã hóa tất cả các ký hiệu unicode có thể, do đó, văn bản trong utf-8 nên được nhìn thấy trên mọi máy tính (nếu nó được cài đặt đúng phông chữ).

Windows-1251 là mã hóa 1 byte, có nghĩa là nó chỉ có thể được sử dụng để mã hóa 256 ký hiệu (bao gồm các ký hiệu đặc biệt, số và bảng chữ cái tiếng Anh cả chữ thường và chữ hoa) và nó chỉ được sử dụng trong hậu USSR. Có nhiều mã hóa 1 byte được sử dụng trên toàn thế giới và trình soạn thảo văn bản của bạn có thể sử dụng một số mã hóa tiếng Trung theo mặc định (hoặc chỉ xác định mã hóa không chính xác). Có thể nó có thể được thay đổi trong cài đặt của nó hoặc bạn có thể chuyển đổi văn bản từ mã hóa này sang mã hóa khác.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.