Dữ liệu nhị phân và văn bản không được tách riêng: Chúng chỉ đơn giản là dữ liệu . Nó phụ thuộc vào cách giải thích làm cho chúng cái này hay cái khác. Nếu bạn mở dữ liệu nhị phân (chẳng hạn như tệp hình ảnh) trong trình chỉnh sửa văn bản, phần lớn dữ liệu sẽ không có ý nghĩa, vì nó không phù hợp với cách hiểu của bạn (dưới dạng văn bản).
Những gì bạn gọi văn bản là một tập hợp con của nội dung tệp có thể: Dữ liệu trong một bộ ký tự đã cho sẽ dịch thành các ký tự có thể đọc được.
Ví dụ: trong ASCII , bạn có thể thấy rằng, trong số 128 giá trị "được phép", chỉ khoảng một nửa là chữ cái và số, 30 là dấu chấm câu và phần còn lại là ký tự điều khiển . Nhóm thứ hai không được sử dụng nhiều trong các tệp văn bản và chúng không có biểu diễn văn bản thực sự tốt. Một số trong số chúng là các ký tự Tab và Newline , trong đó các trình soạn thảo văn bản đã cần sáng tạo trong việc hiển thị chúng.
Một số trình soạn thảo văn bản có các tùy chọn để hiển thị rõ ràng khoảng trắng. Sau đó, họ thực sự sẽ được vẽ dưới dạng các ký tự, ngoài hành vi định dạng thông thường của họ (đó cũng chỉ là cách giải thích của các ký tự này).
ASCII thuần túy chỉ diễn giải 128 giá trị. Các byte được sử dụng để lưu trữ thông tin này có 256 giá trị có thể mỗi, vì vậy một nửa giá trị có thể không được phép trong ASCII. Chúng được sử dụng trong các bộ ký tự theo vùng cụ thể, chẳng hạn như Latin 1, nhưng trong ASCII, chúng không được xác định. Chúng không có biểu diễn hữu ích trong trình xem văn bản chỉ có thể xử lý ASCII.
Dữ liệu nhị phân thường không được hiểu là văn bản. Vì vậy, trong các tệp này, tất cả các giá trị byte có thể thường được tìm thấy. Mọi thứ khác sẽ lãng phí (và đó là lý do bạn có thể nén văn bản rất tốt). Các định dạng tệp hình ảnh rất phức tạp và bạn thường không xem chúng dưới dạng văn bản, vì vậy chúng không cần phải đọc được.
Vì không có cách hiểu dữ liệu chung (bộ ký tự) ánh xạ tất cả các giá trị có thể thành các ký tự có thể đọc được và vì dù sao nó cũng không có ý nghĩa gì (vì nó không phải là văn bản có thể đọc được), các phần chính được hiển thị là vô nghĩa.
Một trình soạn thảo hex chọn một biểu diễn khác nhau cho dữ liệu: Nó hiển thị mỗi byte dưới dạng hai chữ số thập lục phân . Nó chỉ là một biểu diễn khác nhau và một biểu tượng có bộ ký tự dễ đọc với con người: Tất cả 256 giá trị byte có thể có thể được biểu diễn dưới dạng hai chữ số hex.
Vì có một ánh xạ dễ dàng của dữ liệu nhị phân thành hex và ngược lại (4 chữ số nhị phân đến / từ một chữ số thập lục phân), và nhị phân chứa rất ít thông tin trên mỗi chữ số, thập lục phân thường là cách ưa thích để con người đọc nhị phân, trừ khi có cụ thể lý do để thích một đại diện khác nhau.
Một số trình soạn thảo văn bản có thể có chế độ soạn thảo hex và một số heuristic đã cố gắng xác định xem một tệp là văn bản hay nhị phân và tự động chọn một chế độ này hay chế độ khác. Nhưng điều này có thể khó thực hiện đúng và nó không phải là một thuộc tính cụ thể của tệp cho biết đó là loại này hay loại khác.
Một số máy khách FTP yêu cầu bạn chỉ định kết thúc tệp nào được sử dụng cho dữ liệu văn bản . Các chương trình này sau đó sẽ thay đổi nội dung tệp để phù hợp với HĐH của máy bạn được kết nối, vì Windows sử dụng một chuỗi ký tự kết thúc dòng khác ( CR/LF
) so với Linux và Unix (bao gồm cả Mac OS X; LF
).