Để bố trí, chúng tôi có văn bản "Lorem ipsum" nổi tiếng để kiểm tra xem nó trông như thế nào.
Những gì tôi đang tìm kiếm là một tập hợp các tệp chứa Văn bản được mã hóa bằng một số mã hóa khác nhau mà tôi có thể sử dụng trong các bài kiểm tra JUnit của mình để kiểm tra một số phương pháp xử lý mã hóa ký tự khi đọc tệp văn bản.
Thí dụ:Có ISO 8859-1
tệp Windows-1252
thử nghiệm được mã hóa và tệp thử nghiệm được mã hóa. Windows-1252 phải kích hoạt sự khác biệt trong vùng 80 16 - 9F 16 . Nói cách khác, nó phải chứa ít nhất một ký tự của vùng này để phân biệt với ISO 8859-1.
Có thể bộ tệp thử nghiệm tốt nhất là nơi tệp thử nghiệm cho mỗi bảng mã chứa tất cả các ký tự của nó một lần. Nhưng có lẽ tôi không biết về sth - tất cả chúng ta đều thích công cụ mã hóa này, phải không? :-)
Có một tập hợp các tệp thử nghiệm cho các vấn đề mã hóa ký tự ngoài đó không?