Unicode có thể có 50 khoảng trắng
\ u0009 \ u000A- \ u000D \ u0020 \ u0085 \ u00A0 \ u1680 \ u180E \ u2000- \ u200A \ u2028 \ u2029 \ u202F \ u205F \ u3000] [\ u0009 \ u000A u180E \ u2000- \ u200A \ u2028 \ u2029 \ u202F \ u205F \ u3000
và 6 ngắt dòng
không chỉ CRLF, LF, CR, mà cả NEL (U + 0085), PS (U + 2029) và LS (U + 2028).
Có lẽ tôi có thể hiểu hầu hết các khoảng trắng và PS ("Dấu phân cách đoạn"), nhưng "Dòng tiếp theo" và "Dấu tách dòng" tốt cho cái gì?
Tất cả trông giống như được phát minh bởi một ủy ban rất lớn, nơi mọi người đều muốn có không gian riêng của họ và các nhà lãnh đạo được cấp một dòng phá vỡ mỗi dòng. Nhưng nghiêm túc, làm thế nào để bạn đối phó với nó khi ngôn ngữ lập trình của bạn không hỗ trợ nó (hoặc nó sai như ví dụ Java)?
Pattern.compile2010
phương thức trả lại các biểu thức hoạt động theo định nghĩa năm ngoái. Họ cũng được tự do tạo ra một phương pháp Pattern.compileLatestUTS
có thể nói rõ ràng rằng ý nghĩa sẽ thay đổi theo đặc điểm kỹ thuật mới.