Bạn đang đi đúng hướng. Bây giờ bạn chỉ cần giải nén nhóm mong muốn, như sau:
final Pattern pattern = Pattern.compile("<tag>(.+?)</tag>", Pattern.DOTALL);
final Matcher matcher = pattern.matcher("<tag>String I want to extract</tag>");
matcher.find();
System.out.println(matcher.group(1));
Nếu bạn muốn trích xuất nhiều lần truy cập, hãy thử cách này:
public static void main(String[] args) {
final String str = "<tag>apple</tag><b>hello</b><tag>orange</tag><tag>pear</tag>";
System.out.println(Arrays.toString(getTagValues(str).toArray()));
}
private static final Pattern TAG_REGEX = Pattern.compile("<tag>(.+?)</tag>", Pattern.DOTALL);
private static List<String> getTagValues(final String str) {
final List<String> tagValues = new ArrayList<String>();
final Matcher matcher = TAG_REGEX.matcher(str);
while (matcher.find()) {
tagValues.add(matcher.group(1));
}
return tagValues;
}
Tuy nhiên, tôi đồng ý rằng cụm từ thông dụng không phải là câu trả lời tốt nhất ở đây. Tôi muốn sử dụng XPath để tìm các phần tử mà tôi quan tâm. Xem API Java XPath để biết thêm thông tin.
[]
dấu ngoặc vuông là ký tự siêu trong một regex.