Làm cách nào để kiểm tra xem một chuỗi đã cho có phải là địa chỉ URL hợp lệ không?
Kiến thức về biểu thức chính quy của tôi là cơ bản và không cho phép tôi chọn trong số hàng trăm biểu thức chính quy tôi đã thấy trên web.
Làm cách nào để kiểm tra xem một chuỗi đã cho có phải là địa chỉ URL hợp lệ không?
Kiến thức về biểu thức chính quy của tôi là cơ bản và không cho phép tôi chọn trong số hàng trăm biểu thức chính quy tôi đã thấy trên web.
Câu trả lời:
Tôi đã viết mẫu URL (thực tế là IRI, được quốc tế hóa) để tuân thủ RFC 3987 ( http://www.faqs.org/rfcs/rfc3987.html ). Đây là trong cú pháp PCRE.
Đối với IRI tuyệt đối (quốc tế hóa):
Để cũng cho phép IRI tương đối:
Cách chúng được biên dịch (trong PHP):
/* Regex convenience functions (character class, non-capturing group) */
function cc($str, $suffix = '', $negate = false) {
return '[' . ($negate ? '^' : '') . $str . ']' . $suffix;
function ncg($str, $suffix = '') {
return '(?:' . $str . ')' . $suffix;
/* Preserved from RFC3986 */
$ALPHA = 'a-z';
$DIGIT = '0-9';
$HEXDIG = $DIGIT . 'a-f';
$sub_delims = '!\\$&\'\\(\\)\\*\\+,;=';
$gen_delims = ':\\/\\?\\#\\[\\]@';
$reserved = $gen_delims . $sub_delims;
$unreserved = '-' . $ALPHA . $DIGIT . '\\._~';
$pct_encoded = '%' . cc($HEXDIG) . cc($HEXDIG);
$dec_octet = ncg(implode('|', array(
cc('1-9') . cc($DIGIT),
'1' . cc($DIGIT) . cc($DIGIT),
'2' . cc('0-4') . cc($DIGIT),
'25' . cc('0-5')
$IPv4address = $dec_octet . ncg('\\.' . $dec_octet, '{3}');
$h16 = cc($HEXDIG, '{1,4}');
$ls32 = ncg($h16 . ':' . $h16 . '|' . $IPv4address);
$IPv6address = ncg(implode('|', array(
ncg($h16 . ':', '{6}') . $ls32,
'::' . ncg($h16 . ':', '{5}') . $ls32,
ncg($h16, '?') . '::' . ncg($h16 . ':', '{4}') . $ls32,
ncg($h16 . ':' . $h16, '?') . '::' . ncg($h16 . ':', '{3}') . $ls32,
ncg(ncg($h16 . ':', '{0,2}') . $h16, '?') . '::' . ncg($h16 . ':', '{2}') . $ls32,
ncg(ncg($h16 . ':', '{0,3}') . $h16, '?') . '::' . $h16 . ':' . $ls32,
ncg(ncg($h16 . ':', '{0,4}') . $h16, '?') . '::' . $ls32,
ncg(ncg($h16 . ':', '{0,5}') . $h16, '?') . '::' . $h16,
ncg(ncg($h16 . ':', '{0,6}') . $h16, '?') . '::',
$IPvFuture = 'v' . cc($HEXDIG, '+') . cc($unreserved . $sub_delims . ':', '+');
$IP_literal = '\\[' . ncg(implode('|', array($IPv6address, $IPvFuture))) . '\\]';
$port = cc($DIGIT, '*');
$scheme = cc($ALPHA) . ncg(cc('-' . $ALPHA . $DIGIT . '\\+\\.'), '*');
/* New or changed in RFC3987 */
$iprivate = '\x{E000}-\x{F8FF}\x{F0000}-\x{FFFFD}\x{100000}-\x{10FFFD}';
$ucschar = '\x{A0}-\x{D7FF}\x{F900}-\x{FDCF}\x{FDF0}-\x{FFEF}' .
'\x{10000}-\x{1FFFD}\x{20000}-\x{2FFFD}\x{30000}-\x{3FFFD}' .
'\x{40000}-\x{4FFFD}\x{50000}-\x{5FFFD}\x{60000}-\x{6FFFD}' .
'\x{70000}-\x{7FFFD}\x{80000}-\x{8FFFD}\x{90000}-\x{9FFFD}' .
'\x{A0000}-\x{AFFFD}\x{B0000}-\x{BFFFD}\x{C0000}-\x{CFFFD}' .
$iunreserved = '-' . $ALPHA . $DIGIT . '\\._~' . $ucschar;
$ipchar = ncg($pct_encoded . '|' . cc($iunreserved . $sub_delims . ':@'));
$ifragment = ncg($ipchar . '|' . cc('\\/\\?'), '*');
$iquery = ncg($ipchar . '|' . cc($iprivate . '\\/\\?'), '*');
$isegment_nz_nc = ncg($pct_encoded . '|' . cc($iunreserved . $sub_delims . '@'), '+');
$isegment_nz = ncg($ipchar, '+');
$isegment = ncg($ipchar, '*');
$ipath_empty = '(?!' . $ipchar . ')';
$ipath_rootless = ncg($isegment_nz) . ncg('\\/' . $isegment, '*');
$ipath_noscheme = ncg($isegment_nz_nc) . ncg('\\/' . $isegment, '*');
$ipath_absolute = '\\/' . ncg($ipath_rootless, '?'); // Spec says isegment-nz *( "/" isegment )
$ipath_abempty = ncg('\\/' . $isegment, '*');
$ipath = ncg(implode('|', array(
))) . ')';
$ireg_name = ncg($pct_encoded . '|' . cc($iunreserved . $sub_delims . '@'), '*');
$ihost = ncg(implode('|', array($IP_literal, $IPv4address, $ireg_name)));
$iuserinfo = ncg($pct_encoded . '|' . cc($iunreserved . $sub_delims . ':'), '*');
$iauthority = ncg($iuserinfo . '@', '?') . $ihost . ncg(':' . $port, '?');
$irelative_part = ncg(implode('|', array(
'\\/\\/' . $iauthority . $ipath_abempty . '',
'' . $ipath_absolute . '',
'' . $ipath_noscheme . '',
'' . $ipath_empty . ''
$irelative_ref = $irelative_part . ncg('\\?' . $iquery, '?') . ncg('\\#' . $ifragment, '?');
$ihier_part = ncg(implode('|', array(
'\\/\\/' . $iauthority . $ipath_abempty . '',
'' . $ipath_absolute . '',
'' . $ipath_rootless . '',
'' . $ipath_empty . ''
$absolute_IRI = $scheme . ':' . $ihier_part . ncg('\\?' . $iquery, '?');
$IRI = $scheme . ':' . $ihier_part . ncg('\\?' . $iquery, '?') . ncg('\\#' . $ifragment, '?');
$IRI_reference = ncg($IRI . '|' . $irelative_ref);
Chỉnh sửa ngày 7 tháng 3 năm 2011: Do cách PHP xử lý dấu gạch chéo ngược trong các chuỗi được trích dẫn, chúng không thể sử dụng theo mặc định. Bạn sẽ cần phải thoát hai dấu gạch chéo ngược trừ trường hợp dấu gạch chéo ngược có ý nghĩa đặc biệt trong regex. Bạn có thể làm theo cách này:
$escape_backslash = '/(?<!\\)\\(?![\[\]\\\^\$\.\|\*\+\(\)QEnrtaefvdwsDWSbAZzB1-9GX]|x\{[0-9a-f]{1,4}\}|\c[A-Z]|)/';
$absolute_IRI = preg_replace($escape_backslash, '\\\\', $absolute_IRI);
$IRI = preg_replace($escape_backslash, '\\\\', $IRI);
$IRI_reference = preg_replace($escape_backslash, '\\\\', $IRI_reference);
là một URL hợp lệ. http://localhost
là, tại sao những từ khác sẽ không? Bạn đúng rằng trình u
sửa đổi là cần thiết trong PHP. Tôi muốn làm rõ rằng trong khi tôi tạo ra những thứ này bằng PHP, chúng không có nghĩa là cụ thể về PHP.
Tôi vừa mới viết một bài đăng trên blog cho một giải pháp tuyệt vời để nhận ra URL ở hầu hết các định dạng được sử dụng, chẳng hạn như:
Biểu thức chính quy được sử dụng là:
Nền tảng gì? Nếu sử dụng .NET, hãy sử dụngSystem.Uri.TryCreate
, không phải là regex.
Ví dụ:
static bool IsValidUrl(string urlString)
Uri uri;
return Uri.TryCreate(urlString, UriKind.Absolute, out uri)
&& (uri.Scheme == Uri.UriSchemeHttp
|| uri.Scheme == Uri.UriSchemeHttps
|| uri.Scheme == Uri.UriSchemeFtp
|| uri.Scheme == Uri.UriSchemeMailto
// In test fixture...
void IsValidUrl_Test()
(Cảm ơn @Yoshi về mẹo này javascript:
javascript: alert('blah')
. Bạn cần xác thực thêm trên Uri.Scheme để xác nhận giao thức http / https / ftp đang được sử dụng, nếu không, nếu URL đó được chèn vào HTML của trang ASP.NET dưới dạng liên kết, người dùng của bạn dễ bị tấn công XSS .
Đây là những gì RegexBuddy sử dụng.
Nó phù hợp với những điều dưới đây (bên trong các ** **
Bạn có thể tải xuống RegexBuddy tại http://www.regexbuddy.com/doad.html .
Liên quan đến bài đăng câu trả lời của mí mắt có nội dung "Điều này dựa trên việc tôi đọc thông số kỹ thuật URI.": Cảm ơn Mí mắt, đây là giải pháp hoàn hảo tôi tìm kiếm, vì nó dựa trên thông số URI! Công việc tuyệt vời. :)
Tôi đã phải thực hiện hai sửa đổi. Người đầu tiên nhận được biểu thức chính quy để khớp chính xác các địa chỉ IP trong PHP (v5.2.10) với hàm preg_match ().
Tôi đã phải thêm một bộ dấu ngoặc đơn vào dòng trên "Địa chỉ IP" xung quanh các đường ống:
Không chắc chắn lý do tại sao.
Tôi cũng đã giảm độ dài tối thiểu của tên miền cấp cao nhất từ 3 xuống còn 2 chữ cái để hỗ trợ .co.uk và tương tự.
Mã cuối cùng:
/^(https?|ftp):\/\/(?# protocol
)(([a-z0-9$_\.\+!\*\'\(\),;\?&=-]|%[0-9a-f]{2})+(?# username
)(:([a-z0-9$_\.\+!\*\'\(\),;\?&=-]|%[0-9a-f]{2})+)?(?# password
)@)?(?# auth requires @
)((([a-z0-9]\.|[a-z0-9][a-z0-9-]*[a-z0-9]\.)*(?# domain segments AND
)[a-z][a-z0-9-]*[a-z0-9](?# top level domain OR
)(\d|[1-9]\d|1\d{2}|2[0-4][0-9]|25[0-5])(?# IP address
))(:\d+)?(?# port
))(((\/+([a-z0-9$_\.\+!\*\'\(\),;:@&=-]|%[0-9a-f]{2})*)*(?# path
)(\?([a-z0-9$_\.\+!\*\'\(\),;:@&=-]|%[0-9a-f]{2})*)(?# query string
)?)?)?(?# path and query string optional
)(#([a-z0-9$_\.\+!\*\'\(\),;:@&=-]|%[0-9a-f]{2})*)?(?# fragment
Phiên bản sửa đổi này không được kiểm tra theo đặc tả URI vì vậy tôi không thể đảm bảo tính tuân thủ của nó, nó đã được thay đổi để xử lý URL trên môi trường mạng cục bộ và TLD hai chữ số cũng như các loại URL Web khác và để hoạt động tốt hơn trong PHP thiết lập tôi sử dụng.
Như mã PHP :
'/^(https?):\/\/'. // protocol
'(([a-z0-9$_\.\+!\*\'\(\),;\?&=-]|%[0-9a-f]{2})+'. // username
'(:([a-z0-9$_\.\+!\*\'\(\),;\?&=-]|%[0-9a-f]{2})+)?'. // password
'@)?(?#'. // auth requires @
')((([a-z0-9]\.|[a-z0-9][a-z0-9-]*[a-z0-9]\.)*'. // domain segments AND
'[a-z][a-z0-9-]*[a-z0-9]'. // top level domain OR
'(\d|[1-9]\d|1\d{2}|2[0-4][0-9]|25[0-5])'. // IP address
')(:\d+)?'. // port
')(((\/+([a-z0-9$_\.\+!\*\'\(\),;:@&=-]|%[0-9a-f]{2})*)*'. // path
'(\?([a-z0-9$_\.\+!\*\'\(\),;:@&=-]|%[0-9a-f]{2})*)'. // query string
'?)?)?'. // path and query string optional
'(#([a-z0-9$_\.\+!\*\'\(\),;:@&=-]|%[0-9a-f]{2})*)?'. // fragment
Đây là một chương trình thử nghiệm trong PHP, xác nhận nhiều loại URL bằng cách sử dụng biểu thức chính quy:
'/^(https?):\/\/'. // protocol
'(([a-z0-9$_\.\+!\*\'\(\),;\?&=-]|%[0-9a-f]{2})+'. // username
'(:([a-z0-9$_\.\+!\*\'\(\),;\?&=-]|%[0-9a-f]{2})+)?'. // password
'@)?(?#'. // auth requires @
')((([a-z0-9]\.|[a-z0-9][a-z0-9-]*[a-z0-9]\.)*'. // domain segments AND
'[a-z][a-z0-9-]*[a-z0-9]'. // top level domain OR
'(\d|[1-9]\d|1\d{2}|2[0-4][0-9]|25[0-5])'. // IP address
')(:\d+)?'. // port
')(((\/+([a-z0-9$_\.\+!\*\'\(\),;:@&=-]|%[0-9a-f]{2})*)*'. // path
'(\?([a-z0-9$_\.\+!\*\'\(\),;:@&=-]|%[0-9a-f]{2})*)'. // query string
'?)?)?'. // path and query string optional
'(#([a-z0-9$_\.\+!\*\'\(\),;:@&=-]|%[0-9a-f]{2})*)?'. // fragment
* Verify the syntax of the given URL.
* @access public
* @param $url The URL to verify.
* @return boolean
function is_valid_url($url) {
if (str_starts_with(strtolower($url), 'http://localhost')) {
return true;
return preg_match(URL_FORMAT, $url);
* String starts with something
* This function will return true only if input string starts with
* niddle
* @param string $string Input string
* @param string $niddle Needle string
* @return boolean
function str_starts_with($string, $niddle) {
return substr($string, 0, strlen($niddle)) == $niddle;
* Test a URL for validity and count results.
* @param url url
* @param expected expected result (true or false)
$numtests = 0;
$passed = 0;
function test_url($url, $expected) {
global $numtests, $passed;
$valid = is_valid_url($url);
echo "URL Valid?: " . ($valid?"yes":"no") . " for URL: $url. Expected: ".($expected?"yes":"no").". ";
if($valid == $expected) {
echo "PASS\n"; $passed++;
} else {
echo "FAIL\n";
echo "URL Tests:\n\n";
test_url("http://localserver/projects/public/assets/javascript/widgets/UserBoxMenu/widget.css", true);
test_url("http://www.google.com", true);
test_url("http://www.google.co.uk/projects/my%20folder/test.php", true);
test_url("https://myserver.localdomain", true);
test_url("", true);
test_url("", true);
test_url("http://projectpier-server.localdomain/projects/public/assets/javascript/widgets/UserBoxMenu/widget.css", true);
test_url("", true);
test_url("https://localhost/a/b/c/test.php?c=controller&arg1=20&arg2=20", true);
test_url("http://user:password@localhost/a/b/c/test.php?c=controller&arg1=20&arg2=20", true);
echo "\n$passed out of $numtests tests passed.\n\n";
Cảm ơn một lần nữa cho mí mắt cho regex!
bằng ')((([a-z0-9]\.|[a-z0-9][a-z0-9-]*[a-z0-9]\.)*'.
. " Tôi đã thực hiện chỉnh sửa có liên quan dựa trên nhận xét này.
(giao thức) Tại sao bạn không cho phép các giao thức như dữ liệu, tệp, svn, dc ++, nam châm, skype hoặc bất kỳ giao thức nào khác được hỗ trợ bởi trình duyệt có plugin hoặc máy chủ tương ứng?
Mathias Bynens có một bài viết tuyệt vời về sự so sánh tốt nhất của rất nhiều biểu thức thông thường: Tìm kiếm biểu thức xác thực URL hoàn hảo
Bài viết hay nhất hơi dài, nhưng nó phù hợp với bất cứ thứ gì bạn có thể ném vào nó.
Bài đăng Lấy các phần của URL (Regex) thảo luận về phân tích cú pháp URL để xác định các thành phần khác nhau của URL. Nếu bạn muốn kiểm tra xem một URL có được hình thành tốt hay không, nó sẽ đủ cho nhu cầu của bạn.
Nếu bạn cần kiểm tra xem nó có thực sự hợp lệ hay không, cuối cùng bạn sẽ phải cố gắng truy cập bất cứ thứ gì ở đầu bên kia.
Tuy nhiên, nói chung, có lẽ bạn sẽ tốt hơn khi sử dụng một chức năng được cung cấp cho bạn bởi khuôn khổ của bạn hoặc thư viện khác. Nhiều nền tảng bao gồm các chức năng phân tích URL. Ví dụ: có mô-đun urlparse của Python và trong .NET, bạn có thể sử dụng hàm tạo của lớp System.Uri làm phương tiện xác thực URL.
Đây có thể không phải là một công việc cho regexes, nhưng cho các công cụ hiện có trong ngôn ngữ bạn chọn. Bạn có thể muốn sử dụng mã hiện có đã được viết, kiểm tra và gỡ lỗi.
Trong PHP, sử dụng parse_url
Perl: URI
mô-đun .
Ruby: URI
mô-đun .
.NET: Lớp 'Uri'
Regexes không phải là cây đũa thần mà bạn vẫy tay trong mọi vấn đề xảy ra liên quan đến chuỗi.
Đối với mục đích tham khảo, đây là Thông số IETF: ( TXT | HTML ). Cụ thể, Phụ lục B. Phân tích cú pháp tham chiếu URI bằng biểu thức chính quy thể hiện cách phân tích biểu thức chính quy hợp lệ . Điều này được mô tả là,
cho một ví dụ về trình phân tích cú pháp tham chiếu URI không xác thực sẽ lấy bất kỳ chuỗi đã cho nào và trích xuất các thành phần URI.
Đây là regex họ cung cấp:
Như một người khác đã nói, có lẽ tốt nhất là để phần này cho lib / framework bạn đang sử dụng.
Điều này sẽ phù hợp với tất cả các URL
... bao gồm các tên miền phụ và các phần mở rộng tên miền cấp cao mới như. bảo tàng ,. học viện ,. nền tảng, vv có thể có tối đa 63 ký tự (không chỉ. com , net ,. thông tin, v.v.)
Bởi vì ngày nay độ dài tối đa của phần mở rộng tên miền cấp cao nhất hiện có là 13 ký tự như. Quốc tế , bạn có thể thay đổi số 63 trong biểu thức thành 13 để ngăn người khác lạm dụng nó.
như javascript
var urlreg=/(([\w]+:)?\/\/)?(([\d\w]|%[a-fA-f\d]{2,2})+(:([\d\w]|%[a-fA-f\d]{2,2})+)?@)?([\d\w][-\d\w]{0,253}[\d\w]\.)+[\w]{2,63}(:[\d]+)?(\/([-+_~.\d\w]|%[a-fA-f\d]{2,2})*)*(\?(&?([-+_~.\d\w]|%[a-fA-f\d]{2,2})=?)*)?(#([-+_~.\d\w]|%[a-fA-f\d]{2,2})*)?/;
var url = $(this).val();
$(this).toggleClass('invalid', urlreg.test(url) == false)
<script src="https://ajax.googleapis.com/ajax/libs/jquery/2.1.1/jquery.min.js"></script>
Bài viết Wikipedia: Danh sách tất cả các tên miền cấp cao nhất trên Internet
. Làm thế nào bạn sẽ điều chỉnh nó để xử lý các trường hợp này?
Biểu thức chính quy tốt nhất cho URL đối với tôi sẽ là:
bằng \p{L}
ở mức tối thiểu.
thành ([\d\w][-\d\w]{0,253}[\d\w]?\.)+
(thêm một dấu hỏi gần cuối của nó)
function validateURL(textval) {
var urlregex = new RegExp(
return urlregex.test(textval);
Các trận đấu http://site.com/dir/file.php?var=moo |ftp: // người dùng: pass@site.com: 21 / file / dir
Trang web không phù hợp.com | http://site.com/dir//
http://www.goo gle.com
sẽ khớp.
function validateURL(textval) {
var urlregex = new RegExp(
return urlregex.test(textval);
Các trận đấu http://www.asdah.com/~joe | ftp://ftp.asdah.co.uk:2828/asdah%20asdah.gif | https://asdah.gov/asdh-ah.as
Tôi không thể tìm thấy regex mà tôi đang tìm kiếm vì vậy tôi đã sửa đổi một regex để đáp ứng đầy đủ các yêu cầu của tôi và dường như nó hoạt động tốt. Yêu cầu của tôi là:
Ở đây những gì tôi đã đưa ra, bất kỳ đề nghị được đánh giá cao:
public void testWebsiteUrl(){
String regularExpression = "((http|ftp|https):\\/\\/)?[\\w\\-_]+(\\.[\\w\\-_]+)+([\\w\\-\\.,@?^=%&:/~\\+#]*[\\w\\-\\@?^=%&/~\\+#])?";
Nếu bạn thực sự tìm kiếm trận đấu cuối cùng , có lẽ bạn sẽ tìm thấy nó trên " Biểu thức chính quy Url tốt? ".
Nhưng một regex thực sự phù hợp với tất cả các miền có thể và cho phép mọi thứ được phép theo RFC đều dài khủng khiếp và không thể đọc được, hãy tin tôi ;-)
Tôi đã làm việc trên một bài viết chuyên sâu thảo luận về xác thực URI bằng các biểu thức thông thường. Nó dựa trên RFC3986.
Xác thực URI biểu thức chính quy
Mặc dù bài viết vẫn chưa hoàn thành, tôi đã đưa ra một chức năng PHP, một công việc khá tốt để xác thực các URL HTTP và FTP. Đây là phiên bản hiện tại:
// function url_valid($url) { Rev:20110423_2000
// Return associative array of valid URI components, or FALSE if $url is not
// RFC-3986 compliant. If the passed URL begins with: "www." or "ftp.", then
// "http://" or "ftp://" is prepended and the corrected full-url is stored in
// the return array with a key name "url". This value should be used by the caller.
// Return value: FALSE if $url is not valid, otherwise array of URI components:
// e.g.
// Given: "http://www.jmrware.com:80/articles?height=10&width=75#fragone"
// Array(
// [scheme] => http
// [authority] => www.jmrware.com:80
// [userinfo] =>
// [host] => www.jmrware.com
// [IP_literal] =>
// [IPV6address] =>
// [ls32] =>
// [IPvFuture] =>
// [IPv4address] =>
// [regname] => www.jmrware.com
// [port] => 80
// [path_abempty] => /articles
// [query] => height=10&width=75
// [fragment] => fragone
// [url] => http://www.jmrware.com:80/articles?height=10&width=75#fragone
// )
function url_valid($url) {
if (strpos($url, 'www.') === 0) $url = 'http://'. $url;
if (strpos($url, 'ftp.') === 0) $url = 'ftp://'. $url;
if (!preg_match('/# Valid absolute URI having a non-empty, valid DNS host.
(?: (?:[0-9A-Fa-f]{1,4}:){6}
| ::(?:[0-9A-Fa-f]{1,4}:){5}
| (?: [0-9A-Fa-f]{1,4})?::(?:[0-9A-Fa-f]{1,4}:){4}
| (?:(?:[0-9A-Fa-f]{1,4}:){0,1}[0-9A-Fa-f]{1,4})?::(?:[0-9A-Fa-f]{1,4}:){3}
| (?:(?:[0-9A-Fa-f]{1,4}:){0,2}[0-9A-Fa-f]{1,4})?::(?:[0-9A-Fa-f]{1,4}:){2}
| (?:(?:[0-9A-Fa-f]{1,4}:){0,3}[0-9A-Fa-f]{1,4})?:: [0-9A-Fa-f]{1,4}:
| (?:(?:[0-9A-Fa-f]{1,4}:){0,4}[0-9A-Fa-f]{1,4})?::
| (?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}
| (?:(?:[0-9A-Fa-f]{1,4}:){0,5}[0-9A-Fa-f]{1,4})?:: [0-9A-Fa-f]{1,4}
| (?:(?:[0-9A-Fa-f]{1,4}:){0,6}[0-9A-Fa-f]{1,4})?::
| (?P<IPvFuture>[Vv][0-9A-Fa-f]+\.[A-Za-z0-9\-._~!$&\'()*+,;=:]+)
| (?P<IPv4address>(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}
| (?P<regname>(?:[A-Za-z0-9\-._~!$&\'()*+,;=]|%[0-9A-Fa-f]{2})+)
(?:\?(?P<query> (?:[A-Za-z0-9\-._~!$&\'()*+,;=:@\\/?]|%[0-9A-Fa-f]{2})*))?
(?:\#(?P<fragment> (?:[A-Za-z0-9\-._~!$&\'()*+,;=:@\\/?]|%[0-9A-Fa-f]{2})*))?
/mx', $url, $m)) return FALSE;
switch ($m['scheme']) {
case 'https':
case 'http':
if ($m['userinfo']) return FALSE; // HTTP scheme does not allow userinfo.
case 'ftps':
case 'ftp':
return FALSE; // Unrecognized URI scheme. Default to FALSE.
// Validate host name conforms to DNS "dot-separated-parts".
if ($m['regname']) { // If host regname specified, check for DNS conformance.
if (!preg_match('/# HTTP DNS host name.
^ # Anchor to beginning of string.
(?!.{256}) # Overall host length is less than 256 chars.
(?: # Group dot separated host part alternatives.
[A-Za-z0-9]\. # Either a single alphanum followed by dot
| # or... part has more than one char (63 chars max).
[A-Za-z0-9] # Part first char is alphanum (no dash).
[A-Za-z0-9\-]{0,61} # Internal chars are alphanum plus dash.
[A-Za-z0-9] # Part last char is alphanum (no dash).
\. # Each part followed by literal dot.
)* # Zero or more parts before top level domain.
(?: # Explicitly specify top level domains.
[A-Za-z]{2}) # Country codes are exactly two alpha chars.
\.? # Top level domain can end in a dot.
$ # Anchor to end of string.
/ix', $m['host'])) return FALSE;
$m['url'] = $url;
for ($i = 0; isset($m[$i]); ++$i) unset($m[$i]);
return $m; // return TRUE == array of useful named $matches plus the valid $url.
Hàm này sử dụng hai biểu thức chính; một để khớp với một tập hợp con URI chung hợp lệ (những cái tuyệt đối có một máy chủ không trống) và một thứ hai để xác thực tên máy chủ lưu trữ "các phần tách biệt" của DNS. Mặc dù chức năng này hiện chỉ xác nhận các lược đồ HTTP và FTP, nhưng nó được cấu trúc sao cho có thể dễ dàng mở rộng để xử lý các lược đồ khác.
tôi đã viết một phiên bản nhỏ mà bạn có thể chạy
nó phù hợp với các url sau (đủ tốt cho tôi)
public static void main(args){
String url = "go to http://www.m.abut.ly/abc its awesome"
url = url.replaceAll(/https?:\/\/w{0,3}\w*?\.(\w*?\.)?\w{2,3}\S*|www\.(\w*?\.)?\w*?\.\w{2,3}\S*|(\w*?\.)?\w*?\.\w{2,3}[\/\?]\S*/ , { it ->
println url
google.com? a = 5
google.com / help.php
http://www.m.google.com.vn/help.php?a=5 (và tất cả các hoán vị của nó)
www.m.google.com/help.php?a=5 (và tất cả các hoán vị của nó)
m.google.com/help.php?a=5 (và tất cả các hoán vị của nó)
Điều quan trọng đối với bất kỳ url nào không bắt đầu bằng http hoặc www là chúng phải bao gồm / hoặc?
Tôi cá là điều này có thể được điều chỉnh nhiều hơn một chút nhưng nó hoạt động khá tốt vì quá ngắn và gọn ... bởi vì bạn có thể chia nó thành 3:
tìm bất cứ thứ gì bắt đầu bằng http: https ?: // w {0,3} \ w * ?. \ w {2,3} \ S *
tìm bất cứ thứ gì bắt đầu bằng www: www. \ w * ?. \ w {2,3} \ S *
hoặc tìm bất cứ thứ gì phải có một văn bản sau đó là một dấu chấm sau đó ít nhất là 2 chữ cái và sau đó là a? hoặc /: \ w * ?. \ w {2,3} [/ \?] \ S *
trong URL.
Tôi sử dụng regex này:
Để hỗ trợ cả hai:
Đây là một quy tắc tốt bao gồm tất cả các trường hợp có thể: cổng, params và vv
Đây là phiên bản Java sẵn sàng hoạt động từ mã nguồn Android. Đây là cái tốt nhất tôi tìm thấy.
public static final Matcher WEB = Pattern.compile(new StringBuilder()
.append("((?:(?:[a-zA-Z0-9][a-zA-Z0-9\\-]{0,64}\\.)+") // named host
.append("(?:") // plus top level domain
.append("|(?:(?:25[0-5]|2[0-4]") // or ip address
.append("(?:\\:\\d{1,5})?)") // plus option port number
.append("(\\/(?:(?:[a-zA-Z0-9\\;\\/\\?\\:\\@\\&\\=\\#\\~") // plus option query params
Đây là một regex tôi đã thực hiện để trích xuất các phần khác nhau từ một URL:
(nhóm 1) : trích xuất giao thức
(nhóm 2) : trích xuất tên máy chủ
(nhóm 3) : trích xuất số cổng
(nhóm 4 & 5) : trích xuất phần đường dẫn
(nhóm 6) : trích xuất phần truy vấn
(nhóm 7) : trích phần băm
Đối với mỗi phần của biểu thức chính quy được liệt kê ở trên, bạn có thể xóa phần kết thúc ?
để buộc nó (hoặc thêm một phần để làm cho nó trở nên khó hiểu). Bạn cũng có thể loại bỏ ^
ngay từ đầu và$
phần cuối của biểu thức chính vì vậy nó sẽ không cần khớp với toàn bộ chuỗi.
Xem nó trên regex101 .
Lưu ý: regex này không an toàn 100% và có thể chấp nhận một số chuỗi không nhất thiết phải là URL hợp lệ nhưng thực sự nó xác nhận một số tiêu chí. Mục tiêu chính của nó là trích xuất các phần khác nhau của một URL để không xác thực nó.
Đối với Python, đây là regex xác thực URL thực tế được sử dụng trong Django 1.5.1:
import re
regex = re.compile(
r'^(?:http|ftp)s?://' # http:// or https://
r'(?:(?:[A-Z0-9](?:[A-Z0-9-]{0,61}[A-Z0-9])?\.)+(?:[A-Z]{2,6}\.?|[A-Z0-9-]{2,}\.?)|' # domain...
r'localhost|' # localhost...
r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}|' # ...or ipv4
r'\[?[A-F0-9]*:[A-F0-9:]+\]?)' # ...or ipv6
r'(?::\d+)?' # optional port
r'(?:/?|[/?]\S+)$', re.IGNORECASE)
Điều này thực hiện cả địa chỉ ipv4 và ipv6 cũng như các tham số cổng và GET.
Tìm thấy trong mã ở đây , Dòng 44.
Tôi đã tìm thấy Regex sau đây cho các URL, đã được thử nghiệm thành công với hơn 500 URL :
Tôi biết nó trông xấu, nhưng điều tốt là nó hoạt động. :)
Tôi đã cố gắng xây dựng phiên bản url của mình. Yêu cầu của tôi là nắm bắt các thể hiện trong Chuỗi nơi url có thể có thể là cse.uom.ac.mu - lưu ý rằng nó không được bắt đầu bởi http và www
String regularExpression = "((((ht{2}ps?://)?)((w{3}\\.)?))?)[^.&&[a-zA-Z0-9]][a-zA-Z0-9.-]+[^.&&[a-zA-Z0-9]](\\.[a-zA-Z]{2,3})";
//cannot contain 2 '.' after www
//cannot contain 2 '.' just before com
// to test case where url www must be followed with a '.'
// to test case where url www must be followed with a '.'
// to test case where www must be preceded with a '.'
thay vào đóhttps?
Có gì sai với đơn giản và đơn giản FILTER_VALIDATE_URL?
$url = "http://www.example.com";
if(!filter_var($url, FILTER_VALIDATE_URL))
echo "URL is not valid";
echo "URL is valid";
Tôi biết đó không phải là câu hỏi chính xác nhưng nó đã làm việc cho tôi khi tôi cần xác thực các url nên nghĩ rằng nó có thể hữu ích cho những người khác đi qua bài đăng này để tìm kiếm điều tương tự
RegEx sau đây sẽ hoạt động:
Sử dụng cái này nó làm việc cho tôi
function validUrl(Url) {
var myRegExp =/^(?:(?:https?|ftp):\/\/)(?:\S+(?::\S*)?@)?(?:(?!10(?:\.\d{1,3}){3})(?!127(?:\.\d{1,3}){3})(?!169\.254(?:\.\d{1,3}){2})(?!192\.168(?:\.\d{1,3}){2})(?!172\.(?:1[6-9]|2\d|3[0-1])(?:\.\d{1,3}){2})(?:[1-9]\d?|1\d\d|2[01]\d|22[0-3])(?:\.(?:1?\d{1,2}|2[0-4]\d|25[0-5])){2}(?:\.(?:[1-9]\d?|1\d\d|2[0-4]\d|25[0-4]))|(?:(?:[a-z\u00a1-\uffff0-9]+-?)*[a-z\u00a1-\uffff0-9]+)(?:\.(?:[a-z\u00a1-\uffff0-9]+-?)*[a-z\u00a1-\uffff0-9]+)*(?:\.(?:[a-z\u00a1-\uffff]{2,})))(?::\d{2,5})?(?:\/[^\s]*)?$/i;
if (!RegExp.test(Url.value)) {
return false;
return true;
Bạn không chỉ định ngôn ngữ nào bạn đang sử dụng. Nếu PHP là, có một hàm riêng cho điều đó:
$url = 'http://www.yoururl.co.uk/sub1/sub2/?param=1¶m2/';
if ( ! filter_var( $url, FILTER_VALIDATE_URL ) ) {
// Wrong
else {
// Valid
Trả về dữ liệu đã lọc hoặc FALSE nếu bộ lọc bị lỗi.
Hy vọng nó giúp.