Xóa các thẻ HTML khỏi chuỗi bao gồm & nbsp trong C #

Question 1

Làm cách nào để xóa tất cả các thẻ HTML bao gồm & nbsp bằng cách sử dụng regex trong C #. Chuỗi của tôi trông giống như

  "<div>hello</div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;&nbsp;</div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div>"

Question 2

Nếu bạn không thể sử dụng giải pháp định hướng phân tích cú pháp HTML để lọc ra các thẻ, đây là một regex đơn giản cho nó.

string noHTML = Regex.Replace(inputHTML, @"<[^>]+>|&nbsp;", "").Trim();

Lý tưởng nhất là bạn nên thực hiện một lần chuyển qua bộ lọc regex xử lý nhiều khoảng trắng như

string noHTMLNormalised = Regex.Replace(noHTML, @"\s{2,}", " ");

Question 3

Tôi đã lấy mã của @Ravi Thapliyal và thực hiện một phương pháp: Nó đơn giản và có thể không làm sạch mọi thứ, nhưng cho đến nay nó đang làm những gì tôi cần.

public static string ScrubHtml(string value) {
    var step1 = Regex.Replace(value, @"<[^>]+>|&nbsp;", "").Trim();
    var step2 = Regex.Replace(step1, @"\s{2,}", " ");
    return step2;
}

Question 4

Tôi đã sử dụng chức năng này trong một thời gian. Loại bỏ khá nhiều html lộn xộn mà bạn có thể ném vào nó và giữ nguyên văn bản.

        private static readonly Regex _tags_ = new Regex(@"<[^>]+?>", RegexOptions.Multiline | RegexOptions.Compiled);

        //add characters that are should not be removed to this regex
        private static readonly Regex _notOkCharacter_ = new Regex(@"[^\w;&#@.:/\\?=|%!() -]", RegexOptions.Compiled);

        public static String UnHtml(String html)
        {
            html = HttpUtility.UrlDecode(html);
            html = HttpUtility.HtmlDecode(html);

            html = RemoveTag(html, "<!--", "-->");
            html = RemoveTag(html, "<script", "</script>");
            html = RemoveTag(html, "<style", "</style>");

            //replace matches of these regexes with space
            html = _tags_.Replace(html, " ");
            html = _notOkCharacter_.Replace(html, " ");
            html = SingleSpacedTrim(html);

            return html;
        }

        private static String RemoveTag(String html, String startTag, String endTag)
        {
            Boolean bAgain;
            do
            {
                bAgain = false;
                Int32 startTagPos = html.IndexOf(startTag, 0, StringComparison.CurrentCultureIgnoreCase);
                if (startTagPos < 0)
                    continue;
                Int32 endTagPos = html.IndexOf(endTag, startTagPos + 1, StringComparison.CurrentCultureIgnoreCase);
                if (endTagPos <= startTagPos)
                    continue;
                html = html.Remove(startTagPos, endTagPos - startTagPos + endTag.Length);
                bAgain = true;
            } while (bAgain);
            return html;
        }

        private static String SingleSpacedTrim(String inString)
        {
            StringBuilder sb = new StringBuilder();
            Boolean inBlanks = false;
            foreach (Char c in inString)
            {
                switch (c)
                {
                    case '\r':
                    case '\n':
                    case '\t':
                    case ' ':
                        if (!inBlanks)
                        {
                            inBlanks = true;
                            sb.Append(' ');
                        }   
                        continue;
                    default:
                        inBlanks = false;
                        sb.Append(c);
                        break;
                }
            }
            return sb.ToString().Trim();
        }

Question 5

var noHtml = Regex.Replace(inputHTML, @"<[^>]*(>|$)|&nbsp;|&zwnj;|&raquo;|&laquo;", string.Empty).Trim();

Question 6

Tôi đã sử dụng mã của @RaviThapliyal & @Don Rolling nhưng đã thực hiện một chút sửa đổi. Vì chúng tôi đang thay thế & nbsp bằng chuỗi trống nhưng thay vào đó & nbsp nên được thay thế bằng khoảng trắng, vì vậy đã thêm một bước bổ sung. Nó làm việc cho tôi như một cái duyên.

public static string FormatString(string value) {
    var step1 = Regex.Replace(value, @"<[^>]+>", "").Trim();
    var step2 = Regex.Replace(step1, @"&nbsp;", " ");
    var step3 = Regex.Replace(step2, @"\s{2,}", " ");
    return step3;
}

Đã sử dụng & nbps không có dấu chấm phẩy vì nó đang được định dạng bởi Stack Overflow.

Question 7

điều này:

(<.+?> | &nbsp;)

sẽ khớp với bất kỳ thẻ nào hoặc  

string regex = @"(<.+?>|&nbsp;)";
var x = Regex.Replace(originalString, regex, "").Trim();

thì x = hello

Question 8

Việc dọn dẹp một tài liệu Html liên quan đến rất nhiều điều phức tạp. Gói này có thể hữu ích: https://github.com/mganss/HtmlSanitizer

Question 9

HTML ở dạng cơ bản chỉ là XML. Bạn có thể phân tích cú pháp văn bản của mình trong một đối tượng XmlDocument và trên phần tử gốc gọi InnerText để trích xuất văn bản. Điều này sẽ loại bỏ tất cả các thẻ HTML dưới mọi hình thức và cũng xử lý các ký tự đặc biệt như & lt; & nbsp; tất cả trong một lần.

Question 10

(<([^>]+)>|&nbsp;)

Bạn có thể kiểm tra nó tại đây: https://regex101.com/r/kB0rQ4/1