有人可以定义正EX pression匹配以下HTML code义正、EX、pression、HTML

2023-09-03 08:20:04 作者:我要向前进.

这是我的目标,我要提取具有类专区内所有的 s_specs_box s_box_4

This is my objective , i have to extract everything within the div having the class s_specs_box s_box_4

可能有人请提供常规的前pression在.NET方面(即可以马上传递到正则表达式的构造函数)来匹配一个这样的分区(如下)

Could someone please provide the regular expression in .NET terms (i.e., which can be straight away passed into Regex's constructor)to match one such div (given below)

&LT; D​​IV CLASS = \s_specs_box s_box_4 \&GT;&LT; H3&GT;显示与LT; / H3&GT;&LT; UL&GT;&LT;李&GT;&LT;强&GT;&LT;跨度类='s_tooltip_anchor '&GT;显示:其中,/ SPAN&GT; \ N'LT;跨度类='s_tooltip_content'&GT;&其中,P级='s_help'&GT;&LT; B&GT;显示与LT; / B&GT; - 手机的主显示屏和LT; / P&GT;&LT; / SPAN&GT;&LT; / STRONG&GT;&LT; UL&GT; \ N'LT;李类=清clearfix'&GT;&LT;强&GT;&LT;跨度类='s_tooltip_anchor'&GT;类型: &LT; / SPAN&GT; \ N'LT;跨度类='s_tooltip_content'&GT;&其中,P级='s_help'&GT;&LT; B&GT;类型&lt; / B&GT; - 指显示屏的类型。有四种主要的显示类型:灰度,黑色和与白,LCD:STN彩色和LCD:TFT-color</p></span></strong><ul><li>Color</li></ul>\n</li><li类=清clearfix'&GT;&LT;强&GT;&LT;跨度类='s_tooltip_anchor'&GT;技术:其中,/ SPAN&GT; \ N'LT;跨度类='s_tooltip_content'&GT;&其中,P级='s_help'&GT; &LT; B&GT;技术和LT; / B&GT; - 指彩色显示器的类型。有五种主要类型:LCD,TFT,TFD,STN和OLED&LT; / P&GT;&LT; / SPAN&GT;&LT; / STRONG&GT;&LT; UL&GT;&LT;李&GT;的Super AMOLED&LT; /李&GT;&LT; / UL&GT; \ N'LT ; /李&GT;&LT;李类=清clearfix'&GT;&LT;强&GT;&LT;跨度类='s_tooltip_anchor'&GT;尺寸:其中; / SPAN&GT; \ N'LT;跨度类='s_tooltip_content'&GT;&LT; p类='s_help'&GT;&LT; B&GT;尺寸&LT; / B&GT; - 指的宽度和显示与LT的高度; / P&GT;&LT; / SPAN&GT;&LT; / STRONG&GT;&LT; UL&GT;&LT;李&GT;&LT;跨度标题='大显示级= \s_display_rating s_size_1 s_mr_5 \ &GT;&LT;跨度&GT;&LT; / SPAN&GT;&LT; / SPAN&GT; 480 * 800像素&LT; /李&GT;&LT; / UL&GT; \ N'LT; /李&GT;&LT;李类=清clearfix'&GT;&LT;强&GT ;外形尺寸:&LT; / STRONG&GT;&LT; UL&GT;&LT;李&GT; 4.00平方英寸LT; /李&GT;&LT; / UL&GT; \ N'LT; /李&GT;&LT;李类=清clearfix'&GT;&LT;强&GT;&LT ;跨度类='s_tooltip_anchor'&GT;颜色:LT; / SPAN&GT; \ N'LT;跨度类='s_tooltip_content'&GT;&其中,P级='s_help'&GT;&LT; B&GT;颜色&LT; / B&GT; - 显示该显示器支持&LT的颜色数量; / P&GT;&LT; / SPAN&GT;&LT; / STRONG&GT;&LT; UL&GT;&LT;李&GT; 16 777 216 LT; /李&GT;&LT; / UL&GT; \ N'LT; /李&GT; &LT;李类=清clearfix'&GT;&LT;强&GT;触摸屏:LT; / STRONG&GT;&LT; UL&GT; \ N'LT;李类=清clearfix'><strong>Type:</strong><ul><li>Capacitive</li></ul>\n</li>\n</ul></li><li类='清clearfix'><strong>Multi-touch:</strong><ul><li>Yes</li></ul>\n</li><li类=清clearfix'&GT;&LT;强&GT;接近传感器:LT; / STRONG&GT;&LT; UL&GT;&LT;李&GT;是&LT; /李&GT;&LT; / UL&GT; \ N'LT; /李&GT;&LT;李类='明确clearfix'&GT;&LT;强&GT;光sensor:</strong><ul><li>Yes</li></ul>\n</li>\n</ul></li></ul>\n</div>

在此先感谢,

维杰

推荐答案

您无法使用常规EX pressions解析HTML。

You cannot parse HTML using regular expressions.

相反,你应该使用 HTML敏捷性包在C#或 jQuery的在Javascript中

Instead, you should use the HTML Agility Pack in C# or jQuery in Javascript.

例如:

var html = document.DocumentNode.Descendants("div")
    .First(div => div.GetAttributeValue("class", null) == "s_specs_box s_box_4")
    .InnerHtml;