技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

c# – 如何从html中提取文本

时间：2019-05-07分类：C#作者：编程之家

我需要提取< body>中存在的所有文本.的 HTML.示例 Html输入： –

<html>
    <title>title</title>
    <body>
           <h1> This is a big title.</h1>
           How are doing you?
           <h3> I am fine </h3>
           <img src="abc.jpg"/>
    </body>
</html>

输出应该是： –

This is a big title. How are doing you? I am fine

我只想将HtmlAgility用于此目的.请不要正则表达式.

我知道如何加载HtmlDocument,然后使用像’// body’这样的xquery,我们可以获取正文内容.但是如何删除输出中显示的html？

提前致谢：)

解决方法

你可以使用body的InnerText：

string html = @"
<html>
    <title>title</title>
    <body>
           <h1> This is a big title.</h1>
           How are doing you?
           <h3> I am fine </h3>
           <img src=""abc.jpg""/>
    </body>
</html>";

HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(html);
string text = doc.DocumentNode.SelectSingleNode("//body").InnerText;

接下来,您可能想要折叠空格和新行：

text = Regex.Replace(text,@"\s+"," ").Trim();

但请注意,虽然它在这种情况下工作,但标记如hello< br> world或hello< i> world< / i>将被InnerText转换为helloworld – 删除标签.很难解决这个问题,因为显示由CSS决定,而不仅仅是由标记决定.

原文地址：https://www.jb51.cc/csharp/92644.html

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：c# – 无法从远程计算机连接下一篇：c# – 字典：具有相似功能的搜索键

相关推荐

在要实现单例模式的类当中添加如下代码：实例化的时候：frmCardAppend fca=frmCardAppend .Instance;示例： 1 public class frmCardAppend : Form 2 { 3 #region 私有字段 4 private static frmCar

作者：桦仔时间：2024-09-28

利用DOTNETBAR制作圆角窗体和圆角控件

1、如果制作圆角窗体，窗体先继承DOTNETBAR的：public partial class Form2 : DevComponents.DotNetBar.Office2007Form然后窗体里加上一个DONTERBAR的panel，然后设置panel为fill占满整个窗体然后设置panel的C

作者：桦仔时间：2024-09-28

C# winform搜索提示的一些想法

根据网上资料，自己很粗略的实现了一个winform搜索提示，但是距离我自己的目标（与腾讯QQ的效果一样）还有一大段距离，我自己做的这个winform搜索提示没有涉及到sql注入，因为是读取内存中的DataTable。本人工作一年时间，平时是用C# 开发winform程序，所以代码比较简陋，程序的功

作者：桦仔时间：2024-09-28

对做C#自定义控件的一点心得

近期在做DSOFramer这个控件，打算自己弄一个自定义控件来封装这个COM组件，中间遇到很多曲折，研究了一个星期，终于完成了下面总结一下我做DSOFramer这个自定义控件的注意地方：1、在创建一个Windows窗体控件库的时候，那个项目路径里不能有中文，比如：D:\C#练习\WindowsFor

作者：桦仔时间：2024-09-28

WMI 获取硬件信息的封装函数与获取联想台式机的出厂编号方法

今天玩了一把WMI，查询了一下电脑的硬件信息，感觉很多代码都是可以提取出来的，就自己把那些公共部分提出出来，以后如果要获取某部分的硬件信息就不用写一个一个的函数，比如获取MAC地址就写一个获取MAC地址的函数，获取CPU 信息就写一个获取CPU信息的函数，太麻烦了如下是函数代码： 1 private

作者：桦仔时间：2024-09-28

WinWordControl控件的使用注意

最近在研究WinWordControl这个控件，因为上级要求在系统里，嵌入Word，然后用C#控制Word格式，在网上下载了WinWordControl.dll（在DLL之家下载的），因为本人的系统环境识win7+office07,导入到visual studio之后，vs报错，因为WinWordC

作者：桦仔时间：2024-09-28

打印出datagrideview里面的内容，用到少量GDI+的知识

1 using System; 2 using System.Data; 3 using System.Drawing; 4 using System.Drawing.Printing; 5 using System.Windows.Forms; 6 7 8 namespace InvoiceSys

作者：桦仔时间：2024-09-28

C# 利用Excel直接读取方法读取Excel进DataGridView

在winform里拖入一个datagridview控件，跟一个openfiledialog控件，这个例子的功能只是读取excel文件，其他的功能本人还在研究当中献上代码using System;using System.Collections.Generic;using System.Compone

作者：桦仔时间：2024-09-28

C# winform中MouseDoubleClick与DoubleClick的区别

C# winform中MouseDoubleClick与DoubleClick的区别是MouseDoubleClick：只能用鼠标双击DoubleClick：可以按键盘的回车键

作者：桦仔时间：2024-09-28

程序集特性访问器

程序集特性访问器一般用在关于窗体里 partial class FormAbout : Form { public FormAbout() { InitializeComponent(); this.Text = String.Format("关于 {0}", AssemblyT

作者：桦仔时间：2024-09-28

小编推荐

苹果市值2025年有望达4万亿美元