如何解决c#html敏捷包
| 我们正在将电子商务网站移至新平台,并且由于其所有页面均为静态HTML,并且它们在数据库中没有所有产品信息,因此我们必须抓取其当前网站以获得产品说明。 这是页面之一:http://www.cabinplace.com/accrugsbathblackbear.htm 最好的方法是将描述放入字符串中?我应该使用HTML敏捷包吗?如果是这样,该怎么做?因为我是html敏捷包和xhtml的新手。 谢谢解决方法
HTML Agility Pack是一个很好的库,可用于此类工作。
您没有指出是否所有内容都是以这种方式构造的,也没有表明您是否已经从HTML文件中获得了发布的片段的种类,因此很难进一步提出建议。
通常,如果所有页面的结构都相似,我将使用XPath表达式提取段落,然后从每个页面中选择“ 0”或“ 1”。
类似于以下内容:
var description = htmlDoc.SelectNodes(\"p[@class=\'content_txt\']\")[0].innerText;
,也,
如果您需要一个好的工具来测试或找到HAP的Xpath,则可以使用以下工具:
HTML-Agility-xpath-finder。它是使用相同的库制作的,因此,如果在此工具中找到xpath,则可以安全地在代码中使用。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。