菜单 学习猿地 - LMONKEY

VIP

开通学习猿地VIP

尊享10项VIP特权 持续新增

知识通关挑战

打卡带练!告别无效练习

接私单赚外块

VIP优先接,累计金额超百万

学习猿地私房课免费学

大厂实战课仅对VIP开放

你的一对一导师

每月可免费咨询大牛30次

领取更多软件工程师实用特权

入驻
168
0

爬虫技术 -- 进阶学习(十一)【补充】获取html中meta标签中的content的内容

原创
05/13 14:22
阅读数 89735

上一篇网易新闻页面信息抓取 -- htmlagilitypack搭配scrapysharp中提及了很多如何快速抓取html中的文本的语句,

但是meta标签中的content内容的抓取,没有提及到!

上网搜索了下,发现很少提及,所以写篇随笔,备忘一下!

还是在HtmlAgillityPack搭配ScrapySharp的环境下,具体如何配置点击上一篇链接。

例子:<meta name="keywords" content="召开新闻,自流沟,含油污水" />

提取效果:把文本【召开新闻,自流沟,含油污水】提取出来.

核心代码:

 

 var html1 = browser1.DownloadString(uri); 
 var doc = new HtmlDocument(); 
 doc.LoadHtml(html1);
 var keywords = doc.DocumentNode.SelectSingleNode("//meta[@name='keywords']").GetAttributeValue("content");       
然后执行Console.WriteLine(keywords);
输出:召开新闻,自流沟,含油污水

发表评论

0/200
168 点赞
0 评论
收藏
为你推荐 换一批