菜单 学习猿地 - LMONKEY

VIP

开通学习猿地VIP

尊享10项VIP特权 持续新增

知识通关挑战

打卡带练!告别无效练习

接私单赚外块

VIP优先接,累计金额超百万

学习猿地私房课免费学

大厂实战课仅对VIP开放

你的一对一导师

每月可免费咨询大牛30次

领取更多软件工程师实用特权

入驻
156
0

Beta阶段爬取数目预估

原创
05/13 14:22
阅读数 32695

  预计于12月29号能进行Beta版本发布。

  Beta阶段我们的爬取动作应该更有针对性,在爬取期间如若数据处理小组有需求,会优先爬取数据处理小组提供的种子链接。预估在项目展示之前能够爬取的数目:

  普通网页(不包括问答页):50000,因为数据处理小组表示其他小组的主要需求是问答页和视频链接,所以相应减少普通网页的爬取动作。

  问答页:10万以上。

  视频:3万。按照在线小组的要求,主要是把channel9上的3W多个视频链接爬取下来即可。

  PDF:1000。

  PPT:100。

  DOC:100。

 

  PDF、PPT、DOC由于上学期疏忽于相应种子链接的获取,爬取的数目很少,现在的目标不敢定的太大,将会争取收集种子链接,以爬取更多相应的文件。

  

发表评论

0/200
156 点赞
0 评论
收藏