IT桔子数据怎样更新

谢邀!这个问题其实貌似IT桔子的创始人有过类似的分享,就是更新的数据由爬取和内部渠道获取,一些投融资案例基本上圈子内的人会第一时间知道,这样可以迅速手动更新上去,而爬虫则专门守着一些科技媒体或者网站实时抓取就行。对于已关闭,应该也是两个渠道来,一个渠道是爬虫爬取时发现网站已经关闭或者停止维护,一个是人工发现。这也与圈子有点关系吧,比如你在科技媒体呆久了,自然会认识很多同行,基本上哪个网站关掉了圈子里都会互相传。当然,人工更新人力有限,关键还是靠爬虫。至于你说的46页变成31页,有两种可能,第一是你打开网页时是不是一个地方打开的,存在误差。第二是爬虫抓取了大量重复内容,后期进行了合并。当然,也有可能是网站临时出错。有关注大数据,欢迎加我们信微:idacker
■网友
【IT桔子数据怎样更新】 同好奇,市面上这几家数据公司的创投数据都是咋来的,感觉大部分还是爬虫爬的,但爬虫爬的就存在一个问题,数据不准啊,如果都是抓取新闻,那么这些数据公司也就充当搬运工的角色

■网友
很多没倒闭的公司都被标注为死亡公司


    推荐阅读