-
爬虫基础知识
-
爬虫的应用场景
-
微博:微报告 https://data.weibo.com/
-
百度新闻 news.baidu.com
-
今日头条 https://www.toutiao.com/
-
120306抢票
-
短信轰炸
-
爬虫的概念
网络爬虫(又被称为网页蜘蛛网络机器人)就是模拟客户端一种按照一定的规则,自动地发送网络请求,接收请求响应、抓取互联网信息的程序。
只要是浏览器能做的事情,原则上,爬虫都能够做
-
爬虫的分类
-
通用爬虫
通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo,bing,360,esou,sougou,soso等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。
-
聚焦爬虫
聚焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于: 聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。
而我们需要学习的网络爬虫,就是聚焦爬虫。
-
爬虫的工作流程