PHP爬虫实战教程(序)

请注意,本文编写于 270 天前,最后修改于 270 天前,其中某些信息可能已经过时。

在python爬虫独领风骚的现状下,我为什么要写这个PHP爬虫实战教程呢?
这就要说一下为什么大部分人都使用python爬虫,大规模爬虫爬取要考虑诸多问题:多线程并发、I/O机制、分布式爬取、消息通讯、判重机制、任务调度等等,而python恰恰很擅长来做这个事情,相比较而言,PHP对多线程、异步支持较差,所以会听到很多声音不建议使用PHP爬虫,但是可以看到,这个其实是说的大规模的数据,如果是只是定向爬取几个页面,做一些简单的页面解析,爬取效率不是核心要求,那么用什么语言差异不大,这时候我们就可以考虑使用PHP爬虫了。当然了,PHP爬虫还是有一些很明显的有点的,首先,代码比较清晰,简单,上手比较容易,其次在编码处理这一块,要明显优于python,第三个就是可以可以很方便的对接到网站项目里面,再者,对于一些编程初学者而言一般在建站的时候,会选择一些价格相对低廉或者是免费的虚拟机,这些虚拟大部分都是PHP+sql的环境,不需要自己进行环境搭建。最重要的一点是,我刚刚开始学习python语言,掌握的还不是很熟练,所以我会选择PHP爬虫。

整个教程会有多个实战项目,基本都是一些个人原创,项目列表会在这里更新。

Comments

添加新评论