生命不息,奋斗不止
Scrapy-Redis分布式爬虫 Scrapy-Redis分布式爬虫
Scrapy-Redis 分布式爬虫组件Scrapy 是一个框架,他本身是不支持分布式的。如果我们想要做分布式的爬虫,就需要借助一个组件叫做 Scrapy-Redis,这个组件正是利用了 Redis 可以分布式的功能,集成到 Scrapy
2019-07-17
Scrapy框架 Scrapy框架
Scrapy 框架介绍写一个爬虫,需要做很多的事情,比如:发送网络请求、数据解析、数据存储、反反爬虫机制(ip 代理,设置请求头等)、异步请求等等。这些工作如果每次都要自己从零开始写的话,比较浪费时间。因此 scrapy 把一些基础的东西都
2019-07-16
图形验证码识别 图形验证码识别
图形验证码识别技术阻碍我们爬虫的。有时候正是在登录或者请求一些数据时候的图形验证码。因此这里我们讲解一种能将图片翻译成文字的技术。将图片翻译成文字一般被成为光学文字识别(Optical Character Recognition),简写为
2019-07-15
动态网页爬虫 动态网页爬虫
Ajax 是什么AJAX(Asynchronouse JavaScript And XML)异步 JavaScript 和 XML。过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下
2019-07-14
多线程爬虫 多线程爬虫
有些时候,比如下载图片,是一个比较耗时的操作,如果采用同步的方式去下载,效率肯定会特别慢,这时候我们就可以考虑使用多线程的方式来下载图片 多线程介绍 多线程是为了同步完成多项任务,通过提高资源使用效率来进一步提高系统的效率 线程是在同一时间
2019-07-13
Python操作MongoDB数据库 Python操作MongoDB数据库
MongoDB 原生语句MongoDB 常用命令 安装 pymongopip install pymongo Python 连接 MongoDBimport pymongo # mobgodb连接对象 client = pymongo.M
2019-07-12
Python操作MySQL数据库 Python操作MySQL数据库
win 下安装 MySQL详细可参考 Windows 下 MySQL 安装流程,8.0 以上版本 ROOT 密码报错及修改 安装驱动程序python 想要操作 MySQL,必须要有一个中间件,或者叫做驱动程序,驱动程序有很多,mysqlcl
2019-07-11
csv文件处理 csv文件处理
读取 csv 文件import csv with open('demo.csv', 'r') as fp: reader = csv.reader(fp) titles = next(reader) for x i
2019-07-10
json文件处理 json文件处理
什么是 jsonJSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c 制定的 js 规范)的一个子集,采用完全独立于编程语言的文本格式来存储和
2019-07-09
re模块 re模块
match从开始的位置进行匹配,如果开始的位置没有匹配到,就直接匹配失败 text = 'hello' ret = re.match('h', text) print(ret.group()) # >> h 如果第一个字母不是
2019-07-08
Python中的正则表达式 Python中的正则表达式
什么是正则表达式 世界上分为两种人,一种是懂正则表达式的,一种是不懂正则表达式的 按照一定的规则,从某个字符串中匹配出想要的数据,这个规则就是正则表达式 正则表达式常用的匹配规则匹配某个字符串text = 'hello' ret = re
2019-07-07
BeautifulSoup库 BeautifulSoup库
和 lxml 一样,Beautiful Soup 也是一个 HTML/XML 的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。 lxml 只会局部遍历,而 Beautiful Soup 是基于 HTML DOM(Docum
2019-07-06
1 / 2