Python异步爬虫的学习(一)

本文主要从一下几个方面进行说明: 什么是异步(Asynchronous)编程 为什么要使用异步编程? 如何利用Python实现异步 ...

十二月 11, 2016 · 1 分钟 · 

javbus爬虫-老司机你值得拥有

起因 有个朋友叫我帮忙写个爬虫,爬取javbus5上面所有的详情页链接,也就是所有的https://www.javbus5.com/SRS-055这种链接, 我一看,嘿呀,这是司机的活儿啊,我绝对不能辱没我老司机的名声(被败坏了可不好),于是开始着手写了 构思 爬虫调度启动程序crawler.py 页面下载程序downloader.py 页面解析程序pageparser.py 数据库入库与去重管理程序controler.py ...

十二月 6, 2016 · 1 分钟 · 

突破百度云限速与网页限制批量下载

百度云限速比较坑,现在基本200k左右 很多人都知道了,但是总有朋友问我,我说明一下 首先下载IDM(最好支持正版) 下载链接: 百度云shaoit 开始下载: 一般的话,小文件直接打开浏览器就可以下载 大文件下载: 首先在chrome浏览器中装上一个User-Agent Switcher for (Google)Chrome插件,然后选择安卓手机,也就是打开这个的手机页面,然后直接用IDM下载 批量下载与外链获取 使用这个脚本,具体看链接内介绍 ...

十二月 6, 2016 · 1 分钟 · 

ProgrammingError: You must not use 8-bit bytestrings...

问题出现: You must not use 8-bit bytestrings unless you use a text_factory that can interpret 8-bit bytestrings (like text_factory = str). It is highly recommended that you instead just switch your application to Unicode strings. 产生原因: 问题在用Python的sqlite3操作数据库要插入的字符串中含有非ascii字符时产生,做插入的时候就报当前这个错误。 解决方法: 1. 按提示 1 2 connection = sqlite3.connect(...) connection.text_factory = str 但是如果字符中出现非ascii字符,那么依然不能解决问题,会产生不可预知的乱码,这样可以参考 2 2. 以utf8的编码格式进行解码转为unicode编码做插入 1 2 3 4 cursor.execute(''' INSERT INTO JAVBUS_DATA (姓名, 年龄) VALUES (?, ?) ''', ('张三'.decode('utf-8'), '22岁'.decode('utf-8'))) 但是如果数据太长,这样一个一个敲挺麻烦的,下面是一个使用map函数简化的小例子 ...

十二月 6, 2016 · 1 分钟 · 

WAF攻防研究之四个层次Bypass WAF

绝对值得一看的技术文章 pdf下载链接 [via@破-见 ]

九月 25, 2016 · 1 分钟 ·