这个也是在开始学习Python时写的一个小脚本,抓取Torrentkitty中的磁力链接,指定结束日期,会通过他的历史页面进行开抓取,会一直抓取到2007-01-01日的数据,因其每页分页只有只有30条内容,所以每个日期有多少分页开几个线程,加快抓取速度,还有这网站检测了UserAgent,需要伪装一个,伪装完事就可以开始抓了。
抓过一晚上,抓回来几十万把(一共就100多万),自己弄个小页面进行搜索,确实快了不少。
这些代码是为了方便自己用简单写的,如真要用,怎么也得稍作修改。
上代码:
1 | CREATE TABLE `magnet` ( |
1 | import re |