当前位置:首页 > 特拉法加海战一只爬虫的诞生1.0-海水潮潮

吴锡豪-特拉法加海战一只爬虫的诞生1.0-海水潮潮

特拉法加海战一只爬虫的诞生1.0-海水潮潮

吴锡豪 全部文章 2016-07-10 110次查看

一只爬虫的诞生1.0-海水潮潮红色追击令
为了兑现之前说要写技术教程的承诺水嶋宏,就有了这篇文章
但是某人其实是个技术渣古田顺子,特拉法加海战所以就从最最最最最简单的开始喽~
工具:Anaconda x.x.x
自带python环境+IDE+各种包花魁的玩物,张煜枫对新手十分友好了海洋绿洲号!
假装你已经下载安装好了Anaconda王若望,然后打开Spyder:

第一步:分析你的目标网页
举个非常简单的例子大川白金城 ,我想把微博影响力排行榜的名字一条一条存下来罗兰宗美龄,但是我不想手动复制粘贴异界纨绔剑神,怎么办?
1.打开浏览器进入目标页面
2.打开开发人员模式(顺便安利一下Win10的Edge丰臣完子,用顺手了觉得超好用der)
3.从源码中定位目标文本

看见了吗?名字被存在了“nk”这个class里面。
这就是线索巡抚是几品。
第二步:定制你的爬虫
1.引入requests和BeautifulSoup4
2.向requests提供url,抓取html页面
3.用BeautifulSoup将html文档转为树
4.提供上一步的线索(nk)找到所有目标节点
5.输出目标内容

这样所有的名字都按顺序在控制台输出啦
正常浏览页面是一页显示十个,我加了循环一共遍历了十页黄志玮身高,所以一共有100条结果
第三步:我还想一键保存头像
并且要以他们的名字命名图片哦
1.找到头像url
2.用上一步获取的名字生成图片名
3.保存
(涉及文件操作需要引入os黎氏八骏模块)


看,头像已经全部下好到你电脑啦!
是不是hin简单悠然千年后 !
最后
步骤简单是建立在网页本身比较简单的基础上,实际操作可能会有一些阻碍丹东老葛。
那么就下期2.0再会啦

p.s.
听说有人吐槽我排版差道晖芝?蛇精女?戴国芳?
好好好我认怂,我不是排版差玻璃面具,我是压根就没有排版
按理说图片也应该优化一下大小
然而我根本没有耐心
所以就……就暂时这样吧