Python爬虫学习(一)

前记

  一直从事于iOS开发多年,所接触的大部分都是客户端的开发,处理服务端的数据,逻辑处理,然后展示给用户,其实一直以来对服务端的开发还是比较感兴趣的,本着编程语言是相通的想法,所以业余时间就学了点服务端的开发,接触过PHP和Python,总感觉Python学起来会容易点(PHPer不要喷我啊,这只是小弟的想法,不要做语言攻击啊),而且最近自己也在学习Python爬虫,所以就纯当纪录下自己学习Python的笔记了,因为小弟属于刚学习阶段,能力有限,如果有说错的地方,欢迎指出。   

什么是Python爬虫

  底下这段话是百度百科对网络爬虫的解释
  

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。

  
  其实说简单点就是一段自动化执行的程序,用来在网络上爬取你想要的内容,最出名的网络爬虫应用算是google的网络爬虫和百度的网络爬虫了,他们每天都要爬取网络上海量的数据,bla bla bla爬取数据,然后再做数据分析处理,然后通过搜索展示给我们,可以说网络爬虫是搜索引擎的根基。
  今天我要讲的网络爬虫肯定没有那么搜索引擎所用的爬虫那么高深,毕竟我只是个初学者,而且还是个学渣啊,掩面而过啊,但是我相信复杂的东西其实都是由很多简单的东西构成的,所以今天就来讲下最简单的网络爬虫,走起!

编写你的第一个网络爬虫

  看了上面这么多废话,相信你也烦了,那我们直接开始吧,在开始之前我再废话一句啊(博主,你够了,信不信我拿刀砍死你啊,),保证是最后一句了,就是小弟用的Python是2.7系列的,Python 3系列的听说改动较多,如果代码无法运行,请先检查你的Python版本。
而且运行系统是Mac,Windows下如果无法运行我暂时也解决不了,因为我已经好几年没在Windows下写程序了,哈哈哈!
  

Talk is cheap. Show me the code.
  Linus Torvalds

翠花,上酸菜,不,上代码!
baidu.py

1
2
3
4
5
6
7
8
9
10
#coding=utf-8 
import urllib2 #引入python自带的urllib2库

def fetchWebPage(url):
page = urllib2.urlopen(url); #打开url链接
html = page.read() #读取网页内容
return html; #返回结果

htmlContent = fetchWebPage("http://www.baidu.com/")
print htmlContent

代码已经写的够简单了,相信大家都看的懂了,我就不废话了,希望大家有机会的话也去敲敲代码实现下。下一次将为大家讲解下从爬取回来的网页中获取自己想要的内容。