Python爬虫学习（一） // 编程时间

前记

　　一直从事于iOS开发多年，所接触的大部分都是客户端的开发，处理服务端的数据，逻辑处理，然后展示给用户，其实一直以来对服务端的开发还是比较感兴趣的，本着编程语言是相通的想法，所以业余时间就学了点服务端的开发，接触过PHP和Python,总感觉Python学起来会容易点（PHPer不要喷我啊，这只是小弟的想法，不要做语言攻击啊），而且最近自己也在学习Python爬虫，所以就纯当纪录下自己学习Python的笔记了，因为小弟属于刚学习阶段，能力有限，如果有说错的地方，欢迎指出。　　

什么是Python爬虫

　　底下这段话是百度百科对网络爬虫的解释
　　

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁，自动索引，模拟程序或者蠕虫。

　　
　　其实说简单点就是一段自动化执行的程序，用来在网络上爬取你想要的内容，最出名的网络爬虫应用算是google的网络爬虫和百度的网络爬虫了，他们每天都要爬取网络上海量的数据，bla bla bla爬取数据，然后再做数据分析处理，然后通过搜索展示给我们，可以说网络爬虫是搜索引擎的根基。
　　今天我要讲的网络爬虫肯定没有那么搜索引擎所用的爬虫那么高深，毕竟我只是个初学者，而且还是个学渣啊

，掩面而过啊，但是我相信复杂的东西其实都是由很多简单的东西构成的，所以今天就来讲下最简单的网络爬虫，走起！

编写你的第一个网络爬虫

　　看了上面这么多废话，相信你也烦了，那我们直接开始吧，在开始之前我再废话一句啊（博主，你够了，信不信我拿刀砍死你啊，），保证是最后一句了，就是小弟用的Python是2.7系列的，Python 3系列的听说改动较多，如果代码无法运行，请先检查你的Python版本。
而且运行系统是Mac,Windows下如果无法运行我暂时也解决不了，因为我已经好几年没在Windows下写程序了，哈哈哈！
　　

Talk is cheap. Show me the code.
　　Linus Torvalds

翠花，上酸菜，不，上代码！
baidu.py

#coding=utf-8 
import urllib2 #引入python自带的urllib2库

def fetchWebPage(url):
	page = urllib2.urlopen(url); #打开url链接
	html = page.read() #读取网页内容
	return html; #返回结果

htmlContent = fetchWebPage("http://www.baidu.com/")
print htmlContent

代码已经写的够简单了，相信大家都看的懂了，我就不废话了，希望大家有机会的话也去敲敲代码实现下。下一次将为大家讲解下从爬取回来的网页中获取自己想要的内容。