# coding=utf-8
import urllib2
import urllib
import re
class QiuShi:
def _init_(self):
self.page = 1
# 从网页获取糗事
def GetQiuShis(self,page):
#网址
url = "http://www.qiushibaike.com/hot/page/"+page
#伪装浏览器
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = {'user-Agent':user_agent}
#请求
req = urllib2.Request(url,headers = headers)
response = urllib2.urlopen(req)
html = response.read()
#encode的作用是将unicode编码转换成其他编码的字符串
#decode的作用是将其他编码的字符串转换成unicode编码
unicodeHtml = html.decode("utf-8")
items = re.findall('<div.*?class="content".*?title="(.*?)">(.*?)</div>',unicodeHtml,re.S)
contents = []
for item in items:
# item 中第一个是div的标题,也就是时间
# item 中第二个是div的内容,也就是内容
contents.append([item[0].replace("\n",""),item[1].replace("\n","")])
return contents
#打印糗事
def ShowQiuShi(self,contents):
count = 1
for content in contents:
print "第%d条糗事" % count,content[0],"\n"
print content[1],"\n"
count += 1
#启动
def Start(self):
page = 1
while page < 5:
print "第%d页:\n" % page
contents = self.GetQiuShis(str(page))
self.ShowQiuShi(contents)
page += 1
qiuShi = QiuShi()
qiuShi.Start()
分享到:
相关推荐
python爬取糗事百科源码
糗事百科的爬虫,是主要用来介绍爬虫的一些基本知识,方便大家爬取简单的糗事百科的内容,利用的是beautifulsoup
Python爬取糗事百科段子(scrapy+beautifulsoup)
python爬取糗事百科图片
亲测有效,不管是windows 还是Linux都...使用python 爬取糗事百科的段子,通过回车键控制,一次一个,同时可以把看过的内容保存到本地查看 具体实现可以参照 http://blog.csdn.net/qiqiyingse/article/details/60583129
python爬虫,爬取糗事百科python爬虫,爬取糗事百科python爬虫,爬取糗事百科python爬虫,爬取糗事百科python爬虫,爬取糗事百科python爬虫,爬取糗事百科python爬虫,爬取糗事百科python爬虫,爬取糗事百科python...
利用python爬取糗百段子,其中使用了正则表达式和beautifulsoup,思路为获取网页源码进行正在匹配
作为学习python的第一个实战项目。主要功能是爬取糗事百科的文字段子,以及作者信息和点赞评论的数量,将这些数据存储到mysql上。
那么这次为大家带来,Python爬取糗事百科的小段子的例子。 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来。 本篇目标 1.抓取糗事百科热门段子; 2.过滤带...
Python实战项目:爬取糗事百科、拉勾网、boss直聘等等知名网站实战,搭建响应式网站、Pyth-Python
主要介绍了python爬虫爬取糗事百科段子,详细介绍下,如何来抓取到糗事百科里面的指定内容,感兴趣的小伙伴们可以参考一下
利用正则表达式去爬取【糗事百科】的文字数据
python
上述代码首先使用requests库发送GET请求获取糗事百科的首页内容。然后,使用BeautifulSoup库将网页内容解析成一个可操作的对象soup。接下来,通过使用soup对象的查找方法,我们提取页面中所有的段子内容,并打印输出...
目前功能为通过PC网页端的热门栏目进行增量爬取, 默认循环间隔为8小时
适合学习/练手、毕业设计、课程设计、期末/期中/大作业、工程实训、相关项目/竞赛学习等。 项目具有较高的学习借鉴价值,也可直接拿来修改复现。可以在这些基础上学习借鉴进行修改和扩展,实现其它功能。...
下面小编就为大家分享一篇Python多线程爬虫实战_爬取糗事百科段子的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
爬虫,爬取糗事百科。程序代码,Python爬虫项目学习,Pyhton3.6版本
简单的糗事百科爬虫代码,用几十行代码即可实现爬取糗事百科首页内容。