博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python爬新闻
阅读量:6885 次
发布时间:2019-06-27

本文共 875 字,大约阅读时间需要 2 分钟。

import refrom urllib import requestfrom lxml import etreetesturl="http://news.163.com/rank/"with request.urlopen(testurl) as f:    print('Status:', f.status, f.reason)    #网页的编码格式只取一次,默认所有的编码方式都是这个    decode=(f.headers['Content-Type'].split(';')[1]).split('=')[1]    data = f.read().decode(decode.lower())    infos = re.findall(r'

(.*?)

.*?
', data, re.S) for i in range(len(infos)): print('%s-%s'%(i,infos[i][0])) print('选择新闻类型') k=input() if k.isdigit()and int(k)
.*?',data,re.S) newdom=etree.HTML(new) newitems=newdom.xpath("//div[@id='endText'and @class='post_text']/p/text()") for n in newitems: print(n) print('=======================输入y继续') if 'y'==input():continue else:break;

转载于:https://www.cnblogs.com/zhisy/p/6832295.html

你可能感兴趣的文章
建造模式
查看>>
Alpha 冲刺 (5/10)
查看>>
类的静态字段和构造函数
查看>>
TLE之前,没有一个节点叫失败!!!
查看>>
机器学习入门之二:一个故事说明什么是机器学习(转载)
查看>>
利用MySQL存储过程分割字符串
查看>>
wamp环境的安装
查看>>
BZOJ 4025: 二分图
查看>>
使用百度地图实现详细地址自动补全(补全bug''事件只能绑定到一个上的问题')...
查看>>
Emoji表情处理工具类
查看>>
刚刚考过dev401,出去玩了!有时间我把题目给大家贴出来。
查看>>
20145209 《信息安全系统设计基础》第3周学习总结
查看>>
python 进程
查看>>
Grunt插件uglify
查看>>
export 与 export default
查看>>
linux配置网卡
查看>>
正则表达式语法
查看>>
013、Dockerfile构建镜像(2019-01-02 周三)
查看>>
c# mvc如何获取xml文件
查看>>
mongodb Java(八)
查看>>