博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python爬新闻
阅读量:6885 次
发布时间:2019-06-27

本文共 875 字,大约阅读时间需要 2 分钟。

import refrom urllib import requestfrom lxml import etreetesturl="http://news.163.com/rank/"with request.urlopen(testurl) as f:    print('Status:', f.status, f.reason)    #网页的编码格式只取一次,默认所有的编码方式都是这个    decode=(f.headers['Content-Type'].split(';')[1]).split('=')[1]    data = f.read().decode(decode.lower())    infos = re.findall(r'

(.*?)

.*?
', data, re.S) for i in range(len(infos)): print('%s-%s'%(i,infos[i][0])) print('选择新闻类型') k=input() if k.isdigit()and int(k)
.*?',data,re.S) newdom=etree.HTML(new) newitems=newdom.xpath("//div[@id='endText'and @class='post_text']/p/text()") for n in newitems: print(n) print('=======================输入y继续') if 'y'==input():continue else:break;

转载于:https://www.cnblogs.com/zhisy/p/6832295.html

你可能感兴趣的文章
python中struct.unpack的用法
查看>>
体绘制(Volume Rendering)概述之4:光线投射算法(Ray Casting)实现流程和代码(基于CPU的实现)...
查看>>
Python实践之(七)逻辑回归(Logistic Regression)
查看>>
PAT (Advanced Level) 1107. Social Clusters (30)
查看>>
【开源社群系统研发日记五】ThinkSNS+ 是如何计算字符显示长度的
查看>>
Nodejs日志管理log4js
查看>>
python获取昨日日期
查看>>
海康威视 - 萤石云开放平台 js 版
查看>>
关于分销平台
查看>>
剑指offer---12-**--数值的整数次方
查看>>
PAT - L2-010. 排座位(并查集)
查看>>
Python 学习笔记 - 线程(线程锁,信标,事件和条件)
查看>>
大数据技术服务商个推获4亿人民币D轮融资
查看>>
Git的详细使用教程
查看>>
iOS实现类似苹果手机原生的锁屏界面(数字密码)
查看>>
[vue] 表单输入格式化,中文输入法异常
查看>>
Observer观察者模式与OCP开放-封闭原则
查看>>
如何搭建高级工程师知识框架?推荐两种方式
查看>>
BAT的医疗春秋大梦
查看>>
Pulsar本地单机(伪)集群 (裸机安装与docker方式安装) 2.2.0
查看>>