博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
用python零基础写爬虫--编写第一个网络爬虫 -2 设置用户代理
阅读量:6175 次
发布时间:2019-06-21

本文共 743 字,大约阅读时间需要 2 分钟。

1.设置用户代理

默认情况下,urliib2使用python-urllib、2.7 作为用户代理下载网页内容,其中2.7是python的版本号。为避免一些网站禁封这个默认的用户代理,确保下载更加可靠,我们需要控制用户代理的设定。下面代码对download函数设定了一个名称为 “wswp” 的用户代理。

import urllib2 def download(url,user_agent='wswp', num_retries=2):     print 'downloading:',url     headers={'User-agent':user_agent}     request=urllib2.Request(url,headers=headers)     try:          html=urllib2.urlopen(url).read()     except urllib2.URLError as e:         print 'download error:', e.reason         html=None         if num_retries>0:             if hasattr(e, 'code') and  500<=e.code<600:                 #recursively retry 5XX http errors                 return download(url, user_agent,num_retries-1)     return html

转载于:https://www.cnblogs.com/mrruning/p/7637441.html

你可能感兴趣的文章
[js高手之路]html5 canvas动画教程 - 重力、摩擦力、加速、抛物线运动
查看>>
Oracle ____Undo
查看>>
sbt使用详解
查看>>
使用OpenFace进行人脸识别(1)
查看>>
Shiro系列(3) - What is shiro?
查看>>
MySQL详解(18)-----------分页方法总结
查看>>
linux可运行的shell脚本与设置开机服务启动(自己总结)
查看>>
框架的概念,框架与库的区别
查看>>
HTTP协议详细介绍
查看>>
用阿里云的免费 SSL 证书让网站从 HTTP 换成 HTTPS
查看>>
SharePoint Online 创建图片库
查看>>
MySQL存储引擎对比
查看>>
查看SQL实际内存占用
查看>>
Android:用签名打包后微信分享失效
查看>>
可迭代对象和迭代器生成器
查看>>
Mariadb 10.2中的json使用及应用场景思考
查看>>
LNMP安装Let’s Encrypt 免费SSL证书方法:自动安装与手动配置Nginx
查看>>
linq to xml 增删查改
查看>>
关于Kafka __consumer_offests的讨论
查看>>
VS里属性窗口中的生成操作释义
查看>>