什么是爬虫?
爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。
工具准备
1.python环境搭建
2.pycharm (编译器)
3.requests
这个案例是以python语言编写的,首先呢,我们需要安装python环境,以及python编译器,目前比较主流、功能比较丰富的编辑器当属pycharm。PyCharm 是一款功能强大的Python 编辑器,PyCharm是一种Python IDE(Integrated Development Environment,集成开发环境),带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、项目管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外,该IDE提供了一些高级功能,以用于支持Django框架下的专业Web开发。
代码
import requests # 导入requests
page = requests.get("https://www.baidu.com").text # 使用requests的get方法得到百度页面的信息
print(page) # 输入页面内容
代码讲解
从上图中我们可以看到运行这短短的三行代码就会得到www.baidu.com页面的内容。
为什么呢?
requests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多
因为是第三方库,所以使用前需要cmd安装
pip install requests
安装完成后import一下,正常则说明可以开始使用了。
基本用法:
requests.get()用于请求目标网站,类型是一个HTTPresponse类型
我们在编写爬虫的时候首先要import requests,才能调用requests方法
page = requests.get("https://www.baidu.com").text
这行语句是说使用requests的get方法【get(url)】,获取到百度页面的内容然后转化成text格式,并赋值到page
最终由
print(page)
打印出url(百度)的页面内容
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。