什么是爬虫?

爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。

工具准备

1.python环境搭建

2.pycharm (编译器)

3.requests

这个案例是以python语言编写的,首先呢,我们需要安装python环境,以及python编译器,目前比较主流、功能比较丰富的编辑器当属pycharm。PyCharm 是一款功能强大的Python 编辑器,PyCharm是一种Python IDE(Integrated Development Environment,集成开发环境),带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、项目管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外,该IDE提供了一些高级功能,以用于支持Django框架下的专业Web开发。

代码

import requests  # 导入requests
page = requests.get("https://www.baidu.com").text  # 使用requests的get方法得到百度页面的信息
print(page)  # 输入页面内容

python代码

代码讲解

从上图中我们可以看到运行这短短的三行代码就会得到www.baidu.com页面的内容。

为什么呢?

requests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多
因为是第三方库,所以使用前需要cmd安装

pip install requests

安装完成后import一下,正常则说明可以开始使用了。
基本用法:
requests.get()用于请求目标网站,类型是一个HTTPresponse类型

我们在编写爬虫的时候首先要import requests,才能调用requests方法

page = requests.get("https://www.baidu.com").text

这行语句是说使用requests的get方法【get(url)】,获取到百度页面的内容然后转化成text格式,并赋值到page

最终由

print(page)

打印出url(百度)的页面内容

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注