BeautifulSoup库-猿圈-程序猿的知识社区

## python爬虫-BeautifulSoup库

python爬虫抛开其它，主要依赖两类库：HTTP请求、网页解析；这里requests可以作为网页请求的关键库，BeautifulSoup库则是网页内容解析的关键库；爬虫架构分为五部分：调度器、URL管理器、网页下载器、网页解析器、应用程序等。

requests库是通过封装urllib库的一个HTTP请求库，可以实现urllib绝大部分的功能且使用性高。BeautifulSoup库是第三方库，用来提取xml/html中的数据。

``` python3
#! python3

import requests
from bs4 import BeautifulSoup

responses = requests.get("https://www.baidu.com")
responses.encoding = "utf-8"
# bs解析对象
soup = BeautifulSoup(responses.text,"html.parser",from_encoding="utf-8")
# 获取所有a标签内容
links = soup.find_all('a')
for link in links:
print(link.name,link['href'],link.get_text())
```

**解析器**

bs4使用时需要指定一个解析器:

- html.parse:python自带，容错不高
- lxml:解析速度快需要额外安装 `pip install lxml`
- xml:同属lxml库，支持xml文档 `pip install lxml`
- html5lib:容错高，速度慢 `pip install html5lib`

**初始化操作：创建BeautifulSoup对象**

``` python
soup = BeautifulSoup(htmlText,'html.parser')
```
初始化操作会打开一个html文件/页面，创建一个BeautSoup对象，同时初始化要指定解析器。

BeautifulSoup对象即可按照标准缩进格式输出:`soup.prettify()`

**结构化数据**

- `soup.title`查看title标签（包含标签输出html）
- `soup.title.name`查看title标签的标签名
- `soup.title.string`查看title标签的text内容
- `soup.title.parent.name`查看title父标签名
- `soup.p`查看p标签（第一个）
- `soup.p['class']`查看p标签的属性内容
- `soup.find_all('a')`查看所有a标签（以列表返回）
- `soup.find(id="link3")`查看属性id='link3'的标签
- `soup.get_text()`获取文字内容

**对象种类**

bs4将html文档转换成一个复杂的树形结构，每个节点都将是python-bs4的对象，包括

- Tag对象：与html/xml中的tag相同；包含多种方法和属性；
- `tag.name` 获取tag的名字
- `tag.attributes` 获取标签的某个属性值`tag['class']`操作方法和字典相同，支持增删改查；
- 字符串对象：字符串包含在tab内；字符串对象不支持其它方法。
`tag.string`获取标签内的text文本内容
- BeautifulSoup对象标识一个文档的全部内容
- 特殊对象：注释内容对象

**遍历文档树**

我们可以通过点`.`取方式，获取子节点以及子节点的子节点直至没有子节点，但这种方法只可以获取第一个子节点；可以使用`.find_all()`可以当前节点下指定的所有tab节点

`.contents` 将当前tag的子节点以列表方式输出
`.children` 实现对tag子节点进行循环
`.descendants` 实现对所有子孙节点的递归循环
`.string` 当tag只有一个字符串对象时使用
`.strings` tag包含多个字符串使用，循环获取；可以使用`.stripped_strings`去除多余的空白内容

`.parent` 当前节点的父节点
`.parents` 递归获取元素的所有父节点

`.next_sibling` 遍历所有兄弟节点（之后的所有兄弟节点）`.next_siblings`
`.previous_sibling` 遍历所有兄弟节点（之前的所有兄弟节点）`.previous_siblings`

**搜索文档树**

`.find_all( name , attrs , recursive , string , **kwargs )`

`.find( name , attrs , recursive , string , **kwargs )`

> 支持字符串、正则、列表、true、自定义方法

`.limit`支持定义搜索范围和数量
`.recursive`局限范围只搜索直接子节点

其它……[搜索文档树](https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#id27)

**输出**

`.prettify()`格式化输出
`.unicode()`/`str()`压缩格式输出

`.get_text()`输出文本内容

我的博客即将同步至腾讯云+社区，邀请大家一同入驻：https://cloud.tencent.com/developer/support-plan?invite_code=2t9x6jeycjgg8

菜单 学习猿地 - LMONKEY

开通学习猿地VIP

尊享10项VIP特权 持续新增

知识通关挑战

打卡带练！告别无效练习

接私单赚外块

VIP优先接，累计金额超百万

学习猿地私房课免费学

大厂实战课仅对VIP开放

你的一对一导师

每月可免费咨询大牛30次

领取更多软件工程师实用特权

Java开发工程师

何以解忧，唯有 Java！

Python开发工程师

人生苦短我要学Python！

PHP开发工程师

PHP是世界上最好的编程语言!

GO开发工程师

想优雅的写程序，赶紧GO!

大数据开发工程师

弄大数据，就是在搞革命!

前端开发工程师

不仅最好，而且最全!

UI开发工程师

这个世界从来不缺少美，缺少你来创造美!

Linux运维工程师

不只是说说而已！

WEB前端1+X

不仅为考证，轻松做开发

计算机二级（C语言）

一切只为考证！

猿工手册

各种工具精挑细选

猿材料

各种工具精挑细选

猿代码

各种工具精挑细选

猿著课件

各种工具精挑细选

知识题库

知识闯关节节高，刷题涨知识！

阶段练习

单元测试知识学习状况秒掌握！

期末考试

期末测试，学习情况即刻知道！

面试题库

最新的企业技术人员招聘真题练习！

Java专区

2948篇 ｜ 24.5万人浏览

Python专区

2593篇 ｜ 19.5万人浏览

大数据专区

2948篇 ｜ 18.5万人浏览

PHP专区

3953篇 ｜ 27.5万人浏览

Go专区

1382篇 ｜ 12.5万人浏览

Web前端专区

1453篇 ｜ 31.5万人浏览

Linux云计算

1230篇 ｜ 4.5万人浏览

其他专区

53232篇文章 ｜ 11.5万人浏览

搜索

历史记录 清除记录

近期热搜

项目开发全程实录（电商EW_Shop）

8677 人 1年前

轻松学会Laravel-项目篇（商城API）

2022 人 1年前

Python数据分析2.0-金融

325 人 1年前

Python办公自动化2.0

241 人 1年前

使用账号登录

启用更安全省心的  微信登录

Java开发工程师

何以解忧，唯有 Java！

Python开发工程师

菜单学习猿地 - LMONKEY

尊享10项VIP特权持续新增

2948篇｜ 24.5万人浏览

2593篇｜ 19.5万人浏览

2948篇｜ 18.5万人浏览

3953篇｜ 27.5万人浏览

1382篇｜ 12.5万人浏览

1453篇｜ 31.5万人浏览

1230篇｜ 4.5万人浏览

53232篇文章｜ 11.5万人浏览

历史记录清除记录

2948篇｜ 24.5万人浏览

2593篇｜ 19.5万人浏览

2948篇｜ 18.5万人浏览

3953篇｜ 27.5万人浏览

1382篇｜ 12.5万人浏览

1453篇｜ 31.5万人浏览

1230篇｜ 4.5万人浏览

53232篇文章｜ 11.5万人浏览