Elasticsearch 与传统关系型数据库的对比、倒排索引原理解析-猿圈-程序猿的知识社区

Elasticsearch 和传统关系型数据库的对比

Elasticsearch中的概念与关系型数据库对比

Relational DB	Databases	Tables	Rows	Columns
关系型数据库	数据库	表	行	列

Elasticsearch	Indices	Types	Documents	Fields
搜索引擎	索引	类型	文档	域（字段）

在Elasticsearch中，所有的字段缺省都建了索引。也就是说每一个字段都有一个倒排索引，用于快速查询。
es支持http协议（json格式）（9200端口）、thrift、servlet、memcached、zeroMQ等的传输协议（通过插件方式集成），传统关系型数据库不支持。
es支持分片和复制，从而方便水平分割和扩展，复制保证了es的高可用与高吞吐。

索引不可变原因

倒排索引包含：

文档的列表
文档的数量
词条在每个文档中出现的次数
出现的位置
每个文档的长度
所有文档的平均长度

索引不可变的原因：

不需要锁，提升并发性能
可以一直保存在缓存中（filter，过滤查询可以体现，详情查看：Elasticsearch 过滤查询）
节省cpu和io开销

倒排索引

Elasticsearch使用一种称为倒排索引的结构，她适用于快速的全文搜索。
一个倒排索引由文档中所有不能重复词的列表构成，对于其中每个词，有一个包含它的文档列表。

示例：

1、假设文档集合包含五个文档，每个文档内容表所示，表的最左端一栏是每个文档对应的文档编号，我们的任务就是对这个文档集合建立倒排索引。

文档编号	文档内容
1	谷歌地图之父跳槽Facebook
2	谷歌地图之父加盟Facebook
3	谷歌地图创始人拉斯离开谷歌加盟Facebook
4	谷歌地图之父跳槽Facebook与Wave项目取消有关
5	谷歌地图之父拉斯加盟社交网站facebook

2、中文和英文等语言不同、单词之间没有明确分隔符号，所以首先要用分词系统将文档自动切分成单词序列。这样每个文档就转换为由单词序列构成的数据流，为了系统后续处理方便，需要对每个不同的单词赋予唯一的单词编号，同时记录下哪些文档包含这个单词，在如此处理结束后，我们可以得到最简单的倒排索引。

“单词ID”一栏记录了每个单词的单词编号，第二栏是对应的单词，第三栏即每个单词对应的倒排索引。

单词ID	单词	倒排索引(DocID)
1	谷歌	1，2，3，4，5
2	地图	1，2，3，4，5
3	之父	1，2，4，5
4	跳槽	1，4
5	Facebook	1，2，3，4，5
6	加盟	2，3，5
7	创始人	3
8	拉斯	3，5
9	离开	3
10	与	4
11	Wave	4
12	项目	4
13	取消	4
14	有关	4
15	社交	5
16	网站	5

3、索引系统还可以记录除此之外的更多信息，下表还记录了单词频率信息（TF）即这个单词在某个文档中出现的次数，之所以要记录这个信息，是因为词频信息在搜索结果排序时，计算查询和文档相似度是很重要的一个计算因子，所以将其记录在倒排列表中，以方便后续排序时进行分值计算。

单词ID	单词	倒排索引(DocID:TF)
1	谷歌	(1:1)，(2:1)，(3:2)，(4:1)，(5:1)
2	地图	(1:1)，(2:1)，(3:1)，(4:1)，(5:1)
3	之父	(1:1)，(2:1)，(4:1)，(5:1)
4	跳槽	(1:1)，(4:1)
5	Facebook	(1:1)，(2:1)，(3:1)，(4:1)，(5:1)
6	加盟	(2:1)，(3:1)，(5:1)
7	创始人	(3:1)
8	拉斯	(3:1)，(5:1)
9	离开	(3:1)
10	与	(4:1)
11	Wave	(4:1)
12	项目	(4:1)
13	取消	(4:1)
14	有关	(4:1)
15	社交	(5:1)
16	网站	(5:1)

4、倒排列表中还可以记录单词在某个文档出现的位置信息

(1,<11>,1),(2,<7>,1),(3,<3,9>,2)
有了这个索引系统，搜索引擎可以很方便地相应用户的查询，比如用户输入查询词“Facebook”，搜索系统查找倒排索引，从中可以读出包含这个单词的文档，这些文档就是提供给用户的搜索结果，而利用单词频率信息、文档频率信息既可以对这些候选搜索结果进行排序，计算文档和查询的相似性，按照相似性得分由高到低排序输出，此即为搜索系统的部分内部流程。

示例：

The quick brown fox jumped over the lazy dog
Quick brown foxes leap over lazy dogs in summer

倒排索引（x代表存在于的文档中）：

Term	Doc_1	Doc_2
Quick		x
The	x
brown	x	x
dog	x
dogs		x
fox	x
foxes		x
in		x
jumped	x
lazy	x	x
leap		x
over	x	x
quick	x
summer		x
the	x

搜索quick brown（计算相关度分数时，文档1的匹配度高，分数会比文档2高）：

Term	Doc_1	Doc_2
brown	x	x
quick	x
Total	2	1

标准化规则（normalization）：

Quick 和 quick 以独立的词条出现，然后用户可能认为它们是相同的词。
fox 和 foxes 非常相似，就像 dog 和 dogs，它们由相同的词根。
jumped 和 leap ，尽管没有相同的词根，但是它们的意思很相近，是同义词。
搜索含有 Quick fox的文档是搜不到的。
使用标准规划规则，建立倒排索引的时候，会对拆分出的各个单词进行相应的处理，以提升后面搜索的时候能够搜索到相关联的文档的概率。

Term	Doc_1	Doc_2
brown	x	x
dog	x	x
fox	x	x
in		x
jump	x	x
lazy	x	x
over	x	x
quick	x	x
summer		x
the	x	x

菜单 学习猿地 - LMONKEY

开通学习猿地VIP

尊享10项VIP特权 持续新增

知识通关挑战

打卡带练！告别无效练习

接私单赚外块

VIP优先接，累计金额超百万

学习猿地私房课免费学

大厂实战课仅对VIP开放

你的一对一导师

每月可免费咨询大牛30次

领取更多软件工程师实用特权

Java开发工程师

何以解忧，唯有 Java！

Python开发工程师

人生苦短我要学Python！

PHP开发工程师

PHP是世界上最好的编程语言!

GO开发工程师

想优雅的写程序，赶紧GO!

大数据开发工程师

弄大数据，就是在搞革命!

前端开发工程师

不仅最好，而且最全!

UI开发工程师

这个世界从来不缺少美，缺少你来创造美!

Linux运维工程师

不只是说说而已！

WEB前端1+X

不仅为考证，轻松做开发

计算机二级（C语言）

一切只为考证！

猿工手册

各种工具精挑细选

猿材料

各种工具精挑细选

猿代码

各种工具精挑细选

猿著课件

各种工具精挑细选

知识题库

知识闯关节节高，刷题涨知识！

阶段练习

单元测试知识学习状况秒掌握！

期末考试

期末测试，学习情况即刻知道！

面试题库

最新的企业技术人员招聘真题练习！

Java专区

2948篇 ｜ 24.5万人浏览

Python专区

2593篇 ｜ 19.5万人浏览

大数据专区

2948篇 ｜ 18.5万人浏览

PHP专区

3953篇 ｜ 27.5万人浏览

Go专区

1382篇 ｜ 12.5万人浏览

Web前端专区

1453篇 ｜ 31.5万人浏览

Linux云计算

1230篇 ｜ 4.5万人浏览

其他专区

53232篇文章 ｜ 11.5万人浏览

搜索

历史记录 清除记录

近期热搜

项目开发全程实录（电商EW_Shop）

8675 人 1年前

轻松学会Laravel-项目篇（商城API）

2022 人 1年前

Python数据分析2.0-金融

325 人 1年前

Python办公自动化2.0

241 人 1年前

使用账号登录

启用更安全省心的  微信登录

Java开发工程师

何以解忧，唯有 Java！

Python开发工程师

菜单学习猿地 - LMONKEY

尊享10项VIP特权持续新增

2948篇｜ 24.5万人浏览

2593篇｜ 19.5万人浏览

2948篇｜ 18.5万人浏览

3953篇｜ 27.5万人浏览

1382篇｜ 12.5万人浏览

1453篇｜ 31.5万人浏览

1230篇｜ 4.5万人浏览

53232篇文章｜ 11.5万人浏览

历史记录清除记录

2948篇｜ 24.5万人浏览

2593篇｜ 19.5万人浏览

2948篇｜ 18.5万人浏览

3953篇｜ 27.5万人浏览

1382篇｜ 12.5万人浏览

1453篇｜ 31.5万人浏览

1230篇｜ 4.5万人浏览

53232篇文章｜ 11.5万人浏览

Elasticsearch 和传统关系型数据库的对比