学习总结录 学习总结录
首页
归档
分类
标签
  • Java基础
  • Java集合
  • MySQL
  • Redis
  • JVM
  • 多线程
  • 计算机网络
  • 操作系统
  • Spring
  • Kafka
  • Elasticsearch
  • Python
  • 面试专题
  • 案例实践
  • 工具使用
  • 项目搭建
  • 服务治理
  • ORM框架
  • 分布式组件
  • MiniSpring
  • 设计模式
  • 算法思想
  • 编码规范
友链
关于
GitHub (opens new window)
首页
归档
分类
标签
  • Java基础
  • Java集合
  • MySQL
  • Redis
  • JVM
  • 多线程
  • 计算机网络
  • 操作系统
  • Spring
  • Kafka
  • Elasticsearch
  • Python
  • 面试专题
  • 案例实践
  • 工具使用
  • 项目搭建
  • 服务治理
  • ORM框架
  • 分布式组件
  • MiniSpring
  • 设计模式
  • 算法思想
  • 编码规范
友链
关于
GitHub (opens new window)
  • Java基础

  • Java集合

  • MySQL

  • Redis

  • JVM

  • 多线程

  • 计算机网络

  • Spring

  • Kafka

  • Elasticsearch

    • ElasticSearch基本概念
    • 文档基本操作
    • 倒排索引
      • 一、倒排索引概述
      • 二、倒排索引组成
      • 参考
    • 分词器
    • Mapping和常见字段类型
    • Index Template&Dynamic Template
    • Elasticsearch聚合分析简介
    • 基于词项和基于全文的搜索
    • 结构化搜索
    • 搜索的相关性算分
    • 单字符串多字段查询
    • SearchTemplate 和 Index Alias 查询
    • Function Score Query 优化算分
    • Term&Phrase Suggester
    • 自动补全于基于上下文的提示
  • Python

  • 面试专题

  • 知识库
  • Elasticsearch
旭日
2023-05-23
目录

倒排索引

# 一、倒排索引概述

传统索引结构如下:

id content
1001 My name is wxx
1002 My name is dyl

倒排索引结构如下:

keyword id
name 1001,1002
Wax 1001
  • 对于传统索引,就类似于书籍的目录页一样,我们根据对应的编号找到对应的内容。
  • 对于倒排索引,就类似于书籍最后的索引页一样,我们根据对应的关键词找到对应的内容。

# 二、倒排索引组成

倒排索引包括两个部分:

  • 单词词典:记录所有文档的单词,记录单词到倒排列表的关联关系。
    • 单词词典,一般比较大,可以通过B+树和哈希拉链法来满足查询和插入的需求。
  • 倒排列表:记录单词对应的文档集合
    • 文档id:文档的编号。
    • 词频率(TF):该单词出现的次数。
    • 位置(Position):单词在文档中分词的位置。
    • 偏移(Offset):记录单词的开始结束位置。

# 参考

Elasticsearch 核心技术与实战 (opens new window)

#Elasticsearch
上次更新: 2024/06/29, 15:13:44
文档基本操作
分词器

← 文档基本操作 分词器→

最近更新
01
基础概念
10-31
02
Pytorch
10-30
03
Numpy
10-30
更多文章>
Theme by Vdoing | Copyright © 2021-2024 旭日 | 蜀ICP备2021000788号-1
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式