主頁 > 後端開發 > ElasticSearch的使用和介紹

ElasticSearch的使用和介紹

2023-06-20 07:54:11 後端開發

1、概述


功能

Elasticsearch 是一個分布式的 RESTful 搜索和分析引擎,可用來集中存盤您的資料,以便您對形形色色、規模不一的資料進行搜索、索引和分析,

例如:

  • 在電商網站搜索商品
    image
  • ELK技術堆疊
    image

發展歷程

elasticsearch底層是基于lucene來實作的,

Lucene是一個Java語言的搜索引擎類別庫,是Apache公司的頂級專案,由DougCutting于1999年研發,官網地址:https://lucene.apache.org/ ,
image
elasticsearch的發展歷史:

  • 2004年Shay Banon基于Lucene開發了Compass
  • 2010年Shay Banon 重寫了Compass,取名為Elasticsearch,
    image

2、倒排索引


倒排索引的概念是基于MYSQL這樣的正向索引而言的

正向索引

image
如果是根據id查詢,那么直接走索引,查詢速度非常快,

但如果是基于title做模糊查詢,只能是逐行掃描資料,流程如下:

1)用戶搜索資料,條件是title符合"%手機%"

2)逐行獲取資料,比如id為1的資料

3)判斷資料中的title是否符合用戶搜索條件

4)如果符合則放入結果集,不符合則丟棄,回到步驟1

逐行掃描,也就是全表掃描,隨著資料量增加,其查詢效率也會越來越低,當資料量達到數百萬時,就是一場災難,

倒排索引

倒排索引中有兩個非常重要的概念:

  • 檔案(Document):用來搜索的資料,其中的每一條資料就是一個檔案,例如一個網頁、一個商品資訊
  • 詞條(Term):對檔案資料或用戶搜索資料,利用某種演算法分詞,得到的具備含義的詞語就是詞條,例如:我是中國人,就可以分為:我、是、中國人、中國、國人這樣的幾個詞條

創建倒排索引是對正向索引的一種特殊處理,流程如下:

  • 將每一個檔案的資料利用演算法分詞,得到一個個詞條
  • 創建表,每行資料包括詞條、詞條所在檔案id、位置等資訊
  • 因為詞條唯一性,可以給詞條創建索引,例如hash表結構索引

如圖:
image
倒排索引的搜索流程如下(以搜索"華為手機"為例):

1)用戶輸入條件"華為手機"進行搜索,

2)對用戶輸入內容分詞,得到詞條:華為手機

3)拿著詞條在倒排索引中查找,可以得到包含詞條的檔案id:1、2、3,

4)拿著檔案id到正向索引中查找具體檔案,

如圖:
image
雖然要先查詢倒排索引,再查詢倒排索引,但是無論是詞條、還是檔案id都建立了索引,查詢速度非常快!無需全表掃描,
image

總結

那么為什么一個叫做正向索引,一個叫做倒排索引呢?

  • 正向索引是最傳統的,根據id索引的方式,但根據詞條查詢時,必須先逐潭訓取每個檔案,然后判斷檔案中是否包含所需要的詞條,是根據檔案找詞條的程序
  • 倒排索引則相反,是先找到用戶要搜索的詞條,根據詞條得到保護詞條的檔案的id,然后根據id獲取檔案,是根據詞條找檔案的程序

是不是恰好反過來了?那么兩者方式的優缺點是什么呢?

正向索引

  • 優點:
    • 可以給多個欄位創建索引
    • 根據索引欄位搜索、排序速度非常快
  • 缺點:
    • 根據非索引欄位,或者索引欄位中的部分詞條查找時,只能全表掃描,

倒排索引

  • 優點:
    • 根據詞條搜索、模糊搜索時,速度非常快
  • 缺點:
    • 只能給詞條創建索引,而不是欄位
    • 無法根據欄位做排序

3、ES核心概念

elasticsearch中有很多獨有的概念,與mysql中略有差別,但也有相似之處,

檔案和欄位

elasticsearch是面向檔案(Document)存盤的,可以是資料庫中的一條商品資料,一個訂單資訊,檔案資料會被序列化為json格式后存盤在elasticsearch中:
image
而Json檔案中往往包含很多的欄位(Field),類似于資料庫中的列,

索引和映射

索引(Index),就是相同型別的檔案的集合,

例如:

  • 所有用戶檔案,就可以組織在一起,稱為用戶的索引;
  • 所有商品的檔案,可以組織在一起,稱為商品的索引;
  • 所有訂單的檔案,可以組織在一起,稱為訂單的索引;
    image
    因此,我們可以把索引當做是資料庫中的表,

資料庫的表會有約束資訊,用來定義表的結構、欄位的名稱、型別等資訊,因此,索引庫中就有映射(mapping),是索引中檔案的欄位約束資訊,類似表的結構約束,

mysql和ES概念對比

我們統一的把mysql與elasticsearch的概念做一下對比:

MySQL Elasticsearch 說明
Table Index 索引(index),就是檔案的集合,類似資料庫的表(table)
Row Document 檔案(Document),就是一條條的資料,類似資料庫中的行(Row),檔案都是JSON格式
Column Field 欄位(Field),就是JSON檔案中的欄位,類似資料庫中的列(Column)
Schema Mapping Mapping(映射)是索引中檔案的約束,例如欄位型別約束,類似資料庫的表結構(Schema),對索引欄位的描述(型別、分詞方式、是否要索引)
SQL DSL DSL( Domain Specific Language)是elasticsearch提供的JSON風格的請求陳述句,用來操作elasticsearch,實作CRUD

是不是說,我們學習了elasticsearch就不再需要mysql了呢?

并不是如此,兩者各自有自己的擅長支出:

  • Mysql:擅長事務型別操作,可以確保資料的安全和一致性
  • Elasticsearch:擅長海量資料的搜索、分析、計算

因此在企業中,往往是兩者結合使用:

  • 對安全性要求較高的寫操作,使用mysql實作
  • 對查詢性能要求較高的搜索需求,使用elasticsearch實作
  • 兩者再基于某種方式,實作資料的同步,保證一致性

供個人復習使用,下期講解如何安裝和使用

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/555548.html

標籤:其他

上一篇:Java 運算子的使用

下一篇:返回列表

標籤雲
其他(161269) Python(38242) JavaScript(25505) Java(18249) C(15237) 區塊鏈(8271) C#(7972) AI(7469) 爪哇(7425) MySQL(7258) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5875) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4603) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2436) ASP.NET(2404) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1984) HtmlCss(1968) 功能(1967) Web開發(1951) C++(1942) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1881) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • ElasticSearch的使用和介紹

    # 1、概述 ## 功能 Elasticsearch 是一個分布式的 RESTful 搜索和分析引擎,可用來集中存盤您的資料,以便您對形形色色、規模不一的資料進行搜索、索引和分析。 例如: - 在電商網站搜索商品 ![image](https://img2023.cnblogs.com/blog/3 ......

    uj5u.com 2023-06-20 07:54:11 more
  • Java 運算子的使用

    # Java 運算子的使用 # 1.算術運算子 ## 算術運算子包括: +, -, *, /, %, ++, --,其中需要注意的是%,++,--; ## % 取模運算也叫做取余,在 Java 中取余的規則: a % b = a - a / b * b,如果是小數的話是這樣:a % b = a- ( ......

    uj5u.com 2023-06-20 07:48:58 more
  • 【python基礎】函式-值傳遞

    為了更好的認識函式,我們還要研究值傳遞問題,再研究這個問題之前,我們已經知道了函式之間的值傳遞,是實參變數值傳遞給形參變數,然后讓形參變數在函式內完成相應的功能。但是因為資料型別的不同,這里的值傳遞產生的對實參變數的效果是不同的 # 1.傳遞資料本質 引數傳遞之間傳遞的肯定是資料,而這種資料本質上是 ......

    uj5u.com 2023-06-20 07:43:39 more
  • Spring Boot 優雅實作多租戶架構,so easy~!

    ## 一、概述 ### 1.什么是多租戶架構? 多租戶架構是指在一個應用中支持多個租戶(Tenant)同時訪問,每個租戶擁有獨立的資源和資料,并且彼此之間完全隔離。通俗來說,多租戶就是把一個應用按照客戶的需求“分割”成多個獨立的實體,每個實體互不干擾。 ### 2. 多租戶架構的優勢 - 更好地滿足 ......

    uj5u.com 2023-06-20 07:43:30 more
  • Scala高階語法

    # 高階函式 ## 函式可以作為引數進行傳遞和回傳值進行回傳 ```Scala //傳一個a乘b 就回傳一個函式,邏輯是實作兩數相乘 //傳一個a*b 回傳一個函式,邏輯是實作兩數相乘 //傳一個axb 回傳一個函式,邏輯是實作兩數相乘 def funTest6(str:String,fun:(St ......

    uj5u.com 2023-06-20 07:43:05 more
  • Python 標準類別庫-并發執行之multiprocessing-基于行程的并行

    ### 實踐環境 Python3.6 ### 介紹 `multiprocessing`是一個支持使用類似于執行緒模塊的API派生行程的包。該包同時提供本地和遠程并發,通過使用子行程而不是執行緒,有效地避開了全域解釋器鎖。因此,`multiprocessing`模塊允許程式員充分利用給定機器上的多個處理器 ......

    uj5u.com 2023-06-20 07:40:46 more
  • 【python基礎】函式-值傳遞

    為了更好的認識函式,我們還要研究值傳遞問題,再研究這個問題之前,我們已經知道了函式之間的值傳遞,是實參變數值傳遞給形參變數,然后讓形參變數在函式內完成相應的功能。但是因為資料型別的不同,這里的值傳遞產生的對實參變數的效果是不同的 # 1.傳遞資料本質 引數傳遞之間傳遞的肯定是資料,而這種資料本質上是 ......

    uj5u.com 2023-06-20 07:40:30 more
  • JAVA SE基礎《一》----JAVA入門

    初識Java 1.Java背景知識 java是美國sun公司(Stanford University Network)在1995年推出的一門計算機高級編程語言。 Java早期稱為Oak(橡樹),后期改名為Java。 Java之父:詹姆斯·高斯林(James Gosling)。 2009年sun公司被 ......

    uj5u.com 2023-06-20 07:39:41 more
  • 尚醫通-day14【創建訂單】(內附原始碼)

    typora-copy-images-to: upload # 頁面預覽 ## 訂單詳情 ![image-20230227071834134](https://s2.loli.net/2023/06/19/8rXsPWOn3MdlRNx.png) ![image-20230227071900964] ......

    uj5u.com 2023-06-20 07:39:15 more
  • InnoDB 緩沖池

    緩沖池是主存盤器中的一個區域,在訪問 table 和索引資料時 InnoDB 會對其進行快取。緩沖池允許直接從記憶體中訪問頻繁使用的資料,從而加快處理速度。在專用服務器上,通常將高達 80% 的物理記憶體分配給緩沖池。 ......

    uj5u.com 2023-06-20 07:33:00 more