Elasticsearch查询及聚合类DSL语句宝典

[IT科技类资讯] 时间:2025-11-05 10:33:23 来源:益强IT技术网 作者:系统运维 点击:164次

作者:京东科技 纪海雨

前言

随着使用es场景的询及增多,工作当中避免不了去使用es进行数据的聚合存储,在数据存储到es当中以后就需要使用DSL语句进行数据的语句查询、聚合等操作,宝典DSL对SE的询及意义就像SQL对MySQL一样,学会如何编写查询语句决定了后期是聚合否能完全驾驭ES,所以至关重要,语句本专题主要是宝典分享常用的DSL语句,拿来即用。询及

Elasticsearch查询及聚合类DSL语句宝典

一、聚合match

如果match 查询数字,语句日期,宝典布尔值或者not_analyzed 的询及字符串时,会精确匹配搜索值,聚合不做分词解析;如果match 查询全文本,语句会对查询词做分词解析,然后搜索。

比如对keyword 类型的tag 查询,"京东总部"不会分词,必须完全相等的词才会被搜索出来

{a

"query": {

"match": {

"content" : {

"tag" : "京东总部"

}

}

}

}

比如"宝马多少马力"会被分词为"宝马 多少 马力", 所有有关"宝马 多少 马力", 那么所有包含这三个词中的一个或多个的文档就会被搜索出来。并且根据lucene的评分机制(TF/IDF)来进行评分

{

"query": {

"match": {

"content" : {

"query" : "宝马多少马力"

}

}

}

}

二、高防服务器match_phrase

如果想要精确匹配所有同时包含"宝马 多少 马力"的文档,就要使用 match_phrase 了

{

"query": {

"match_phrase": {

"content" : {

"query" : "宝马多少马力"

}

}

}

}

三、mult_match

如果我们希望两个字段进行匹配,其中一个字段有这个文档就满足的话,使用multi_match

{

"query": {

"multi_match": {

"query" : "我的宝马多少马力",

"fields" : ["title", "content"]

}

}

}

四、term

关键字精确匹配,不分词解析。注意 term 包含(contains) 操作,而非 等值(equals)判断。如果文档包含full_text 及其他词,也会命中返回。

使用term要确定的是这个字段是否“被分析”(analyzed),默认的字符串是被分析的。

比如下面的例子,其中的full_text是被分析过的,所以full_text的索引中存的就是[quick, foxes],而extra_value中存的站群服务器是[Quick Foxes!]

PUT my_index

{

"mappings": {

"my_type": {

"properties": {

"full_text": {

"type": "string"

},

"exact_value": {

"type": "string",

"index": "not_analyzed"

}

}

}

}

}

PUT my_index/my_type/1

{

"full_text": "Quick Foxes!",

"exact_value": "Quick Foxes!"

}

请求不出数据的,因为full_text分词后的结果中没有[Quick Foxes!]这个分词

GET my_index/my_type/_search

{

"query": {

"term": {

"full_text": "Quick Foxes!"

}

}

}

五、terms

指定多值精确匹配,如果字段包含了指定值中的任何一个值,那么文档满足条件。类似sql中的in

{

"terms": {

"tag": [

"search",

"full_text",

"nosql"

]

}

}

六、range

数字/时间的区间查询,操作符:

•gt > greater than

•gte >=

•lt < litter than

•lte <=

{

"query":{

"range": {

"age": {

"gte": 20,

"lt": 30

}

}

}

}

七、wildcard

通配符索引。* 表示全匹配,? 表示单一匹配。扫描所有倒排索引,性能较差

{

"query": {

"wildcard": {

"companyName": "*京东*"

}

}

}

八、regexp

正则索引。扫描所有倒排索引,性能较差

{

"query": {

"regexp": {

"postcode": "W[0-9].+"

}

}

}

九、组合多查询(bool查询)

bool 查询后面可以跟这四种匹配模式

•must 必须匹配

•must_not 必须不匹配

•should 匹配任意,等价or

•filter 必须匹配:过滤模式

比如我们想要请求"content 中带宝马,但是tag 中不带宝马"这样类似的需求,就需要用到bool 联合查询。

{

"query":{

"bool":{

"must":{

"term":{

"content":"宝马"

}

},

"must_not":{

"term":{

"tags":"宝马"

}

}

}

}

}

十、聚合

聚合包含一下两种:

1、 指标聚合(Metric Aggregation):一些数学运算,可以对文档字段进行统计分析

输出一个值minmaxsumavg value_count 统计某字段有值的文档数cardinality 某字段值去重计数输出多个值statspercentilespercentile_ranks

2、云服务器提供商桶聚合(Bucket Aggregation) :一些列满足特定条件的文档的集合,相当于sql 的groupby

terms 对某个字段统计每个不同的内容,以及出现文档的个数range 某个范围内文档的个数

默认聚合范围是全文,但是如果有query查询,那么聚合的范围就是query查询的结果。

value_count 统计某字段有值的文档数

{

"size": 0,

"aggs": {

"count": {

"value_count": {

"field": "companyName"

}

}

}

}

指定查询语句进行统计

{

"query": {

"term": {

"companyName": "安徽科达智慧能源科技有限公司"

}

},

"aggs": {

"count": { //自定义名称

"terms": {

"field": "companyName"

}

}

}

}

以上就是本期分享的DSL语句,小伙伴们结合自己的使用查询场景进行操练起来吧。

(责任编辑:IT科技)

    本文记录配置Linux服务器的初步流程,也就是系统安装完成后,下一步要做的事情。这主要是我自己的总结和备忘,假如有遗漏,欢迎大家补充。下面的操作针对Debian/Ubuntu系统,其他Linux系统也类似,就是部分命令稍有不同。 第一步:root用户登录 首先,使用root用户登录远程主机(假定IP地址是128.199.209.242)。 ssh root@128.199.209.242这时,命令行会出现警告,表示这是一个新的地址,存在安全风险。键入yes,表示接受。然后,就应该可以顺利登入远程主机。接着,修改root用户的密码。 passwd第二步:新建用户 首先,添加一个用户组(这里假定为admin用户组)。 addgroup admin然后,添加一个新用户(假定为bill)。useradd -d /home/bill -s /bin/bash -m bill 上面命令中,参数d指定用户的主目录,参数s指定用户的shell,参数m表示假如该目录不存在,则创建该目录。接着,设置新用户的密码。 passwd bill 将新用户(bill)添加到用户组(admin)。usermod -a -G admin bill 接着,为新用户设定sudo权限。visudovisudo命令会打开sudo设置文件/etc/sudoers,找到下面这一行。root ALL=(ALL:ALL) ALL在这一行的下面,再添加一行。root ALL=(ALL:ALL) ALLbill ALL=(ALL) NOPASSWD: ALL上面的NOPASSWD表示,切换sudo的时候,不需要输入密码,我喜欢这样比较省事。假如出于安全考虑,也可以强制要求输入密码。root ALL=(ALL:ALL) ALLbill ALL=(ALL:ALL) ALL然后,先退出root用户的登录,再用新用户的身份登录,检查到这一步为止,是否一切正常。exitssh bill@128.199.209.242第三步:SSH设置 首先,确定本机有SSH公钥(一般是文件~/.ssh/id_rsa.pub),假如没有的话,使用ssh-keygen命令生成一个(可参考我写的SSH教程)。 在本机上另开一个shell窗口,将本机的公钥拷贝到服务器的authorized_keys文件。 cat ~/.ssh/id_rsa.pub | ssh bill@128.199.209.242 mkdir -p .ssh && cat - >>~/.ssh/authorized_keys# 或者在服务器端,运行下面命令echo ssh-rsa [your public key] >~/.ssh/authorized_keys然后,进入服务器,编辑SSH配置文件/etc/ssh/sshd_config。sudo cp /etc/ssh/sshd_config ~sudo nano /etc/ssh/sshd_config在配置文件中,将SSH的默认端口22改掉,可以改成从1025到65536之间的任意一个整数(这里假定为25000)。Port 25000然后,检查几个设置是否设成下面这样,确保去除前面的#号。Protocol 2PermitRootLogin noPermitEmptyPasswords noPasswordAuthentication noRSAAuthentication yesPubkeyAuthentication yesAuthorizedKeysFile .ssh/authorized_keysUseDNS no上面主要是禁止root用户登录,以及禁止用密码方式登录。接着,在配置文件的末尾,指定允许登陆的用户。 AllowUsers bill保存后,退出文件编辑。接着,改变authorized_keys文件的权限。 sudo chmod 600 ~/.ssh/authorized_keys && chmod 700 ~/.ssh/然后,重启SSHD。sudo service ssh restart# 或者sudo /etc/init.d/ssh restart下面的一步是可选的。在本机~/.ssh文件夹下创建config文件,内容如下。Host s1HostName 128.199.209.242User billPort 25000最后,在本机另开一个shell窗口,测试SSH能否顺利登录。ssh s1第四步:运行环境配置 首先,检查服务器的区域设置。 locale假如结果不是en_US.UTF-8,建议都设成它。sudo locale-gen en_US en_US.UTF-8 en_CA.UTF-8sudo dpkg-reconfigure locales然后,更新软件。sudo apt-get updatesudo apt-get upgrade最后,再根据需要,做一些安全设置,比如搭建防火墙,关闭HTTP、HTTPs、SSH以外的端口,这里就不一一介绍了,谢谢阅读,希望能帮到大家,请继续关注脚本之家,我们会努力分享更多优秀的文章。新版羊刀的被动能力解析(揭秘新版羊刀的强大被动技能,探寻其战斗优势)
    相关内容
    精彩推荐
    热门点击
    友情链接