Elasticsearch让 keyword 和 term 忽略大小写

    技术2022-07-10  79

    在 Elasticsearch 中处理字符串类型的数据时,如果我们想把整个数据作为一个完整的 term 存储,我们通常会将其类型( type) 设定为 keyword。而这种设定又会给我们带来麻烦,比如 Bar、bar两个实际都是 bar,但当我们去搜索 bar时却无法返回 Bar的文档。要解决这个问题,就需要 Normalizer出场了!

     

    PUT test_normalizer { "mappings": { "properties": { "foo":{ "type":"keyword" } } } } PUT test_normalizer/_doc/1 { "foo":"bar" } PUT test_normalizer/_doc/2 { "foo":"Bar" } # 查询一 GET test_normalizer/_search { "query": { "match":{ "foo":"bar" } } } # 查询二 GET test_normalizer/_search { "query": { "match":{ "foo":"BAr" } } } # 查询三 GET test_normalizer/_search { "query": { "term":{ "foo":"baR" } } }

    结果:

    查询一:返回 id=1的数据

    查询二、查询三:查询不到数据

    原因:

    写入 Elasticsearch时由于字段的 type是 keyword,分词结果为原始字符串(type=string时,是转为小写创建索引的)

    查询 Query 时分词默认是采用和字段写时相同的配置,因此这里也就是 keyword,这查就是直接把内容去匹配了;从而查询一可以匹配到数据,查询二、三查询不到数据;

    注意:term是代表完全匹配,即查询的关键词不会被分词处理;

     

    解决方案:Normalizer

    DELETE test_normalizer # 自定义 normalizer PUT test_normalizer { "settings": { "analysis": { "normalizer": { "lowercase": { "type": "custom", "filter": ["lowercase"] } } } }, "mappings": { "properties": { "foo": { "type": "keyword" }, "foo_normalizer": { "type": "keyword", "normalizer": "lowercase" } } } } PUT test_normalizer/_doc/1 { "foo": "bar", "foo_normalizer": "bar" } PUT test_normalizer/_doc/2 { "foo": "Bar", "foo_normalizer": "Bar" } # 查询三 GET test_normalizer/_search { "query": { "term":{ "foo":"BaR" } } } # 查询四 GET test_normalizer/_search { "query": { "term":{ "foo_normalizer":"bAr" } } }

    1、normalizer是 keyword的一个属性,可以对 keyword生成的单一 Term再做进一步的处理,比如 lowercase,即做小写变换。使用方法和自定义分词器有些类似。

    2、我们第一步是自定义了名为 lowercase的 normalizer,其中filter 类似自定义分词器中的 filter ,normalizer中可可用的filtr种类很少,详情大家可以查看官方文档。

    3、通过 normalizer属性设定到指定字段type_normalizer中;

    4、然后插入相同的2条文档。执行发现,查询三无结果返回,查询四返回2条文档。

     

    流程说明:

    es文档写入时由于对字段指定了 normalizer,那该字段的 term都会被做小写处理

    查询时搜索词同样采用有 normalizer的配置,因此处理后的 term也是小写的

    这样写入数据和搜索都忽略大小写,就得到了我们上面的结果

    Processed: 0.010, SQL: 9