深度解析MySQL 5.7之中文全文检索
作者:杨涛涛 发布时间:2024-01-20 22:36:55
标签:mysql,全文检索,中文,ngram
前言
其实全文检索在MySQL里面很早就支持了,只不过一直以来只支持英文。缘由是他从来都使用空格来作为分词的分隔符,而对于中文来讲,显然用空格就不合适,需要针对中文语义进行分词。这不,从MySQL 5.7开始,MySQL内置了ngram全文检索插件,用来支持中文分词,并且对MyISAM和InnoDB引擎有效。
在使用中文检索分词插件ngram之前,先得在MySQL配置文件里面设置他的分词大小,比如,
[mysqld]
ngram_token_size=2
这里把分词大小设置为2。要记住,分词的SIZE越大,索引的体积就越大,所以要根据自身情况来设置合适的大小。
示例表结构:
CREATE TABLE articles (
id INTUNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY,
titleVARCHAR(200),
body TEXT,
FULLTEXT (title,body) WITH PARSER ngram
) ENGINE=InnoDBCHARACTER SET utf8mb4;
示例数据,有6行记录。
mysql> select * from articles\G
***************************1. row ***************************
id: 1
title: 数据库管理
body: 在本教程中我将向你展示如何管理数据库
***************************2. row ***************************
id: 2
title: 数据库应用开发
body: 学习开发数据库应用程序
***************************3. row ***************************
id: 3
title: MySQL完全手册
body: 学习MySQL的一切
***************************4. row ***************************
id: 4
title: 数据库与事务处理
body: 系统的学习数据库的事务概论
***************************5. row ***************************
id: 5
title: NoSQL精髓
body: 学习了解各种非结构化数据库
***************************6. row ***************************
id: 6
title: SQL 语言详解
body: 详细了解如果使用各种SQL
6 rows inset (0.00 sec)
显式指定全文检索表源
mysql> SETGLOBAL innodb_ft_aux_table="new_feature/articles";
Query OK, 0 rows affected (0.00 sec)
通过系统表,就可以查看到底是怎么划分articles里的数据。
mysql> SELECT *FROM information_schema.INNODB_FT_INDEX_CACHE LIMIT 20,10;
+------+--------------+-------------+-----------+--------+----------+
| WORD | FIRST_DOC_ID | LAST_DOC_ID | DOC_COUNT | DOC_ID| POSITION |
+------+--------------+-------------+-----------+--------+----------+
| 中我 | 2 | 2 | 1 | 2 | 28 |
| 习m | 4 | 4 | 1 | 4 | 21 |
| 习了 | 6 | 6 | 1 | 6 | 16 |
| 习开 | 3 | 3 | 1 | 3 | 25 |
| 习数 | 5 | 5 | 1 | 5 | 37 |
| 了解 | 6 | 7 | 2 | 6 | 19 |
| 了解 | 6 | 7 | 2 | 7 | 23 |
| 事务 | 5 | 5 | 1 | 5 | 12 |
| 事务 | 5 | 5 | 1 | 5 | 40 |
| 何管 | 2 | 2 | 1 | 2 | 52 |
+------+--------------+-------------+-----------+--------+----------+
10 rows in set (0.00 sec)
这里可以看到,把分词长度设置为2,所有的数据都只有两个一组。上面数据还包含了行的位置,ID等等信息。
接下来,我来进行一系列检索示范,使用方法和原来英文检索一致。
一、自然语言模式下检索:
1、得到符合条件的个数,
mysql>SELECT COUNT(*) FROM articles
-> WHERE MATCH (title,body) AGAINST ('数据库' IN NATURALLANGUAGE MODE);
+----------+
| COUNT(*) |
+----------+
| 4 |
+----------+
1 row in set (0.05 sec)
2、得到匹配的比率,
mysql>SELECT id, MATCH (title,body) AGAINST ('数据库' IN NATURAL LANGUAGE MODE)
AS score FROM articles;
+----+----------------------+
| id| score |
+----+----------------------+
| 1 | 0.12403252720832825 |
| 2 | 0.12403252720832825 |
| 3 | 0 |
| 4 | 0.12403252720832825 |
| 5 | 0.062016263604164124|
| 6 | 0 |
+----+----------------------+
6rows in set (0.00 sec)
二、布尔模式下搜索,这个就相对于自然模式搜索来的复杂些:
1、匹配既有管理又有数据库的记录,
mysql> SELECT * FROM articles WHERE MATCH (title,body)
-> AGAINST ('+数据库 +管理' IN BOOLEAN MODE);
+----+------------+--------------------------------------+
| id| title | body |
+----+------------+--------------------------------------+
| 1 | 数据库管理 | 在本教程中我将向你展示如何管理数据库 |
+----+------------+--------------------------------------+
1 rowin set (0.00 sec)
2、匹配有数据库,但是没有管理的记录,
mysql> SELECT * FROM articles WHERE MATCH (title,body)
-> AGAINST ('+数据库 -管理' IN BOOLEAN MODE);
+----+------------------+----------------------------+
| id| title | body |
+----+------------------+----------------------------+
| 2 | 数据库应用开发 | 学习开发数据库应用程序 |
| 4 | 数据库与事务处理 | 系统的学习数据库的事务概论 |
| 5 | NoSQL 精髓 | 学习了解各种非结构化数据库 |
+----+------------------+----------------------------+
3 rows in set (0.00 sec)
3、匹配MySQL,但是把数据库的相关性降低,
mysql> SELECT * FROM articles WHERE MATCH (title,body)
-> AGAINST ('>数据库 +MySQL' INBOOLEAN MODE);
+----+---------------+-----------------+
| id| title | body |
+----+---------------+-----------------+
| 3 | MySQL完全手册 |学习MySQL的一切 |
+----+---------------+-----------------+
1 rowin set (0.00 sec)
三、查询扩展模式,比如要搜索数据库,那么MySQL,oracle,DB2也都将会被搜索到,
mysql> SELECT * FROM articles
-> WHERE MATCH (title,body)
-> AGAINST ('数据库' WITH QUERY EXPANSION);
+----+------------------+--------------------------------------+
| id| title | body |
+----+------------------+--------------------------------------+
| 1 | 数据库管理 | 在本教程中我将向你展示如何管理数据库 |
| 4 | 数据库与事务处理 | 系统的学习数据库的事务概论 |
| 2 | 数据库应用开发 | 学习开发数据库应用程序 |
| 5 | NoSQL 精髓 | 学习了解各种非结构化数据库 |
| 6 | SQL 语言详解 | 详细了解如果使用各种SQL |
| 3 | MySQL完全手册 | 学习MySQL的一切 |
+----+------------------+--------------------------------------+
6 rows in set (0.01 sec)
当然,我这里只是功能演示,更多的性能测试,大家有兴趣可以进行详细测试。由于N-grm是中文检索常用的分词算法,已经在互联网大量使用,这次集成到MySQL中,想必效果上不会有太大的问题。
来源:http://www.actionsky.com/docs/archives/163
0
投稿
猜你喜欢
- 一、问题描述在实习的时候,需要将两个表格的内容进行匹配分类,比如两个不同的工程项目针对的对象都是A,那么就需要将这两个工程项目归类到A当中,
- 首先要作出决策,你是否想要使用最新的开发版本或最终的稳定版本。在MySQL开发过程中,同时存在多个发布系列,每个发布处在成熟度的不同阶段:&
- 本文实例讲述了Python3多进程 multiprocessing 模块。分享给大家供大家参考,具体如下:多进程 Multiprocessi
- 八卦为先八卦是种优良品质,特别是用在技术上时。来看几个Reset CSS的八卦问题吧:你知道世界上第一份reset.css在哪么?* { m
- 相关代码:JavaScript写的日期时间控件,很好用 13个超酷的js显示时间效果 <html><head><
- 这是通过博主写的英雄联盟下载器下载的部分的英雄皮肤,可以看一下效果。每个英雄的皮肤的会自动根据英雄名称创建相应的文件夹存放。实现思路比较简单
- 代码如下import numpy as npfrom matplotlib import pyplot as plt# 用numpy生成数据
- 任何东西只要跟Google有关就总能给我们带来点儿惊喜,2008年9月2日发布的Google Chrome浏览器也不例外。Google Ch
- 这几天一直困惑我的问题,我觉得pycharm应该也是有的啊,偶然间找到了这个。把那个框里的选中,就可以了。ps:我的是 PyCharm 20
- 引言算法思路假设我们有这样一个生物族群,他们的每个基因片段都是一个个三角形(即只含三个点和颜色信息),他们每个个体表现出的性状就是若干个三角
- 今天早上早些时候,在我的Planet Python源中,我读到了一篇有趣的文章"开发CARDIAC:纸板计算机(Developin
- 目录项目地址:前言使用方式主要代码blive_record.pyconfig.py(配置文件)项目地址:https://github.com
- 本文实例讲述了js实现的全国省市二级联动下拉选择菜单。分享给大家供大家参考。具体如下:运行效果截图如下:具体代码如下:<!DOCTYP
- 一、前言进程,一个新鲜的字眼,可能有些人并不了解,它是系统某个运行程序的载体,这个程序可以有单个或者多个进程,一般来说,进程是通过系统CPU
- 项目背景实验结果拍摄了一组图片,数量较大,想要按顺序组合排版,比较简单的方式是在PPT中插入图片进行排版。但是PPT批量插入图片后,顺序打乱
- 前言:因为InnoDB是支持事务的,所以只对InnoDB的事务进行讨论。一、事务(一)什么是事务事务是由一组SQL语句组成的逻辑处理单元,是
- PDOStatement::fetchObjectPDOStatement::fetchObject — 获取下一行并作为一个对象返回。(P
- # django manage.py扩展自定义命令环境: mac django1.10.3在实际的项目开发过程中,我们可能要执行某脚本初始化
- 在pandas里面常用value_counts确认数据出现的频率。1. Series 情况下:pandas 的 value_counts()
- python 实现单例的方法第一种方法:使用基类New 是真正创建实例对象的方法,所以重写基类的new 方法,以此保证创建对象的时候只生成一