大家好我是苏麟,今天聊聊数据同步 .
数据同步
一般情况下,如果做查询搜索功能,使用 ES 来模糊搜索,但是数据是存放在数据库 MySQL 里的,所以说我们需要把 MySQL 中的数据和 ES 进行同步,保证数据一致(以 MySQL 为主)。
MySQL =>ES(单向)
同步方式
首次安装完 ES,把 MySQL 数据全量同步到 ES 里,写一个单次脚本 4 种方式 , 全量同步(首次)+增量同步(新数据)
1.定时任务 (推荐 : 简单)
定时任务 : 比如1分钟1次,找到 MySQL 中过去几分钟内(至少是定时周期的2 倍)发生改变的数据,然后更新到 ES.
- 优点:简单易懂、占用资源少、不用引入第三方中间件
- 缺点:有时间差
- 应用场景:数据短时间内不同步影响不大、或者数据几乎不发生修改
2.双写
双写 : 写数据的时候,必须也去写 ES;更新删除数据库同理。(事务:建议先保证 MySQL写成功,如果ES 写失败了,可以通过定时任务 + 日志 +告警进行检测和修复(补偿))
- 优点 : 不知道
- 缺点 : 繁琐
3. Logstash
用 Logstash 数据同步管道 (一般要配合 kafka 消息队列 + beats 采集器)
- 优点 : 用起来方便,插件多
- 缺点 : 成本更大 : 一般要配合其他组件使用 (比如 kafka) , 维护成本 : 多维护一个组件 , 学习成本 : 学习使用
4.Canal (推荐 : 简单 , 实时性非常强)
Canal 监听 MySQL Binlog,实时同步
- 优点 : 实时同步 , 实时性非常强
- 缺点 : 忽略不计 (MySQL8版本可能连接失败)
定时任务
找到 MySQL 中过去几分钟内发生改变的数据,然后更新到 ES.
双向写入
写数据的时候,也去写 ES .
这个不推荐!
Logstash
传输 和 处理 数据的管道
文章 :