张铁安：Feed系统架构浅析

Feed 系统结构浅析人人网张铁安

Feed 系统的定位及功能描述是 SNS 的核心功能是 SNS 网站中用户信息的扩散传播通道需要很高的实时性与各业务系统联系紧密（ input & output ）高效、稳定、抗压力强系统的复杂度高

面临的挑战用户产生的数据量巨大假定按平均 1000 条 / 秒计算，用户每天产生近亿条数据 Feed 的扩散范围大（从几个人到几百万人）合并、去重、排序规则复杂，要求实时，响应快速用户请求量大根据各业务的需要，提供个性化的筛选策略

关于 Push Or Pull 的思考获取数据的两种方式推模式拉模式结论从查询的效率考虑，推模式更合适

Feed System 构成 Dispatch NewsFeed Index Cache User interaction feedback Sorting algorithm & Friend Rank MiniFeed Index Cache FeedContent Cache NewsFeed Index Persistence (index db) Rendering engine (data + template)

技术细节 Feed 的分发系统 Feed 的 Cache 系统 Index Cache Content Cache 数据压缩 Index 的持久化存储系统页面显示用的渲染引擎基于内容及用户行为反馈的排序算法（略）

关于 Open Source Feed 系统中使用的 OpenSource 项目 ICE （通信框架） Mysql （ DB ） Memcache + libmemcached （ Content 内存 Cache ） Google Protobuf （对象的序列化及反序列化） Quicklz （二进制数据压缩） Boost multi-index container （多索引结构） Tokyo Tyrant （ key-value 存储引擎） Google Ctemplate （数据的模板渲染引擎） Nginx + FastCgi （ WebServer ）

Feed 的分发系统数据的拆分 Index + content 收消息用户列表的 Cache 策略 LRU & Update Notify 异步线程池合理设置线程个数解决脉冲式请求

Feed Cache 的内存优化 FlyWeight 的设计思想

基于 FlyWeight 思想的 Cache 结构 FeedContentCache & Index Cache 服务间的 FlyWeight

Index 服务内步的 FlyWeight 结构 FeedNews 服务内部的 FlyWeight

Index Cache 的多条件查询利用 multi_index 支持类似数据库的查寻方式，对同一个数据集，可以按不同的维度建立索引，方便支持不同条件的查询，同时对于排序结果，可以做到实时的更新

关于内存的压缩存储各种压缩方法 zlib lzo fastlz lzf quicklz 对象序列化及压缩 Protobuf + quicklz

Memcache & McProxy 高扩展性的内存 Cache 方案我们对内存 Cache 的要求支持高并发在内存容量不断增加的情况下，查询性能不会有大的降低易于扩容及高可用性（一致性哈希）统一的配置管理，使用简单

索引的持久化系统索引持久化的原因解决索引的内存 Cache 重启后无法快速恢复的问题利用相对便宜的存储介质为用户尽量保存多一些内容需要解决的问题每天近 60 亿条索引的持久化存储 (5w+ write/s) 传说中的解决方案 Mysql ? （最高 1K query/s ） Open Source key-value db ? ( 还是不够快 ) GFS ? ( 听说 Google 有，但是光盘没有卖的 )

索引的持久化系统 —— 五花八门的 key-value DB

索引的持久化系统 —— Feed Index DB 需要解决的难题数万级的每秒写入每秒几千次的随机读每天 100G+ 的新增索引数据

索引的持久化系统 —— Feed Index DB 解决思路常规办法对于每秒几万次的写入，除了堆几十或上百台机器，别无它法。测试结果：做 Raid5 的机器，在完全随机写的情况下， IOPS 也就能到 800+ 如果我们将随机写改为顺序写文件，写入效率会高出很多需要充分的利用内存，在内存中将写入的随机索引进行整理和积攒，再顺序的写入硬盘由于使用了延迟写入内存的方式，需要在 Log 中记录所有操作，方便出问题时能找回内存中的数据使用异步 Direct IO ，不要让 OS 多管闲事，浪费内存选用更牛 B 的硬盘，我们用的是 SSD

索引的持久化系统 —— Feed Index DB 解决方案合并写操作通过 Log 保证 Down 机后数据恢复使用 TT 保存索引使用异步 IO 读写文件使用 Direct IO 屏蔽 OS 的 Cache 策略使用 SSD 解决大量的并发读取

索引的持久化系统 —— Feed Index DB 结构 Index Node 责任存储 UserID 到最新一块 Data Block 的位置信息使用 Tokyo Tyrant 保存 key-value 对应关系因为数据量很小，所以 TT 很好用 Data Node 异步的 Direct IO 每个用户可以分配 N 个 Block ，每个 Block 占 2K 大小， N 个 Block 首尾相连，很像一个单向链表

索引的持久化系统 —— Data File 结构

模板的渲染引擎及展示数据格式的一致性由于 Feed 的输入很多，自来各个不同业务，需要保证数据格式的一致性，输出时，通过渲染引擎将数据转化为不同的 View ，提供给各业务技术方案 Ctemplate 提供高效的模板渲染能力 Nginx+FastCgi 提供高并发的 Web 服务

想了解更多有趣内容，欢迎加入我们的开发团队我们正在努力做好的事情 Feed System （新鲜事系统） IM Server （人人桌面服务器端） Ad Engine （广告引擎系统）感兴趣的快来报名 Linux C++ 开发工程师（ 3~5 人） Email ： [email_address] [email_address]

张铁安：Feed系统架构浅析

More Related Content

Similar to 张铁安：Feed系统架构浅析 (18)

张铁安：Feed系统架构浅析

Editor's Notes