姨搜简介
侯松
2016年06月
姨搜是什么?
大数据技术+风控思维
姨搜是怎么做的?
数据来源
数据整理
数据使用
外网数据 内部数据整合 三方数据合作
搜索引擎
(非结构化数据服务)
网查、问答系统
知识图谱
(结构化数据服务)
归户、查重、反欺诈图谱搜索、黑名单
数据库
决策引擎 风险分析
姨搜产品线
1. 自动化网查
2. 知识图谱系统
3. 基础数据服务系统
4. 图谱搜索
5. 黑名单系统
6. 三方数据整合服务
7. 决策执行引擎
8. 决策分析平台
自动化网查
Crawlers
Search Engine
Hbase/HDFS
MR/Yarn
ElasticSearch
webpage
processor
知识图谱系统(数据整合)
Query
Engine
crawler
controller
REST
Client
DB
HDFS
File
KG
web front
REST
Client
realtime
source
realtime/batch
extractionrealtime
inserts
commands web
trace
batch
processing
Web
crawlers
logging
.
.
.
.
.
.
.
.
.
.
.
.
Kafka
spark
streaming
web extraction
config
online knowledge
processing
offline complex
reasoning
entity retrieve
graph traverse
full text search
KG
repository
batch logging
3rd partner
Query
Engine
基础数据服务
1. 包括归户、查重等数据服务。
2. 难点在于:数据形态差异巨大,如何将它们统一到相同
的框架下并对外提供相同的接口。
图谱搜索
黑名单系统
1. 整个宜信共享的风险名单系统。
2. 信息来源:
(1) 内部逾期、欺诈等客户信息。
(2) 爬虫抓到的老赖信息。
(3) 同业和贷款中介信息。
(4) 机器学习得到的其他风险信息。
三方数据整合服务
1. 公司买了很多三方数据源,比如银联数据、学历学籍信
息、驾驶证查询、人法执行记录等,十多种数据源50余
个不同接口。
2. 我们的三方数据整合服务,屏蔽了外部数据源的巨大差
异,对内提供统一的使用接口,并使用缓存来支持离线
分析。
3. 集中的费用记录和对账,方便用户进行管理。
决策执行引擎
Complex Filter
Plugin
RichData
Rule Engine
Rule3
Rule2
进件
RawData
知识图谱 日志
Complex Filter
Plugin
评分模型+不同维
度+多个特征变量
特征适配抽取,不同
维度+外部数据源
多条规则+批贷拒
贷码
业务规则
数据库
业务模型
数据库
规则编写和部署
统计报表
Rule1
评估特征
发现规则
决策
通知告警
决策分析平台-模块
数据接口
特征库
分析引擎
多数据源接入 数据预处理
特征管理 特征标准化 衍生特征关系
特征选取 模型训练 结果分析与验证
风险数据
中心
数据寻源 数据血缘图
特征版本
可视化展示 项目共享
业务主题域
特征共享
决策分析平台-流程
数据源1 数据源n
风险数据中心
样本集
特征集 标准化特征1
标准化特征n
衍生特征
项目(自助)
项目(自助)
业务分析A
业务分析B 经验共享
可视化展现
模型集
数据获取 特征选取
特征工程发布上线
规则1
决策引擎
规则2 规则n
感谢您的聆听!
2016年06月

More Related Content

PPTX
Spark Introduction
PDF
The Data Science Program 讓公共服務變聰明的《資料科學計畫》 (蔣居裕)
PDF
翟艳堂:腾讯大规模Hadoop集群实践
PDF
杨少华:阿里开放数据处理服务
PPT
Hadoop与数据分析
PPT
自下而上的数据仓库构建方法
PDF
Data Pipeline Matters
PDF
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
Spark Introduction
The Data Science Program 讓公共服務變聰明的《資料科學計畫》 (蔣居裕)
翟艳堂:腾讯大规模Hadoop集群实践
杨少华:阿里开放数据处理服务
Hadoop与数据分析
自下而上的数据仓库构建方法
Data Pipeline Matters
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況

What's hot (7)

PPT
2006/10/16 Proposal
PPT
YiYing's Proposal(950925)
PDF
電影期末簡報
PPTX
构建高可用数据库监控系统
PDF
2006-11-16 RFID and OSS for Agriculture
PPT
2006/11/20 Proposal
PDF
Pyconf2014 lightening
2006/10/16 Proposal
YiYing's Proposal(950925)
電影期末簡報
构建高可用数据库监控系统
2006-11-16 RFID and OSS for Agriculture
2006/11/20 Proposal
Pyconf2014 lightening
Ad

Viewers also liked (18)

PPTX
How to Build Successful Social Slots for the Asian Market | Guy Hasson
PPTX
Coach jae
PPTX
G:\CITERS2015\29May2015\2 Invited-Talk-2-Sidorko-Fred
PDF
Wassen_Commencement May_09_PLU
PPTX
Wayside school udl project - jennifer taylor-burton
PPTX
PDF
Cloud Native Data Pipelines (in Eng & Japanese) - QCon Tokyo
PPTX
Creating a compliance assessment program on a tight budget
PPTX
Toys on tour
PDF
PDF
PPTX
Tentacool e1
DOC
ΚΠΑ Γ' ΓΥΜΝΑΣΙΟΥ - 9.3 ΕΚΛΟΓΙΚΑ ΣΥΣΤΗΜΑΤΑ
PDF
外贸企业网站的定位和呈现(外贸企业定位)
PDF
[YOUKU-API]Training_For_BJ_Sales_Team
PDF
美团数据库运维平台介绍
PDF
姬望的故事
PDF
開源人生指南 - 如何不慎豐富人脈與經驗
How to Build Successful Social Slots for the Asian Market | Guy Hasson
Coach jae
G:\CITERS2015\29May2015\2 Invited-Talk-2-Sidorko-Fred
Wassen_Commencement May_09_PLU
Wayside school udl project - jennifer taylor-burton
Cloud Native Data Pipelines (in Eng & Japanese) - QCon Tokyo
Creating a compliance assessment program on a tight budget
Toys on tour
Tentacool e1
ΚΠΑ Γ' ΓΥΜΝΑΣΙΟΥ - 9.3 ΕΚΛΟΓΙΚΑ ΣΥΣΤΗΜΑΤΑ
外贸企业网站的定位和呈现(外贸企业定位)
[YOUKU-API]Training_For_BJ_Sales_Team
美团数据库运维平台介绍
姬望的故事
開源人生指南 - 如何不慎豐富人脈與經驗
Ad

Similar to Yisou intro (20)

PPT
Dmresearch
PPTX
機器學習工具介紹 / 机器学习工具介绍 Demos for Machine Learning Tools
PPT
腾讯大讲堂25 企业级搜索托管平台介绍
PDF
阿里巴巴数据中台实践分享.pdf
PPT
香港六合彩
PDF
Hadoop Big Data 成功案例分享
PPT
搜索引擎技术介绍
PPT
Java@taobao
PPT
数据挖掘技术概述及前景展望
PDF
選擇正確的Solution 來建置現代化的雲端資料倉儲
PDF
智慧化的IT架構管理
PDF
Greenplum技术
PDF
Emc keynote 1130 1200
PDF
数据分析架构实例与安全的云挖掘
PDF
阿里云 张旭 集群运维管理平台
PDF
集群运维管理平台
PDF
Dtcc ibm big data platform 2012-final_cn
PPTX
实时用户体验收集
PDF
特卖场景下的大数据平台和机器学习实践
PDF
Azure HDInsight 介紹
Dmresearch
機器學習工具介紹 / 机器学习工具介绍 Demos for Machine Learning Tools
腾讯大讲堂25 企业级搜索托管平台介绍
阿里巴巴数据中台实践分享.pdf
香港六合彩
Hadoop Big Data 成功案例分享
搜索引擎技术介绍
Java@taobao
数据挖掘技术概述及前景展望
選擇正確的Solution 來建置現代化的雲端資料倉儲
智慧化的IT架構管理
Greenplum技术
Emc keynote 1130 1200
数据分析架构实例与安全的云挖掘
阿里云 张旭 集群运维管理平台
集群运维管理平台
Dtcc ibm big data platform 2012-final_cn
实时用户体验收集
特卖场景下的大数据平台和机器学习实践
Azure HDInsight 介紹

Yisou intro