
大数据
文章平均质量分 87
house.zhang
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据AI Notebook产品介绍和对比
背景大数据数据需要查询分析可视化工具,AI数据挖掘和探索也需要相关可视化编辑工具,开源产品主要有两个一个是Zeppelin notebook 一个是jupyter notebook,其中juypter主要用于数据科学家、算法分析人员使用python进行数据分析、算法建模,相关企业如aws、百度、腾讯都有基于jupyter notebook去进行定制化开发,zeppelin notebook比较偏重于大数据数据查询分析可视化,支持多种大数据计算引、存储引擎擎如:Spark、Flink、Hive、Kylin等原创 2022-03-24 17:44:20 · 4680 阅读 · 0 评论 -
大数据Ambari自定义服务详细介绍
一、背景知识介绍Ambari 内置服务包括Ambari 自己都是以rpm 包方式存放于repositories中。Ambari 一般有四个 repositories,具体如下:1.Ambari:存放 ambari server, ambari agent, 和相关监控软件2.HDP:存放 stack 软件包3.HDP-UTILS:存放安装 Ambari 和 HDP 的公用包,例如:Ganglia, Nagios, Snappy, Rrd 等4.EPEL:存放企业版本 Linux 所需的额外包,原创 2022-03-23 16:14:37 · 5608 阅读 · 0 评论 -
推荐系统的那些事儿
问题背景我们周围存在大量的文字、语音、视频等信息,比如网络购物玲琅满目的商品信息,浏览抖音各种类型的信息,一个互联网产品是否具有吸引力,是看其有多智能,能够让用户发较小的时间能够获取他感兴趣的内容,这里面少不了推荐系统的作用了,它已经渗透到我们生活中的方方面面,他们解决的问题的本质都是一一样的,就是为了解决:“信息”过载的情况下,用户如何高效获取感兴趣的信息。在浩如烟海的互联网信息中和用户兴趣点之间,搭建起一座桥梁。逻辑结构推荐系统主要处理的是人和物的关系,描述一个人 可以从性别、年龄、原创 2022-03-03 20:00:00 · 426 阅读 · 0 评论 -
在线学习FTRL介绍及基于Flink实现在线学习流程
背景目前互联网已经进入了AI驱动业务发展的阶段,传统的机器学习开发流程基本是以下步骤:数据收集->特征工程->训练模型->评估模型效果->保存模型,并在线上使用训练的有效模型进行预测。这种方式主要存在两个瓶颈:模型更新周期慢,不能有效反映线上的变化,最快小时级别,一般是天级别甚至周级别。另外一个是模型参数少,预测的效果差;模型参数多线上predict的时候需要内存大,QPS无法保证。针对这些问题,一般而言有两种解决方式:一种是采用On-line-learning的算法原创 2022-03-01 21:39:51 · 2712 阅读 · 0 评论 -
Flink on K8s 企业生产化实践
背景为了解决公司模型&特征迭代的系统性问题,提升算法开发与迭代效率,部门立项了特征平台项目。特征平台旨在解决数据存储分散、口径重复、提取复杂、链路过长等问题,在大数据与算法间架起科学桥梁,提供强有力的样本及特征数据支撑。平台从 Hive 、Hbase 、关系型数据库等大数据 ODS ( Operational Data store ) 层进行快速的数据 ETL ,将数据抽取到特征平台进行管理,并统一了数据出口,供数据科学家、数据工程师、机器学习工程师做算法模型的数据测试、训练、推理及其他数据应用原创 2022-02-22 11:04:33 · 2080 阅读 · 1 评论 -
构建可靠、可扩展与可维护的应用系统
当前的应用系统,通常数据量比较大、数据复杂度比较高以及数据快速多变,可以把这样的系统称之为数据密集型系统,数据密集型系统通常基于不同的模块组件进行构建,根据不同的功能采用不同的组件,各个组件相互配合组合成一个功能强大、满足不同需求场景的应用系统,比如一个互联网系统通常由类似以下结构组成:数据库:主要产品是mysql,用于存储和持久化数据,一遍数据能够多次访问。高速缓存:主要产品有Redis、Memcached缓存那些经常要访问以及复杂计算和操作的数据,用来加快数据的返回,减少数据库压力,扩大系统并发原创 2021-10-28 22:06:17 · 3175 阅读 · 0 评论