
大数据
文章平均质量分 80
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯
七夜zippoe
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
从数据仓库到数据中台再到数据飞轮:电信行业的数据技术进化史
大家好,我是一名大数据开发工程师,电信行业作为高度数据驱动的行业,长期以来通过技术创新不断优化服务质量和业务运营。从最早期的数据仓库,到数据中台,再到如今的数据飞轮,电信行业的数据技术经历了几次重要的演化,这一进程伴随着行业业务需求、用户规模和技术水平的逐步提升。下面我将以我所了解到的知识来讲一下电信行业的数据技术进化史。电信行业的数据技术进化史,体现了从数据整合与分析,到数据治理与实时处理,再到动态迭代与智能优化的转变过程。原创 2024-12-25 09:12:30 · 1522 阅读 · 0 评论 -
数据驱动唤醒数据中台的数据
总之,唤醒数据中台的数据就是要让数据变得鲜活和有价值,使其能够参与到相关业务中。通过这些措施,我们可以实现数据的价值化,使数据真正成为业务决策和创新的核心动力。原创 2024-12-23 11:06:19 · 749 阅读 · 0 评论 -
数据中台与数据飞轮
企业在未来的数据战略中,需要两者兼顾、互补,从而在传统的数据中台和新兴的数据飞轮之间找到平衡位置,从而实现数据价值的最大化。融合与转型:数据中台并非与数据飞轮完全对立,未来的数据平台可能会融合两者的优点,在集中化管理的基础上,增加更多的灵活性和自适应能力,逐步向数据飞轮模式演进。对于数据治理起点较低的企业,数据中台仍然是必要的步骤。持续迭代:数据飞轮模式下,数据的收集、分析、应用是一个循环的过程,每一轮的数据利用都会对下一轮产生影响,形成一个正向反馈的闭环,能够不断自我增强。2. 数据飞轮的概念和优势。原创 2024-12-12 08:31:53 · 364 阅读 · 0 评论 -
Elasticsearch实战应用
Elasticsearch 是一个功能强大的搜索引擎和数据分析工具,能够快速处理和分析大量数据。无论是在日志处理、全文检索、实时监控还是复杂的业务分析中,它都展现出了极大的灵活性和可扩展性。在实战应用中,结合 Logstash/Filebeat、Kibana 等工具,可以进一步发挥其强大的数据处理能力。原创 2024-09-25 09:32:33 · 845 阅读 · 0 评论 -
数据中台过时了吗?为什么现在都在说数据飞轮?
尽管不再如以往那般炙手可热,数据中台仍在数据治理、标准化以及初步数据整合方面发挥着重要作用,特别对于数据治理起点较低的企业,它仍是必不可少的阶段。未来的数据平台可能会融合两者的优点,在集中化管理的基础上增加更多的灵活性和自适应能力,逐步向数据飞轮模式演进。因此,企业在制定未来数据战略时,应该平衡两者,充分发挥各自优势,以实现数据价值的最大化。技术的进步:云计算、大数据和人工智能等技术的发展,使得数据处理和分析更具分布式和智能化特征,为数据飞轮模式的实现提供了强有力的支持。原创 2024-09-15 14:29:38 · 385 阅读 · 0 评论 -
nacos和eureka的区别详解
Eureka 是一个较为轻量级的服务发现工具,特别适合 Java 微服务架构,尤其是与 Spring Cloud 集成时。而 Nacos 提供了更多的功能,如配置管理和动态 DNS,并支持多语言,适合需要更全面功能和灵活性的场景。在选择时,你需要考虑你的具体需求、技术栈和对功能的要求。原创 2024-09-14 17:53:27 · 718 阅读 · 0 评论 -
Pyecharts可视化数据大屏
为了让大屏更具视觉效果,你可以使用Grid类来更好地自定义布局。# 使用 Grid 布局# 将柱状图放在左边# 将折线图放在右边# 渲染大屏页面。原创 2024-09-04 08:17:56 · 566 阅读 · 0 评论 -
Flink开发语言使用java还是Scala合适
选择Java:如果团队对Java更熟悉,项目对代码的稳定性和可维护性要求高,并且需要与现有的Java生态系统集成。选择Scala:如果团队愿意尝试新的编程范式,项目需要快速迭代和开发,或者在大数据和分布式计算领域有特殊需求。最终的选择应根据团队的技能水平、项目需求、企业环境以及对新技术的接受度综合考虑。无论选择Java还是Scala,Flink都能提供强大的流处理能力,关键在于选择最适合团队和项目的语言。原创 2024-08-06 15:42:41 · 676 阅读 · 0 评论 -
Milvus--向量数据库
是一个开源的向量数据库,专为高维向量数据的存储、查询和检索而设计。它支持多种类型的向量数据,如浮点数向量、整数向量等,并且提供了强大的向量相似度计算功能。采用分布式架构,可以轻松地扩展到大规模数据集,同时保证了数据的一致性和可用性。原创 2024-06-05 16:07:27 · 1515 阅读 · 0 评论 -
Milvus中那些年重要的基本概念
Milvus是一款开源的云原生向量数据库,专为海量向量数据的存储、检索和管理而设计。它支持实时的向量相似度搜索,适用于各种AI和机器学习应用场景。原创 2024-05-12 09:52:56 · 844 阅读 · 0 评论 -
Cloudera的简介及安装部署
Cloudera是一家位于美国的软件公司,成立于2008年,专注于为企业客户提供基于Apache Hadoop的软件、支持、服务以及培训。Cloudera的开源Apache Hadoop发行版,即Cloudera Distribution including Apache Hadoop(CDH),是面向Hadoop企业级部署的。2018年10月,Cloudera与Hortonworks公司宣布以52亿美元的价格合并,这两家公司都是基于开源平台的。原创 2024-05-08 10:28:47 · 1007 阅读 · 0 评论 -
大数据组件之Storm详解
Storm 是一个免费并开源的分布式实时计算系统,具有高容错性和可扩展性。它能够处理无边界的数据流,并提供了实时计算的功能。与传统的批处理系统相比,Apache Storm 更适合处理实时数据。让我们深入了解一下。原创 2024-04-29 15:56:38 · 1584 阅读 · 2 评论 -
Eureka详解
Eureka是Netflix开源的服务发现框架,它是Spring Cloud体系中的核心组件之一,主要负责实现微服务架构中的服务注册与发现功能。原创 2024-04-26 08:29:50 · 1566 阅读 · 0 评论 -
Faiss原理和使用总结
Faiss是由Facebook AI团队开发的一个库,专门用于高维向量的相似性搜索和聚类,特别适合于处理大规模数据集。它的核心优势在于能够提供快速且准确的搜索结果,即使是在包含数十亿个向量的数据集中也不例外。这使得Faiss成为了机器学习和数据科学领域中一个不可或缺的工具,尤其是在需要处理大量数据的情况下。原创 2024-04-21 05:01:39 · 1725 阅读 · 0 评论 -
Kylin使用心得
Kylin是一个开源的分布式分析引擎,基于Apache Hadoop构建,专为处理大规模数据集而设计。Kylin的OLAP引擎能够对大规模数据集进行高效的多维分析查询。通过预计算和存储多维度的聚合数据,Kylin可以实现秒级的响应时间,这对于需要快速分析大数据的场景非常有用。Kylin提供了用户友好的管理界面和命令行工具,使得部署和管理变得相对简单。它也支持与Apache Hadoop生态系统的集成,可以很容易地与Hadoop集群集成。原创 2024-04-15 17:01:51 · 536 阅读 · 0 评论 -
FineBI概述
数据编辑功能允许用户在不编写任何代码的情况下,通过图形化界面进行数据的筛选、排序、分组和计算。FineBI的数据编辑工具简化了数据处理流程,使用户能够快速构建和优化数据模型,为后续的数据分析打下坚实基础。: FineBI的数据可视化功能包括丰富的图表库和自定义仪表板,支持数据的图形化展示。用户可以通过拖放组件来创建动态的、交互式的图表,这些图表可以帮助用户更直观地理解数据,并从中发现潜在的趋势和模式。: 对于需要进行数据预处理的场景,FineBI提供了数据开发工具,支持ETL和ELT数据开发模式。原创 2024-04-09 18:36:56 · 1868 阅读 · 0 评论