活动介绍

AWSKinesisDataFirehose目标与数据格式转换详解

立即解锁
发布时间: 2025-08-30 01:42:07 阅读量: 9 订阅数: 15 AIGC
### AWS Kinesis Data Firehose 目标与数据格式转换详解 #### 1. 引言 AWS Kinesis Data Firehose(KDF)是一项强大的数据传输服务,它可以将数据流轻松地发送到各种目的地,如 Amazon Elasticsearch Service(AES)、Splunk、HTTP 端点等。同时,KDF 还支持特定的数据格式转换,为大数据存储和查询提供了便利。本文将详细介绍 KDF 的不同目标设置以及数据格式转换的相关内容。 #### 2. 跨账户向 AES 域交付记录 在多 AWS 账户设置中,如果希望在一个账户中使用 AES 集中进行搜索和数据分析,而在多个其他账户中使用 KDF 进行数据摄取和交付,那么跨账户向 AES 域交付记录是非常有益的。要创建交付流并指定 AES 集群端点,需要使用 AWS CLI 或 KDF API,因为 AWS 控制台仅允许从同一账户和同一区域的预填充域下拉列表中进行选择。 #### 3. Splunk 目标 ##### 3.1 Splunk 简介 Splunk 是一个广泛应用于大小企业的软件平台,用于从各种数据源(如网站、机器、日志、设备、传感器和业务应用程序)收集、搜索、分析和可视化大量数据。KDF 将 Splunk 作为目标,方便那些将搜索和分析平台标准化为 Splunk 的企业将来自各种数据源以及与 KDF 集成的许多 AWS 服务的数据发送到 Splunk 进行轻松分析。 ##### 3.2 使用 Splunk 作为目标的前提条件 - 安装适用于 Amazon Kinesis Firehose 的 Splunk 附加组件。 - 设置并启用 HTTP 事件收集器(HEC)。 - 创建启用索引器确认的 HEC 令牌。 HEC 提供了一种通过 HTTP 或 HTTPS 协议将事件和数据发送到 Splunk 的机制,无需设置 Splunk 转发器。HEC 令牌是用于验证连接到 Splunk 并交付数据的客户端的手段,每个令牌是一个 128 位、32 个字符的全局唯一标识符(GUID)。 ##### 3.3 缓冲 KDF 会将传入的记录连接起来并进行缓冲。对于 Splunk 目标,缓冲区大小和缓冲间隔值分别设置为 5 MB 和 60 秒,且不可配置。如果需要在数据中使用记录分隔符,需要将其添加到发送给 KDF 的记录中,并确保 Splunk 能够解析数据。 ##### 3.4 数据转换和数据格式转换 支持使用 Lambda 转换进行数据转换,但不支持数据格式转换。数据转换的配置与之前描述的类似。 ##### 3.5 KDF 为 Splunk 部署模式 - 对于在 VPC 中运行的 Splunk 安装,Splunk 建议使用面向索引器的弹性负载均衡器(ELB),该负载均衡器暴露给互联网以将流量代理到索引器。KDF 仅支持启用基于持续时间的粘性会话且禁用 cookie 过期的经典负载均衡器(CLB),此时 ELB 域名系统(DNS)名称即为 Splunk 集群端点。 - 如果没有 ELB 并直接从 VPC 内将一个或多个 HEC 端点暴露给 KDF,需要确保附加了公共 IP 地址并且它们位于公共子网中,以便可以从互联网访问。此外,附加的安全组应具有入站规则,以提供对 KDF IP 地址的访问。 ##### 3.6 交付失败处理 当 KDF 向 Splunk 发送数据时,会启动确认计时器。如果 KDF 收到交付错误或在确认超时时间内未收到确认,它将重试请求并启动重试持续时间计数器。重试和 HEC 确认超时持续时间可以在 Splunk 目标配置中进行配置,重试持续时间为 0 到 7200 秒(0 到 2 小时),HEC 确认超时持续时间为 180 到 600 秒(3 到 10 分钟)。如果在重试持续时间到期后仍无法交付,数据将被发送到配置的备份 S3 存储桶中的 splunk - failed 文件夹。 ##### 3.7 Splunk 目标配置 要在 KDF 中设置 Splunk 目标,需要以下信息: - Splunk 集群端点:需要可公开访问,有关配置和检索端点的更多信息,请参阅 [文档](https://docs.splunk.com/Documentation/AddOns/released/Firehose/ConfigureFirehose)。 - Splunk 端点类型:可用值为 RAW(最常见的格式,可解析大多数格式)或 Event(需要特定的 JSON 格式)。使用 Event 时,需要使用 Lambda 转换将传入事件正确格式化为正确的 JSON 格式。 - 身份验证令牌:即 KDF 用于与 HEC 进行身份验证的 HEC 令牌。 - HEC 确认超时:HEC 确认的超时时间。 - 重试持续时间:KDF 在交付失败或未收到 Splunk HEC 确认时重试发送数据的时间段(以秒为单位)。 ##### 3.8 安全 对于 Splunk 目标,KDF 需要访问 HEC,还需要访问 S3 存储桶以写入和读取所有或失败的记录(取决于交付流的配置),如果启用了错误日志记录,还需要访问 CloudWatch 日志,如果启用了 Lambda 转换,需要访问 Lambda 函数,如果为 S3 启用了加密,需要访问指定的 KMS 密钥。这些访问权限通过在创建交付流时指定的 IAM 角色提供,IAM 策略与 S3 目标的策略类似。 #### 4. HTTP 端点目标 ##### 4.1 HTTP 端点目标概述 HTTP 端点目标使 KDF 能够通过 HTTPS 将数据发送到任何可访问的 HTTP 端点,该端点可以位于不同的 AWS 账户、不同的 AWS 区域、企业数据中心或其他任何地方。这一功能为数据摄取和处理提供了极大的灵活性,还可以通过 Amazon API Gateway 与许多其他 AWS 服务集成,如 Amazon DynamoDB 和 Amazon RDS。此外,一些第三方供应商也可以基于 HTTP
corwn 最低0.47元/天 解锁专栏
赠100次下载
继续阅读 点击查看下一篇
profit 400次 会员资源下载次数
profit 300万+ 优质博客文章
profit 1000万+ 优质下载资源
profit 1000万+ 优质文库回答
复制全文

相关推荐

勃斯李

大数据技术专家
超过10年工作经验的资深技术专家,曾在一家知名企业担任大数据解决方案高级工程师,负责大数据平台的架构设计和开发工作。后又转战入互联网公司,担任大数据团队的技术负责人,负责整个大数据平台的架构设计、技术选型和团队管理工作。拥有丰富的大数据技术实战经验,在Hadoop、Spark、Flink等大数据技术框架颇有造诣。
最低0.47元/天 解锁专栏
赠100次下载
百万级 高质量VIP文章无限畅学
千万级 优质资源任意下载
千万级 优质文库回答免费看

最新推荐

强化学习:从理论到实践的深入探索

### 强化学习:从理论到实践的深入探索 #### 1. 强化学习基础 强化学习是一种通过与环境进行交互以学习最优行为策略的机器学习方法。可以将其类比为玩超级马里奥游戏,玩家控制马里奥收集金币并避开障碍物,目标是在游戏结束前获得尽可能多的金币。强化学习的核心在于观察环境状态,选择合适的动作,以最大化累积奖励。 强化学习包含以下关键要素: - **环境(Environment)**:代表任务或模拟场景。在超级马里奥游戏中,游戏本身就是环境;自动驾驶中,道路和交通状况构成环境;AlphaGo下棋时,棋盘就是环境。环境接收智能体的动作作为输入,并输出状态和奖励。 - **智能体(Agent)**

问答系统:应用现状与未来方向

# 问答系统:应用现状与未来方向 ## 1. 常见问答系统介绍 ### 1.1 IBM Watson IBM Watson基于DeepQA项目开发,旨在参加Jeopardy!挑战赛,它综合利用文本和知识图谱数据源来提取问题答案,其处理流程如下: 1. **假设生成(Hypothesis Generation)** - **初步搜索(Primary search)**:目标是检索可能包含正确答案的所有内容,追求较高的召回率。使用多种文本搜索算法,如文档搜索、段落搜索,还利用SPARQL搜索知识库中的三元组。在DeepQA中,最优的初步搜索在前250个问题上实现了85%的召回率。

标记经验过程的数学框架

### 标记经验过程的数学框架 在统计学中,标记经验过程(Marked Empirical Processes,MEP)是一个重要的研究领域,它为广义线性模型的拟合优度检验提供了理论基础。下面将详细介绍标记经验过程的相关内容。 #### 1. 标记经验过程的基本类型 标记经验过程主要分为三种基本类型,它们的区别在于基于的误差类型(真实误差或估计误差)以及传播方向(固定方向或估计方向)。具体如下: | 类型 | 基于的误差 | 传播方向 | 符号表示 | | ---- | ---- | ---- | ---- | | BMEP | 真实误差 | 固定方向 | \(R_n\) | | EMEP

主成分分析与流形学习:高维数据处理的利器

# 主成分分析与流形学习:高维数据处理的利器 ## 1. 主成分分析(PCA)的应用 ### 1.1 PCA 降噪与特征选择 在处理高维数据时,主成分分析(PCA)是一种强大的工具。例如,在处理有噪声的数字数据时,我们可以利用 PCA 的信号保留和噪声过滤特性。在 64 个原始特征中,50% 的方差对应 12 个主成分。以下是具体的操作代码: ```python components = pca.transform(noisy) filtered = pca.inverse_transform(components) plot_digits(filtered) ``` 通过上述代码,我们计算

Python调试技巧全解析

### Python调试技巧全解析 #### 1. 通过日志进行调试 调试的核心在于检测程序内部的运行情况,找出意外或错误的影响。一种简单而有效的方法是在代码的关键部分输出变量和其他信息,让程序员能够跟踪程序的执行流程。 ##### 1.1 打印调试 这种方法的最简单形式是打印调试,即在调试时在特定点插入打印语句,以打印变量的值或程序的关键位置。 ##### 1.2 结合日志技术 将打印调试与日志技术相结合,可以创建程序执行的跟踪信息。这些跟踪信息在检测运行程序中的问题时非常有用,并且在使用测试框架运行测试时通常也会显示日志。 ##### 1.3 准备工作 从GitHub下载`debu

金融时间序列与面板数据分析模型详解

# 金融时间序列与面板数据分析模型详解 ## 1. 引言 在不断变化的经济环境中,时间序列分析对于理解会计和金融数据的动态、挖掘隐藏模式以及做出明智决策至关重要。它能够帮助分析金融变量的行为、预测未来趋势、识别潜在风险因素,并评估金融政策和策略的有效性。接下来,我们将详细介绍几种常用的时间序列模型和面板数据模型。 ## 2. 向量误差修正模型(VECM) ### 2.1 模型概述 向量误差修正模型(VECM)是误差修正模型(ECM)的多元扩展,用于建模和分析多个协整时间序列的长期和短期动态。它特别适用于研究具有长期均衡关系的多个非平稳变量之间的关系。其框架可以表示为: $\Delta X_

PowerBI高级可视化与交互技巧

# Power BI 高级可视化与交互技巧 ## 1. 报告主题自定义 在 Power BI 中,你可以自定义一组颜色,将其自动应用于表格、矩阵和图表中的数据。这需要创建一个特定格式的简单文件,然后将其加载到 Power BI Desktop 中。该文件必须包含以下元素: - 主题名称 - 用方括号括起来并用逗号分隔的一组数据颜色 - 背景元素 - 前景元素 - 表格的强调元素 ### 操作步骤: 1. 从示例数据中加载名为 BrilliantBritishCars.json 的 .json 文件。 2. 在“格式”功能区中,点击“主题”弹出窗口,选择“浏览主题”,然后浏览到你刚刚创建的文

机器学习模型部署的多方面考量

### 机器学习模型部署的多方面考量 在机器学习领域,模型的公平性、性能、上下文信息以及对抗恶意攻击等方面都是需要重点关注的内容。下面将详细探讨这些关键问题。 #### 模型公平性的量化与解决 在处理模型偏差时,仅移除一个特征可能无法有效消除偏差,甚至可能使偏差更难察觉。为了更好地解决这一问题,我们需要明确公平性约束条件。例如,可以采用 M. B. Zafar 等人在论文中提出的方法,使用 p% 规则来衡量模型的公平性。 - **p% 规则定义**:具有某一敏感属性值的主体获得积极结果的百分比与不具有该值的主体获得相同结果的百分比之比应不小于 p:100。 - **作用**:该规则能帮助

贝叶斯线性回归:原理、实践与R语言实现

### 贝叶斯线性回归:原理、实践与R语言实现 #### 1. 贝叶斯线性回归概述 贝叶斯线性回归是一种强大的统计建模方法,在处理线性关系问题时具有独特的优势。在传统线性回归中,我们假设存在预测变量 $x$ 和目标变量 $y$,它们之间的关系可以表示为 $y = w_0 + w_1x + \epsilon$,其中 $\epsilon$ 服从均值为 0、方差为 $\sigma^2$ 的正态分布。为了方便,我们有时将 $\sigma^2$ 写作 $1/\beta$,并将 $\beta$ 称为精度。 在贝叶斯方法中,我们不把权重 $w^T = (w_0, w_1)$ 看作固定但未知的值,而是将其