
任务流调度工具
文章平均质量分 86
任务流调度工具
IT贫道
10余年大数据架构行业工作经验,多年线下和线上大数据教学经验,专注于大数据技术分享。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Apache Airflow (十四) :Airflow分布式集群搭建及测试
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。原创 2023-11-28 11:00:17 · 1110 阅读 · 0 评论 -
Apache Airflow (十三) :Airflow分布式集群搭建及使用-原因及扩展
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。原创 2023-11-22 06:00:00 · 969 阅读 · 0 评论 -
Apache Airflow (十二) :PythonOperator
PythonOperator可以调用Python函数,由于Python基本可以调用任何类型的任务,如果实在找不到合适的Operator,将任务转为Python函数,使用PythonOperator即可。🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。原创 2023-11-21 06:45:00 · 1086 阅读 · 0 评论 -
Apache Airflow (十一) :HiveOperator及调度HQL
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。原创 2023-11-20 11:45:39 · 973 阅读 · 0 评论 -
Apache Airflow (十) :SSHOperator及调度远程Shell脚本
在实际的调度任务中,任务脚本大多分布在不同的机器上,我们可以使用SSHOperator来调用远程机器上的脚本任务。首先停止airflow webserver与scheduler,在node4节点切换到python37环境,安装ssh Connection包。注意在本地开发工具编写python配置时,需要用到SSHOperator,需要在本地对应的python环境中安装对应的provider package。🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。原创 2023-11-18 06:30:00 · 1150 阅读 · 0 评论 -
Apache Airflow (九) :Airflow Operators及案例之BashOperator及调度Shell命令及脚本
准备如下两个shell脚本,将以下两个脚本放在$AIRFLOW_HOME/dags目录下,BashOperator默认执行脚本时,默认从/tmp/airflow**临时目录查找对应脚本,由于临时目录名称不定,这里建议执行脚本时,在“bash_command”中写上绝对路径。在“bash_command”中写执行脚本时,一定要在脚本后跟上空格,有没有参数都要跟上空格,否则会找不到对应的脚本。🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。原创 2023-11-17 11:18:04 · 1698 阅读 · 0 评论 -
Apache Airflow (八) :DAG任务依赖设置
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。原创 2023-11-16 22:48:46 · 1616 阅读 · 0 评论 -
Apache Airflow (七) :DAG调度周期设置
每个DAG可以有或者没有调度执行周期,如果有调度周期,我们可以在python代码DAG配置中设置“schedule_interval”参数来指定调度DAG周期,可以通过以下三种方式来设置。timedelta是使用python timedelta 设置调度周期,可以配置天、周、小时、分钟、秒、毫秒。🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。原创 2023-11-15 08:15:00 · 966 阅读 · 0 评论 -
Apache Airflow (六) :DAG catchup 参数设置
如果catchup 设置为False,那么DAG将从2021-10-01 15:22:20(当前2021-10-01 15:23:21前一时刻)开始执行DAG run。在Airflow的工作计划中,一个重要的概念就是catchup(追赶),在实现DAG具体逻辑后,如果将catchup设置为True(默认就为True),Airflow将“回填”所有过去的DAG run,如果将catchup设置为False,Airflow将从最新的DAG run时刻前一时刻开始执行 DAG run,忽略之前所有的记录。原创 2023-11-14 07:15:00 · 1031 阅读 · 0 评论 -
Apache Airflow (五) :DAG调度触发时间
以上表格中以第一条数据为例解释,Airflow正常调度是每天00:00:00 ,假设当天日期为2021-09-04,正常我们认为只要时间到了2021-09-04 00:00:00 就会执行,改调度时间所处于的调度周期为2021-09-04 00:00:00 ~ 2021-09-05 00:00:00 ,在Airflow中实际上是在调度周期末端触发执行,也就是说2021-09-04 00:00:00 自动触发执行时刻为 2021-09-05 00:00:00。原创 2023-11-13 22:04:09 · 1084 阅读 · 0 评论 -
Apache Airflow (四) :Airflow 调度shell命令
更多DAG task依赖关系可参照官网:http://airflow.apache.org/docs/apache-airflow/stable/concepts/dags.html#task-dependencies。http://airflow.apache.org/docs/apache-airflow/stable/_api/airflow/models/dag/index.html 查看DAG参数说明,也可以直接在开发工具点击DAG进入源码看下对应参数有哪些。原创 2023-11-11 08:00:00 · 987 阅读 · 0 评论 -
Apache Airflow (三) :Airflow WebUI操作介绍
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。s。原创 2023-11-10 21:10:34 · 726 阅读 · 0 评论 -
Apache Airflow (二) : Airflow单机搭建
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。Airflow是基于Python的,就是Python中的一个包。安装要求Python3.6版本之上,Metadata DataBase支持PostgreSQL9.6+,MySQL5.7+,SQLLite3.15.0+。原创 2023-11-09 06:00:00 · 751 阅读 · 0 评论 -
Apache Airflow (一) : Airflow架构、术语、工作原理
Apache Airflow是一个提供基于DAG有向无环图来编排工作流的、可视化的分布式任务调度平台,与Oozie、Azkaban等任务流调度平台类似。Airflow在2014年由Airbnb发起,2016年3月进入Apache基金会,在2019年1月成为顶级项目。Airflow采用Python语言编写,提供可编程方式定义DAG工作流,可以定义一组有依赖的任务,按照依赖依次执行, 实现任务管理、调度、监控功能。原创 2023-11-08 05:00:00 · 5089 阅读 · 0 评论