在线公开课——《大数据处理工作流调度系统》-Hadoop技术-公开课专区-小象社区-是一个分享大数据技术的专业社区论坛 -
 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 2694|回复: 3

在线公开课——《大数据处理工作流调度系统》

[复制链接]
发表于 2014-1-2 11:42:33 | 显示全部楼层 |阅读模式
活动类型:
线上活动
开始时间:
2014-1-14 19:30 至 2014-1-14 21:30 商定
活动地点:
在线PPT+语音
性别:
不限
已报名人数:
127
报名截止:
2014-1-14 19:00
  • 活动查看
  • 活动相册
  • 已参加人数

主题:大数据处理工作流调度系统
               ——oozie及相关产品介绍
时间:2014年1月14日 19:30-21:30


课程介绍:

oozie概述
适合使用oozie的情景
oozie的实现原理及特点
oozie的核心组件(各action介绍)
oozie实战及Tips
oozie的编程接口介绍
支持oozie的图形化开源ETL工具Kettle初探
总结展望


主讲人:邱腾

专注于BI大数据架构及解决方案,精通网络数据、市场数据分析,早年泡过sunnet IRC,架过firebird BBS。
06年曾任职于新浪网络系统部,后转战德国科研机构Fraunhofer;
08年开始接触hadoop/MapReduce,曾主导项目,通过整合Hadoop的各种组件使德国联盟广告商Zanox公司将海量tracking数据转化为DMP并成功与多家RTB和DSP平台对接。
现在欧洲最大的电商平台德国Zalando公司任大数据架构师
网名:chutium,个人主页:http://www.abcn.net/
微博:@邱腾邱导导 http://weibo.com/tengqiu/
参考文章:
http://www.abcn.net/2013/12/apache-oozie-tips.html

过往公开课视频回放地址:
http://www.chinahadoop.cn/course/explore/open

已通过 (127 人)

  留言 带朋友 申请时间
liulangdaocao 0 2014-1-14 18:16
neke2002 0 2014-1-14 18:12
frankgoahead 0 2014-1-14 18:07
huozhanfeng0 0 2014-1-14 17:24
wanghua_zwh 0 2014-1-14 17:11
twtbgn 0 2014-1-14 17:09
flfljh 0 2014-1-14 16:43
hanyi366 0 2014-1-14 16:29

已通过 (127 人)

  留言 申请时间
liulangdaocao 2014-1-14 18:16
neke2002 2014-1-14 18:12
frankgoahead 2014-1-14 18:07
huozhanfeng0 2014-1-14 17:24
wanghua_zwh 2014-1-14 17:11
twtbgn 2014-1-14 17:09
flfljh 2014-1-14 16:43
hanyi366 2014-1-14 16:29

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

发表于 2014-6-23 19:18:27 | 显示全部楼层
oozie的coordinator job中可以使用诸如${HOUR}这类信息,wf job中可以直接使用吗?如果不能的话,我用sqoop从oracle数据库中定时增量取数据该怎么取出来呢?
回复

使用道具 举报

发表于 2014-6-24 22:23:41 | 显示全部楼层
本帖最后由 chutium 于 2014-6-24 22:24 编辑

可以的,coordinator中的所有变量都可以传给workflow,比如你要从coord传当前时间到workflow,就可以把action写成这样
      <action>
        <app-path>${nameNode}/xxx</app-path>
        <configuration>
            <property>
              <name>actualTime</name>
              <value>${coord:formatTime(coord:actualTime(), 'yyyy-MM-dd HH')}</value>
            </property>
         </configuration>
      </action>

workflow那边就会得到一个${actualTime}变量,值是 2014-06-24 22

你想要什么值,改改dateformat就行了
回复

使用道具 举报

发表于 2014-6-26 21:26:34 | 显示全部楼层
chutium 发表于 2014-6-24 22:23
可以的,coordinator中的所有变量都可以传给workflow,比如你要从coord传当前时间到workflow,就可以把acti ...

首先谢谢老师的回答,这两天忙着弄东西也没来回复,抱歉了,今天来麻烦一下老师。

终极问题,怎么做定时任务调度?

需求:我们要做一个定时调度,以整合整个集群,现在是用flume取数据已经完成了,即数据能按时同步到hdfs上了,我们现在的需求举个例子说吧:我要在每天的凌晨1点10处理凌晨0点到1点的数据,因为Apache的日志是一条条往里写,所以我们用的flume也是一条一条的同步的,这时候hdfs上会有两个文件(简单起见,只有两个)2014-06-26_00.log和2014-06-26_01.log ,包含0点到1点之间的数据的日志文件是完整的,1点之后的文件还在不停的同步数据,这时候我想要处理0点到1点的那个日志文件,想通过PIG的UDF来控制文件名称,但是pig的load语句中不能使用UDF,这条路就断了,当时对oozie又不熟悉,后来看到您的回复,想到通过oozie获取当前action时间,然后加上数据路径,就能确定那个文件就是上一小时的数据,但是今天实现的时候提示formatTime方法不存在 No function is mapped to the name "coord:formatTime",所以就卡在这了,过来向您请教。不知道是什么原因。

如果上述的方法解决不了的话,我们想到的最后一个笨办法就是通过pig清洗数据的时候加载hdfs目录下所有文件中的数据,用load专用函数只选取上一个小时的数据,但是这样效率太低,也不是长久之计。

想请问一下您公司里是怎么做定时调度的,折腾好几天了,希望您能在百忙中抽点时间回复一下,不胜感激。
紧急联系方式:
邮箱:907231810@qq.com
电话:15652307917
网址:www.mamingyu.com

再次感谢
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|小象科技 ( 京ICP备14002699号

Powered by Discuz! X3.1 © 2001-2013 All Rights Reserved