大数据面试题之葵花宝典——flume

葵花宝典——flume1. Flume组成,Put事务,Take事务2. Flume拦截器3. Flume Channel选择器4. Flume监控器5. Flume采集数据会丢失吗?(防止数据丢失的机制)6. Flume内存7. FileChannel优化

1. Flume组成,Put事务,Take事务

1、Taildir Source:断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置,实现
断点续传。
2、File Channel:数据存储在磁盘,宕机数据可以保存。但是传输速率慢。适合对数据传输可靠性要求高的场景
比如,金融行业。
3、Memory Channel:数据存储在内存中,宕机数据丢失。传输速率快。适合对数据传输可靠性要求不高的场景,
比如,普通的日志数据。
4、Kafka Channel:减少了Flume的Sink阶段,提高了传输效率。
5、Source到Channel是Put事务
6、Channel到Sink是Take事务

2. Flume拦截器

(1)拦截器注意事项
ETL拦截器和区分类型拦截器。
采用两个拦截器的优缺点:优点,模块化开发和可移植性;缺点,性能会低一些
(2)自定义拦截器步骤
a)实现 Interceptor
b)重写四个方法
 initialize 初始化
 public Event intercept(Event event) 处理单个Event
 public List<Event> intercept(List<Event> events) 处理多个Event,在这个方法中
调用Event intercept(Event event)
 close 方法
c)静态内部类,实现Interceptor.Builder

3. Flume Channel选择器

大数据面试题之葵花宝典------flume

4. Flume监控器

Ganglia

5. Flume采集数据会丢失吗?(防止数据丢失的机制)

不会,Channel存储可以存储在File中,数据传输自身有事务。

6. Flume内存

开发中在flume-env.sh中设置JVM heap为4G或更高,部署在单独的服务器上(4核8线程16G内存)
-Xmx与-Xms最好设置一致,减少内存抖动带来的性能影响,如果设置不一致容易导致频繁fullgc。

7. FileChannel优化

通过配置dataDirs指向多个路径,每个路径对应不同的硬盘,增大Flume吞吐量。
官方说明如下:
Comma separated list of directories for storing log files. Using multiple directories
on separate disks can improve file channel peformance

checkpointDir和backupCheckpointDir也尽量配置在不同硬盘对应的目录中,保证checkpoint坏掉后,可以
快速使用backupCheckpointDir恢复数据

大数据面试题之葵花宝典------Hadoop
大数据面试题之葵花宝典------Flink初级
大数据面试题之葵花宝典------flume

原创:https://www.panoramacn.com
源码网提供WordPress源码,帝国CMS源码discuz源码,微信小程序,小说源码,杰奇源码,thinkphp源码,ecshop模板源码,微擎模板源码,dede源码,织梦源码等。

专业搭建小说网站,小说程序,杰奇系列,微信小说系列,app系列小说

大数据面试题之葵花宝典------flume

免责声明,若由于商用引起版权纠纷,一切责任均由使用者承担。

您必须遵守我们的协议,如果您下载了该资源行为将被视为对《免责声明》全部内容的认可-> 联系客服 投诉资源
www.panoramacn.com资源全部来自互联网收集,仅供用于学习和交流,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。 敬请谅解! 侵权删帖/违法举报/投稿等事物联系邮箱:2640602276@qq.com
未经允许不得转载:书荒源码源码网每日更新网站源码模板! » 大数据面试题之葵花宝典——flume
关注我们小说电影免费看
关注我们,获取更多的全网素材资源,有趣有料!
120000+人已关注
分享到:
赞(0) 打赏

评论抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

您的打赏就是我分享的动力!

支付宝扫一扫打赏

微信扫一扫打赏