大数据面试题之葵花宝典

推荐课程:学习猿地--大数据开发工程师--点击进入

葵花宝典------flume

  1. Flume组成,Put事务,Take事务
  2. Flume拦截器
  3. Flume Channel选择器
  4. Flume监控器
  5. Flume采集数据会丢失吗?(防止数据丢失的机制)
  6. Flume内存
  7. FileChannel优化
  1. Flume组成,Put事务,Take事务
    1、Taildir Source:断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置,实现
    断点续传。
    2、File Channel:数据存储在磁盘,宕机数据可以保存。但是传输速率慢。适合对数据传输可靠性要求高的场景
    比如,金融行业。
    3、Memory Channel:数据存储在内存中,宕机数据丢失。传输速率快。适合对数据传输可靠性要求不高的场景,
    比如,普通的日志数据。
    4、Kafka Channel:减少了Flume的Sink阶段,提高了传输效率。
    5、Source到Channel是Put事务
    6、Channel到Sink是Take事务
    1
    2
    3
    4
    5
    6
    7
    8
    9
  2. Flume拦截器
    (1)拦截器注意事项
    ETL拦截器和区分类型拦截器。
    采用两个拦截器的优缺点:优点,模块化开发和可移植性;缺点,性能会低一些
    (2)自定义拦截器步骤
    a)实现 Interceptor
    b)重写四个方法
      ?    initialize 初始化
      ?    public Event intercept(Event event) 处理单个Event
     ?    public List<Event> intercept(List<Event> events) 处理多个Event,在这个方法中
         调用Event intercept(Event event)
     ?    close 方法
    
    c)静态内部类,实现Interceptor.Builder
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
  3. Flume Channel选择器
    file

  4. Flume监控器
    Ganglia
    1

  5. Flume采集数据会丢失吗?(防止数据丢失的机制)
    不会,Channel存储可以存储在File中,数据传输自身有事务。
    1
  6. Flume内存
    开发中在flume-env.sh中设置JVM heap为4G或更高,部署在单独的服务器上(4核8线程16G内存)
    -Xmx与-Xms最好设置一致,减少内存抖动带来的性能影响,如果设置不一致容易导致频繁fullgc。
    1
    2
  7. FileChannel优化
    通过配置dataDirs指向多个路径,每个路径对应不同的硬盘,增大Flume吞吐量。
    官方说明如下:
    Comma separated list of directories for storing log files. Using multiple directories
    on separate disks can improve file channel peformance

checkpointDir和backupCheckpointDir也尽量配置在不同硬盘对应的目录中,保证checkpoint坏掉后,可以
快速使用backupCheckpointDir恢复数据
大数据面试题之葵花宝典------flume

标签:ESS 拦截器 实现 自身 注意事项 区分 etl 多个 说明

原文地址:https://www.cnblogs.com/shan13936/p/13892305.html

Image placeholder
milkytsu
未设置
  0人点赞

没有讨论,发表一下自己的看法吧

推荐文章
大数据面试题之葵花宝典------flume

推荐课程:Linux开发工程师--学习猿地--送6个上线商业项目 葵花宝典------flume Flume组成,Put事务,Take事务 Flume拦截器 FlumeChannel选择器 Flume

【搞定 Java 并发面试】面试最常问的 Java 并发基础常见面试题总结!

Java并发基础常见面试题总结 1.什么是线程和进程? 1.1.何为进程? 进程是程序的一次执行过程,是系统运行程序的基本单位,因此进程是动态的。系统运行一个程序即是一个进程从创建,运行到消亡的过程。

两万字的数据库面试题,不看绝对后悔

一、基本概念1.主键、外键、超键、候选键超键:在关系中能唯一标识元组的属性集称为关系模式的超键。一个属性可以为作为一个超键,多个属性组合在一起也可以作为一个超键。超键包含候选键和主键。候选键:是最小超

阿里面试题:如何保证缓存与数据库的双写一致性?

作者:你是我的海啸出处:https://blog.csdn.net/chang384915878/article/details/86756463只要用缓存,就可能会涉及到缓存与数据库双存储双写,你只

【分享】2020年大前端面试题库 - 备战明年金三银四

https://segmentfault.com/a/119000002122195...2020年大前端面试题库-备战明年金三银四前端面试 阅读约10分钟写在前面现在面试文章已很多,更不觉得新鲜,本

干货满满 | 来自灵魂的拷问-这21道Redis面试题

1、使用redis有哪些好处?速度快,因为数据存在内存中,类似于HashMap,HashMap的优势就是查找和操作的时间复杂度都是O(1)支持丰富数据类型,支持string,list,set,sort

面试题总结:可能是全网最好的MySQL重要知识点

作者:Snailclimb 整理编辑:SegmentFault本文原载于SegmentFault专栏JavaGuide,如侵删。标题有点标题党的意思,但希望你在看了文章之后不会有这个想法——这篇文章是

面试题:请解释一下什么是虚拟内存?

内存对于用户来说就是一个字节数组,我们可以根据地址来访问到某个字节或者某些字节:很久之前的内存很久很久之前,一台机器上只放置一个程序,操作系统仅仅作为一个函数库存在。对于内存来说,除去操作系统的代码和

面试题:如何理解 Linux 的零拷贝技术?

本文讲解Linux的零拷贝技术,云计算是一门很庞大的技术学科,融合了很多技术,Linux算是比较基础的技术,所以,学好Linux对于云计算的学习会有比较大的帮助。本文借鉴并总结了几种比较常见的Linu

PHP面试题

是总监面试的我,目前对我来说,是很有难度的。 1个进程执行是1s,10个进程同时执行是多长时间,1万个进程同时执行是多长时间?也是1s吗?我觉得这个问题,涉及到了进程间的切换么? 这两个执行,那个会

关于面试题:[1, 2, 3].map(parseInt)问题的剖析

一、前言最近有小伙伴在公号中咨询了胡哥这道面试题,窃以为是比较有意思的一道面试题,于此分享给各位小伙伴。先把答案给了各位,和你理解的一样吗?![1,2,3].map(parseInt)//[1,NaN

JS面试题

推荐课程:java开发工程师--学习猿地精品在线课 1.利用正则来统计字符串出现最多的元素 2.优先级 3.解析url参数 4.关于对象的一道面试题当对象作为key时,后面的会覆盖前面的 5.原型链问

一道阿里Web前端面试题看出你的JS基本功

课程推荐:web全栈开发就业班--拿到offer再缴学费--融职教育 //求出如下题目结果({}+{}).length([]+[]).length(function(){}).length这道题目乍一

2020年中大厂前端面试题(总结)

课程推荐:web全栈开发就业班--拿到offer再缴学费--融职教育 本次面试面试了很多家公司,包括360,美团,猿辅导,小米,腾讯地图,头条,新东方,快手,知乎等几家公司,刚开始去面试的时候那段时间

大数据时代,数据湖并不能完全取代数据仓库

数据仓库为组织了解其历史业务表现和推动持续运营提供了一个接入窗口,为数据分析师和业务用户提供了诸如客户行为、业务趋势、运营效率和销售等方面的信息。尽管出现了基于Hadoop和其他一些大数据技术的数据湖

从关系型数据库到分布式机器学习,揭秘腾讯大数据十年发展历程

大数据技术在过去10多年中极大改变了企业对数据的存储、处理和分析方式。如今,大数据技术逐渐成熟,涵盖了计算、存储、数仓、数据集成、可视化、NOSQL、OLAP分析、机器学习等丰富领域。在未来,大数据技

大数据是个技术,数据库才是它最好的产品形态

星环科技(以下简称:星环)的定位是大数据基础软件公司,而非数据库公司,却在数据库方面,做的比很多数据库公司更好更猛?这是为何?“我们认为,大数据是个技术,数据库才是它最好的产品形态”,星环科技研发总监

做银行家里的数据专家:ING探索大数据时代下的金融最佳实践

大数据文摘出品记者:高延6月18-21日,O’ReillyAIConference在北京召开。大会上,来自荷兰的金融公司ING的IT主管BasGeerdink带来了《关于数字驱动企业》的主题分享。进入

包银消费CTO汤向军:消费金融大数据风控架构与实践

01风险在哪里1.1 信用风险根据银行业的风险理论,信用风险是指借款人因各种原因未能及时、足额偿还债权人或银行贷款而违约的可能性。信用风险的风控重点在于,甄别客户违约的原因究竟是还款能力,还是还款意愿

耗时6年生成代码1.6亿行,农业银行大数据平台打造攻略!

摘要: 耗时6年,135个项目,8000页需求,累计投入11000多人月,生成的代码行1.6亿行,支持了8大业务领域,33条业务线,120多个应用场景,这就是中国农业银行大数据平台。近日,中国人民银行

大数据推动教育产业创新发展

《大数据时代》作者维克托•迈尔-舍恩伯格教授著作《与大数据同行:学习和教育的未来》一书指出:当下大数据正悄悄影响到教育体系的每个层面,对于全世界的学习与教育活动,都会产生极为深远的影响。AI辅助教学,

大数据对移动应用开发的影响

大数据如何影响移动应用程序开发?目前,数据量正以前所未有的速度在增长。由于产生的总数据将在几年内跨越泽字节级别,因此更加需要进行大数据高级分析,并从庞大的数据池中获取有价值的信息。数字互联为移动应用开

建立开放的大数据精准扶贫平台,让全社会参与进来!

精准扶贫”的重要思想最早是在2013年11月,习近平主席到湖南湘西考察时首次作出了“实事求是、因地制宜、分类指导、精准扶贫”的重要指示。2015年6月,习近平主席在贵州召开部分省区市党委主要负责同志座

判菜系、调众囗、打分数,这一回,我们用大数据烧菜?

大数据文摘投稿作品作者:blmoistawinde年前,文摘菌曾经扒下了全网所有“年夜饭”菜谱,找到了最有年味的一道菜的一文,对于菜谱数据分析产生了浓厚的兴趣,遂自己也写了个爬虫爬取了某美食网站的一些

1000亿文本信息,高并发MD5查询,这么大数据量的业务怎么弄?

==提问== 沈老师,你好,想请教一个身份证信息检索的问题。公司有一个每秒5万并发查询的业务,(假设)根据身份证MD5查询身份证信息,目前有1000亿条数据,纯文本存储,前几天看你写LevelDB,请