微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

ELK使用系列-1.2 开源日志系统

常见开源的日志系统有Cloudera的Flume、Facebook的Scribe、Apache的Chukwa、LinkedIn的Kafka和Elasticsearch stack(即ELK)。

  1. Scribe

Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用。它能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NFS,分布式文件系统等)上,以便于进行集中统计分析处理。它为日志的“分布式收集,统一处理”提供了一个可扩展的,高容错的方案。它最重要的特点是容错性好。其安装非常复杂,主要是因为其依赖的包,需要设置的环境变量非常多,另外,它与Hadoop兼容不好,安装需要技巧。

图 1.1‑3 Scribe系统结构

 

图 1.1‑4 Scribe系统架构

如上图所示,Scribe从各种数据源上收集数据,放到一个共享队列上,然后push到后端的中央存储系统上。当中央存储系统出现故障时,scribe可以暂时把日志写到本地文件中,待中央存储系统恢复性能后,scribe把本地日志续传到中央存储系统上。

  1. Chukwa

Chukwa是一个非常新的开源项目,由于其属于Hadoop系列产品,因而使用了很多Hadoop的组件(用HDFS存储,用MapReduce处理数据),它提供了很多模块以支持Hadoop集群日志分析。Chukwa中主要有3种角色,分别为:adaptor,agent,collector。其架构如下图所示:

图 1.1‑5 Chukwa架构设计

Adaptor可封装其他数据源,包括系统参数数据、应用程序度量数据、Hadoop logs等。

Agent给adaptor提供各种服务,包括:启动和关闭adaptor,将数据通过HTTP传递给Collector;定期记录adaptor状态,以便crash后恢复。

Collector对多个数据源发过来的数据进行合并,然后加载到HDFS中;隐藏HDFS实现的细节,如,HDFS版本更换后,只需修改collector即可。

  1. Kafka

Kafka是2010年12月份开源的项目,采用scala语言编写,使用了多种效率优化机制,整体架构比较新颖(push/pull),更适合异构集群。该系统具有高吞吐率、分布式架构、支持数据加载到Hadoop特点。

Kafka中主要有三种角色,分别为producer(生产推送者),broker(消息中间人)和consumer(日志消费者),其中broker管理一系列topic(消息主题)。

Kafka实际上是一个消息发布订阅系统。producer向某个topic发布推送消息,而consumer订阅某个topic的消息,进而一旦有新的关于某个topic的消息,broker会传递给订阅它的所有consumer。 在Kafka中,消息是按topic组织的,而每个topic又会分为多个partition,这样便于管理数据和进行负载均衡。同时,它也使用了zookeeper进行负载均衡。

图 1.1‑6 Kafka架构设计

  1. Flume

Flume是cloudera于2009年7月开源的日志系统。它内置的各种组件非常齐全,用户几乎不必进行任何额外开发即可使用。

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。

Flume 运行的核心是 Agent。Flume以agent为最小的独立运行单位。一个agent就是一个JVM。它是一个完整的数据收集工具,含有三个核心组件,分别是source、 channel、 sink。通过这些组件, Event 可以从一个地方流向另一个地方,如下图所示

图 1.1‑7 Flume工作流程图

Flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位,它携带日志数据(字节数组形式)并且携带有头信息,这些Event由Agent外部的Source生成,当Source捕获事件后会进行特定的格式化,然后Source会把事件推入(单个或多个)Channel中。你可以把Channel看作是一个缓冲区,它将保存事件直到Sink处理完该事件。Sink负责持久化日志或者把事件推向另一个Source。

 

为什么选择ELK作为分布式日志搜索引擎呢?

根据2018年最新出炉的数据引擎排名显示,Elasticsearch已进入前十。对比其他数据引擎,ES在日志分析领域优势显著。

表 1.1‑1 开源分布式日志对比

 

scribe

chukwa

kafka

cloudera

Elasticsearch

实现语言

C/C++

JAVA

scala

java

java

框架

push/push

push/push

push/push

push/push

push/push

容错性

一般

可扩展性

负载均衡

使用zookeeper

使用zookeeper

store

直接支持HDFS

直接支持HDFS

直接支持HDFS

直接支持HDFS

直接支持HDFS

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐