阅读更多

1顶
0踩

开源软件

原创新闻 Apache Flink :回顾2015,展望2016

2016-02-16 15:56 by 副主编 mengyidan1988 评论(0) 有5983人浏览
回顾2015,总体而言Flink在功能方面已经从一个引擎发展成为最完整的开源流处理框架之一。与此同时,Flink社区也从一个相对较小,并且地理上集中的团队,成长为一个真正的全球性的大型社区,并在Apache软件基金会成为最大的大数据社区之一。接下来看看一些有趣的统计数据,其中就包括Flink每周最繁忙的时间是星期一,肯定出乎很多人所料:)

社区发展

首先,我们从Flink的GitHub库中看一些简单的统计。在2015年,Flink社区规模扩大了一倍,人数从大约75名贡献者超过150名。从2015年2月至2015年12月,其github库的复制数量超过了三倍,从160增长至544,而其star数目的增长也接近3倍,从289增至813。



尽管Flink创建于德国柏林,然而现在其社区遍布全球,拥有来自北美,欧洲以及亚洲的许多贡献者。在著名线下交友网站meetup.com上做一个简单的关于提及Flink作为重点领域的组织的搜索,搜索结果表明全世界有16个这样的组织:



2015 Flink 推进会

毫无疑问,对于Flink而言,2015年的最重要的事件之一就是10月份在柏林举办的Flink 推进会,这是Apache Flink的首次会议。来自谷歌,MongoDB,布依格斯电信,NFLabs,Euranova,RedHat,IBM,华为,Intel,爱立信,Capital One,Zalando,Amadeus,the Otto Group和ResearchGate的250多名的参会者(大约一半总部位于德国以外),参加了超过33的技术会谈。如果你想了解这些技术会议的内容,可以通过Flink Forward网站查看相关幻灯片和视频。



有趣的是,在 2016年 EMEA Hadoop峰会已提交的议题和摘要中, 提及Flink的高达17个议题:



趣味统计:开发人员(提交者)何时提交代码?

为了更深入的了解发生在Flink社区的事情,让我们在这个项目的 git 日志上做一些分析:-) ,最简单的做法是在 git 库中统计2015年提交的总数目。运行如下代码:
git log --pretty=oneline --after=1/1/2015  | wc -l

2015年Flink git库总共产生2203次提交。为了更深入地探究提交者的行为,我们将使用一个称为gitstats的开源工具进行分析,这将会带来一些有趣的统计结果。你可以通过以下四个简单的步骤来创建并更多了解:

1.从 project homepage..下载gitstats,举个例子:在OS X上使用自带软件,键入:
brew install --HEAD homebrew/head-only/gitstats

2.克隆Apache Flink git库:
git clone git@github.com:apache/flink.git

3.利用gitstats产生统计数据:
gitstats flink/ flink-stats/

4.在你常用的浏览器中(例如:chrome)查看统计页面:
chrome flink-stats/index.html

首先,我们可以观察到从Apache项目孵化开始,Flink的源代码行数一直平稳增长,在2015年,其代码库几乎翻了一番,源代码行数从500,000增至900,000。



当Flink的开发者提交代码时,可以发现一个有趣的现象,到目前为止,代码都是集中在周一下午进行提交。



功能时间图

下面是一个(非详尽)的时间顺序图,用于显示在2015年,Flink以及Flink生态系统新增了哪些主要功能:



2016年发展蓝图

Flink社区已经开始讨论今后Flink的发展蓝图,下面列举一些主要内容:

流式作业运行时伸缩:流式作业需要不间断运行,并且需要对一个不断变化的环境作出反应。运行时伸缩意味着为了支持特定的服务等级协议,从而动态地增加和减少作业的并行度,或者对输入的吞吐量变化作出反应。

针对静态数据集和数据流的SQL查询:用户以Flink 表 API 为基础,可以通过编写SQL语句查询静态数据集,以及针对数据流进行查询从而连续产生新的结果。

有托管内存支持的流运算:目前,流运算像用户自定义状态和窗口都是由JVM堆对象支持。将这些内容移至Flink托管内存会增加溢出到磁盘的能力,垃圾回收效率的能力,从而可以更好地控制内存的使用。

检测时间事件模式库:在流处理中经常要检测一个时间戳的事件流模式。Flink通过事件时间,对此进行了支持,利用库的形式可以实现很多诸如此类的操作。

对Apache Mesos以及动态资源YARN的支持:同时支持Mesos 以及 YARN,包括动态分配和资源释放,从而获得更多资源弹性(包括批处理和流式处理)。

安全性:对TaskManagers 和 JobManager之间的信息交换以及workers之间的数据交换连接,都进行加密。

更加丰富的流式连接、更多的运行时度量以及连续数据流API增强:支持更多的源和汇(例如,Amazon Kinesis,Cassandra,Flume,等等),给用户提供更多的度量指标,并提供持续改进的数据流API。

如果你对这些功能感兴趣,强烈建议去查看下当前的草案,并加入 Flink 邮件列表讨论。

原文:Flink 2015: A year in review, and a lookout to 2016
译者:郭亚和,从事大数据(spart/storm/hadoop/hbase)相关运维、分析等工作。
  • 大小: 70.7 KB
  • 大小: 59.6 KB
  • 大小: 113 KB
  • 大小: 103.7 KB
  • 大小: 102.2 KB
  • 大小: 74.1 KB
  • 大小: 74.1 KB
1
0
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 回顾 | Apache Flink 1.9 版本新特性强势预告!(内含PPT下载链接)

    6月29日,Apache Flink Meetup 北京站圆满落幕,Apache Flink 1.9 版本是自 Flink 1.0 之后变化最大的版本,社区对 Flink 进行大量重构并且加入了很多新 Feature。此次 Meetup 重点解读 Flink 1.9 版本新特性。 ▼ ...

  • Apache Flink在 bilibili 的多元化探索与实践

    简介:bilibili 万亿级传输分发架构的落地,以及 AI 领域如何基于 Flink 打造一套完善的预处理实时 Pipeline。 本文由 bilibili 大数据实时平台负责人郑志升分享,本次分享核心讲解万亿级传输分发架构的落地,以及 ...

  • 年度回顾 | 2019 年的 Apache Flink

    2019 年即将落下帷幕,这一年对于 Apache Flink 来说是非常精彩的一年,里程碑式的一年。随着这一年在邮件列表发送了超过 1 万封邮件,JIRA 中超过 4 千个 tickets,以及 GitHub 上超过 3 千个 PR,Apache Flink ...

  • 年度回顾 | 2019 年的 Apache Flink(文末有福利)

    2019 年即将落下帷幕,这一年对于 Apache Flink 来说是非常精彩的一年,里程碑式的一年。随着这一年在邮件列表发送了超过 1 万封邮件,JIRA 中超过 4 千个 ticke...

  • Apache Flink不止于计算,数仓架构或兴起新一轮变革

    作者 | 蔡芳芳 采访嘉宾 | 王峰(莫问) 维基百科的“Apache Flink”词条下,有这么一句描述:“Flink 并不提供自己的数据存储系统,但为 Amazon ...

  • Apache Flink 在 bilibili 的多元化探索与实践

    摘要:本文由 bilibili 大数据实时平台负责人郑志升分享,本次分享核心讲解万亿级传输分发架构的落地,以及 AI 领域如何基于 Flink 打造一套完善的预处理实时 Pipeline。...

  • 精彩回顾 | Apache Flink Meetup · 北京站(附PPT下载)

    9 月 21 日下午,2019 年度最后一场 Meetup 在帝都圆满落幕,来自阿里巴巴、小米、贝壳找房的资深专家们现场分享了小米的 Flink 应用实践、贝壳找房的实时...

  • Apache Paimon 流式数据湖 V 0.4 与后续展望

    阿里云开源大数据表存储团队负责人、阿里巴巴高级技术专家,Apache Flink PMC,Paimon PPMC 李劲松(之信)在 Apache Paimon Meetup 的分享。

  • Apache Flink 不止于计算,数仓架构或兴起新一轮变革

    作者 | 蔡芳芳 采访嘉宾 | 王峰(莫问) 维基百科的“Apache Flink”词条下,有这么一句描述:“Flink 并不提供自己的数据存储系统,但为 Amazon Kin...

  • python源码基于YOLOV5安全帽检测系统及危险区域入侵检测告警系统源码.rar

    本资源提供了一个基于YOLOv5的安全帽检测系统及危险区域入侵检测告警系统的Python源码 该系统主要利用深度学习和计算机视觉技术,实现了安全帽和危险区域入侵的实时检测与告警。具体功能如下: 1. 安全帽检测:系统能够识别并检测工人是否佩戴安全帽,对于未佩戴安全帽的工人,系统会发出告警信号,提醒工人佩戴安全帽。 2. 危险区域入侵检测:系统能够实时监测危险区域,如高空作业、机械设备等,对于未经授权的人员或车辆进入危险区域,系统会立即发出告警信号,阻止入侵行为,确保安全。 本资源采用了YOLOv5作为目标检测算法,该算法基于深度学习和卷积神经网络,具有较高的检测精度和实时性能。同时,本资源还提供了详细的使用说明和示例代码,便于用户快速上手和实现二次开发。 运行测试ok,课程设计高分资源,放心下载使用!该资源适合计算机相关专业(如人工智能、通信工程、自动化、软件工程等)的在校学生、老师或者企业员工下载,适合小白学习或者实际项目借鉴参考! 当然也可作为毕业设计、课程设计、课程作业、项目初期立项演示等。如果基础还行,可以在此代码基础之上做改动以实现更多功能,如增加多种安全帽和危险区域的识别、支持多种传感器数据输入、实现远程监控等。

  • 基于SpringBoot的响应式技术博客的设计和实现(源码+文档)

    本课题将许多当前比较热门的技术框架有机的集合起来,比如Spring boot、Spring data、Elasticsearch等。同时采用Java8作为主要开发语言,利用新型API,改善传统的开发模式和代码结构,实现了具有实时全文搜索、博客编辑、分布式文件存贮和能够在浏览器中适配移动端等功能的响应式技术博客。 本毕业设计选用SpringBoot框架,结合Thymeleaf,SpringData,SpringSecurity,Elasticsearch等技术,旨在为技术人员设计并实现一款用于记录并分享技术文档的技术博客。通过该技术博客,方便技术人员记录自己工作和学习过程中的点滴,不断地进行技术的总结和积累,从而提升自己的综合能力,并通过博客这一平台,把自己的知识、经验、教训分享给大家,为志同道合者提供一个相互交流、共同学习的平台,促使更多的人共同进步[9]。学习到别人的一些良好的设计思路、编码风格和优秀的技术能力,使笔者的设计初衷。本系统主要面向web端的用户,希望能给用户更多的学习和交流的选择。

  • javalab 3.zip

    javalab 3.zip

  • J0001基于javaWeb的健身房管理系统设计与实现

    该系统基于javaweb整合,数据层为MyBatis,mysql数据库,具有完整的业务逻辑,适合选题:健身、健身房、健身房管理等 健身房管理系统开发使用JSP技术和MySQL数据库,该系统所使用的是Java语言,Java是目前最为优秀的面相对象的程序设计语言,只需要开发者对概念有一些了解就可以编写出程序,因此,开发该系统总体上不会有很大的难度,同时在开发系统时,所使用的数据库也是必不可少的。开发此系统所使用的技术都是通过在大学期间学习的,对每科课程都有很好的掌握,对系统的开发具有很好的判断性。因此,在完成该系统的开发建设时所使用的技术是完全可行的。 学员主要实现的功能有:网站信息、课程信息、教练列表、我的信息、登录 员工主要实现的功能有:工资查询、会员管理、器材借还、健身卡管理、个人中心、登录 教练主要实现的功能有:工资查询、学员列表、个人中心 管理员是系统的核心,可以对系统信息进行更新和维护,主要实现的功能有:个人中心、学员管理、教练管理、网站信息管理、器械信息管理、课程信息管理。

  • 架构.cpp

    架构.cpp

  • 利用Python实现中文文本关键词抽取(三种方法)

    文本关键词抽取,是对文本信息进行高度凝练的一种有效手段,通过3-5个词语准确概括文本的主题,帮助读者快速理解文本信息。目前,用于文本关键词提取的主要方法有四种:基于TF-IDF的关键词抽取、基于TextRank的关键词抽取、基于Word2Vec词聚类的关键词抽取,以及多种算法相融合的关键词抽取。笔者在使用前三种算法进行关键词抽取的学习过程中,发现采用TF-IDF和TextRank方法进行关键词抽取在网上有很多的例子,代码和步骤也比较简单,但是采用Word2Vec词聚类方法时网上的资料并未把过程和步骤表达的很清晰。因此,本文分别采用 1. TF-IDF方法 2. TextRank方 3. Word2Vec词聚类方法 实现对专利文本(同样适用于其它类型文本)的关键词抽取,通过理论与实践相结合的方式,一步步了解、学习、实现中文文本关键词抽取。

  • 演示Asm字节码插桩asmd-demo-master.zip

    演示Asm字节码插桩asmd-demo-master.zip

  • VB+access干部档案管理系统(源代码+系统).zip

    档案是国家机构、社会组织在干部管理活动中形成的、记述和反映个人经历和德才表现等情况、以人头为单位集中保存以备查考的原始记录。 档案管理的目的是为了档案的利用。如果放松管理,无论对单位和对个人都会影响档案的利用。举个例子,如果应该进入档案的材料没及时归档,则对个人资料的记载就是不完整的,缺乏了这一部分的凭证,就无法出具相关证明。如果发生了损坏或丢失档案的情况,后果就更加严重,有的档案材料是难以重新建立的。档案的管理是与干部、流动手续的衔接密切相关的。以北京市人才服务中心为例,拥有着全市最大的档案管理中心,共保管了档案12万份。这些档案的利用率相对很高,表现在出具干部证明、婚育证明、出国政审、职称评定、工龄认定以及各种保险的相关手续等方面。档案中心的工作人员每天都要接待大量的企业用人中的查询、查阅。 档案好像是计划经济的产物,在市场经济条件下,随着人才流动潮流的涌现,人们思想观念上的放开,档案越来越被人们所冷落和忽视。到底档案对个人以及人力资源部意味着什么,放松对档案的管理会带来哪些后果呢? 目前我国的档案管理社会化趋势日益明显。非公有制单位,国有企业事业单位发展干部代理使流动人员档案管理

  • 本算法是结合“时间遗忘曲线”和“物品类….zip

    协同过滤算法(Collaborative Filtering)是一种经典的推荐算法,其基本原理是“协同大家的反馈、评价和意见,一起对海量的信息进行过滤,从中筛选出用户可能感兴趣的信息”。它主要依赖于用户和物品之间的行为关系进行推荐。 协同过滤算法主要分为两类: 基于物品的协同过滤算法:给用户推荐与他之前喜欢的物品相似的物品。 基于用户的协同过滤算法:给用户推荐与他兴趣相似的用户喜欢的物品。 协同过滤算法的优点包括: 无需事先对商品或用户进行分类或标注,适用于各种类型的数据。 算法简单易懂,容易实现和部署。 推荐结果准确性较高,能够为用户提供个性化的推荐服务。 然而,协同过滤算法也存在一些缺点: 对数据量和数据质量要求较高,需要大量的历史数据和较高的数据质量。 容易受到“冷启动”问题的影响,即对新用户或新商品的推荐效果较差。 存在“同质化”问题,即推荐结果容易出现重复或相似的情况。 协同过滤算法在多个场景中有广泛的应用,如电商推荐系统、社交网络推荐和视频推荐系统等。在这些场景中,协同过滤算法可以根据用户的历史行为数据,推荐与用户兴趣相似的商品、用户或内容,从而提高用户的购买转化率、活跃度和社交体验。 未来,协同过滤算法的发展方向可能是结合其他推荐算法形成混合推荐系统,以充分发挥各算法的优势。

  • JAVAWEB校园二手平台项目.zip

    JAVAWEB校园二手平台项目,基本功能包括:个人信息、商品管理;交易商品板块管理等。本系统结构如下: (1)本月推荐交易板块: 电脑及配件:实现对该类商品的查询、用户留言功能 通讯器材:实现对该类商品的查询、用户留言功能 视听设备:实现对该类商品的查询、用户留言功能 书籍报刊:实现对该类商品的查询、用户留言功能 生活服务:实现对该类商品的查询、用户留言功能 房屋信息:实现对该类商品的查询、用户留言功能 交通工具:实现对该类商品的查询、用户留言功能 其他商品:实现对该类商品的查询、用户留言功能 (2)载入个人用户: 用户登陆 用户注册 (3)个人平台: 信息管理:实现对商品的删除、修改、查询功能 添加二手信息:实现对新商品的添加 修改个人资料:实现对用户个人信息的修改 注销

Global site tag (gtag.js) - Google Analytics