数据工程每月注释 - 1月2022年

由于俄罗斯的公众假期和我自己的休假时间,我没有机会在12月份写一个注释。在这种情况下,等待一点可能不是如此糟糕的事情,因为现在我们有更有趣的释放谈论!你好我是Pasha Finkelshteyn.,我将通过本月的消息成为您的指南。我将在数据工程部门的最新发展中提供我的印象,并突出了更广泛的社区的新思路。如果你认为我错过了一些有价值的东西,你可以找到我推特并建议一个主题,链接或您想要查看的其他任何东西。如果您愿意以电子邮件表格收到此新闻,您可以订阅时事通讯这里

消息

学习新事物并将手指保持在新技术的脉冲上是工程的主要方面。以下是数据在数据工程世界中发生的事情。

Ambari已经死了- 这对我来说非常震惊,看起来像免费的Hadoop发行版不再存在。在没有像ambari这样的经理,在没有经理的情况下,几乎不可能。从理论上讲,所有组件都可以使用,但设置过程只是疼痛。我所知道的剩余自由工具是Arenadata集群经理但是,免费版本不允许用户执行某些事情,如部署HA名称节点。r.i.p.Ambari - 我们爱你。

Apache hop 1.1.- 无码工具的数量是滚雪球。我们都知道Apache Nifi,一个具有自己的处理引擎的流处理工具。它有一个Web界面,允许您构建所需的管道。Apache Hop在很多方面是不同的。对于一个,它使用Apache波束作为引擎。此外,它的界面不是Web,而是在Java中编写的桌面应用程序(但是具有本机和感觉)。当工作流程准备就绪时,它应该部署到特殊跳跃服务器并在那里执行。

海豚复合员2.0.3- Apache Dolphinscheduler在自己的网站上描述为“分布式和易于扩展的视觉工作流程系统”。这是Orchestrator的另一个例子,这个时间用Java编写。一个很好的功能是它能够从Bitnami帮助存储库中从框中部署到Kubernetes。与气流相比,它还支持不同的连接器集。更多信息可用在他们的文件上。

座位1.5.7是一个微小的释放,但我想向您介绍一个名为座面的新工具(以前的“waterdrop”)。老实说,我没有意识到它,我希望我早点听到它。Seatunnel是一种解决我们的一个痛苦点的工具插入解决:不同源之间的数据同步。当我们的插件在IDE内部的UI中执行此操作时,Seatunnel在不同的规模上工作,并为用户提供描述同步配置的方法。

未来改进

数据工程工具每天都在发展。本节是关于作品中的技术更新,您可能想要留意。

Kafka:在IQV2中的KV-Store添加范围和扫描查询- 这个KIP的名称本身就是这样。目前,KV-Store不支持范围查询。需求足够高,实施足够简单,因此PR已被接受,希望很快发布(目前的目标发布为3.2.0)。

KAFKA:在IQV2中使用KV-Store添加会话和窗口查询- 对以前的KIP补充,但这一次,它是关于窗口的函数。这对kips给了我们对kafka kv商店带来的东西的印象。他们的目标是使它更具分析友好。

flink:增量保存点- 当前的传递保存点机制已被证明是有效的,但当国家大时,它很慢。这种变化旨在改善这种情况。Flink改进提议页面最好:“可以独立地(通过CLI)要求每个保存点(通过CLI)以规范格式(当前行为)或本机格式。选择本机格式时,state.Backend.inecrenceal设置将决定本机格式快照的类型,并将为检查点和保存点(具有本机类型)生效。“

Spark:在JDBC源中关闭自动提交的能力,只需阅读操作- 在只读事务中,Spark目前能够在单个请求中读取大量数据,即使获取大小有限。例如,这是PostgreSQL的情况,甚至描述了这种行为在文档中。此更改将添加像AutoCommit标志的内容到JDBC源。

文章

本节是关于灵感的。以下是一些伟大的文章和帖子,可以帮助我们激励我们所有人以学习在数据工程中工作的其他人,团队和公司的经验。

我如何用dbt®开始- 现在有一段时间,我注意到DBT®正在获得普及。我一直看到更多的问题和更多的成功案例,所以几天前我决定尝试一下。在此博客文章中,我描述了DBT是什么以及如何在提供具有几个使用示例的读者时使用它。

Apache Spark Performance Boosting- Spark的表现是数据工程社区中最热门的主题之一。不是因为它的表现很糟糕,但因为工具非常受欢迎,并且总是有很多的角落案例。本帖子本质上是可以在每个应用程序中潜在地提高性能的清单。

7必须知道2022年的数据流行语- 了解趋势很重要。这样做让我们保持 - 甚至增加 - 我们作为市场专家的价值。理解趋势的最简单方法是读取专用于它们的文章。以下是一个关于相关帖子的链接的7个趋势的文章!

hellofresh到数据网的旅程- 数据网是另一个流行语!这不是一件容易做的事情,特别是当你是一个像Hellofresh这样的大公司。采用数据网是很多工作和长途旅程,现在他们正在分享他们的经验。

播客

听取汇报- 最近,我的朋友,Igor Mosyagin博士,我开始了一个叫做“汇报”的播客。它在某种程度上与这个摘要重叠,但总是提供一点额外的东西。因此,如果您更喜欢听读书,请查看它!它可能是完美的!

将1月份的数据工程包裹着注释。关注JetBrains大数据工具推特并订阅我们的bob app官方下载 有关更多新闻!你可以随时到达我,帕莎finkelshteyn,在asm0dey@jetbrains.com.或发送DM到我个人的推特帐户。您还可以与我们的团队联系big-data-tools@jetbrains.com.。我们很乐意了解您遇到的任何其他有趣的数据工程文章!

发现更多

Baidu