数据工程月刊- 2021年7月

8月是开始新事物的好时机——有些人在度假,有比平时更多的空闲时间阅读,而另一些人则回来快速复习数据工程中的新内容。

我们推出这个带注释的系列是为了找到关于数据工程的不同主题的有趣和有用的内容,比如新闻、技术文章、工具、未来的会议等等。是的,在写这篇文章的时候"我们"就是我,帕夏。如果你认为我错过了什么有价值的东西,尽管告诉我推特并提出一个主题、链接、想法或其他任何东西。

闲话少说,让我们开始第一期的《数据工程注释》吧!

新闻

很多工程都是关于学习新事物和掌握新技术的脉搏。这是数据工程现在正在发生的事情。

用于Apache Spark的Kotlin API在展示了第一个预览版一年之后,我们发布了1.0版。Apache Spark已经有两个官方的JVM API——Scala和Java——但我们希望Kotlin API也能有用,因为我们已经引入了几个独特的特性。例如,空安全连接可能只在具有空感知类型系统的语言中实现,如Kotlin。

梁2.31.0-尽管是一个小版本,这有几个重大的变化!最显著的变化是对最新Flink版本1.13的支持。Beam的人正在向前迈进,并不怕打破现状,因为他们已经放弃了对Flink 1.10的支持。

Dagster 0.12.0-我非常喜欢Dagster的名字。它们的名字甚至比Ubuntu发行版的名字还要漂亮——“进入最佳状态”是一个很棒的名字!他们在这个版本中增加了一些有趣的功能。我最喜欢的是管道故障传感器——当管道故障时,它能让你运行任务,真是太棒了!我相信Dagster是一个伟大的管弦乐编曲家,谁知道呢,也许甚至是管弦乐的下一个大事件。

lakeFS中的数据保留策略lakeFS是一个开源的数据版本控制解决方案。他们推出了一个很棒的新功能:数据保留政策。谁说你需要存储所有版本的数据并永久存储?让我们删除所有不再需要的东西,腾出空间来做更有用的东西吧!近藤麻理惠会感到骄傲的!

Snowflake中的行访问策略-雪花是大数据领域最知名的独角兽之一。虽然他们可能沉浸在成功的荣耀中,但他们知道自己需要快速行动。7月,他们宣布了一项新功能:行访问策略。现在,您不需要智能逻辑来允许特定的人查询和查看特定的信息。没有人工多租户等-雪花为你做那!

卡桑德拉的4.0版本这是五年来NoSQL数据库的第一个主要版本!值得注意的是,他们添加了对Java 11(最终)和虚拟表的实验性支持。

未来的改进

数据工程技术每天都在发展。这一部分是关于哪些技术是你可能想要关注的。

Spark中的行级操作—长期以来,数据工程围绕着易于操作、控制、分发和同步的仅追加数据构建。但事情并不是一成不变的,新的格式和准可变存储类型,比如HudiDeltaLake,冰山是越来越受欢迎。Spark不能处理内部数据,因为它是可变的——这是底层存储的特权——但这一切都将改变!在这里,如果您对可变存储类型之间的差异感兴趣,来自lakeFS的人员执行了比较

Flink中的异步接收- Apache Flink可能是最流行的本地流媒体工具之一。它几乎可以把数据放在任何地方,但仍有一些改进的空间。如果系统处于峰值负载下,而目的地无法处理它,会发生什么?Flink计划添加对异步接收器的支持来解决这个问题。

Rack-aware卡夫卡流Kafka已经支持机架有一段时间了,这给了它的用户更多的信心。当数据在位于不同位置的不同机架之间复制时,如果一个机架发生了不好的事情,那么不会发生在另一个机架上。然而,Kafka的一个被称为Kafka Streams的部分,一个流处理框架和其他流解决方案的竞争对手,目前是不支持机架的。当然,我们希望在处理流时尽可能可靠地保存数据,好消息是一个Kafka改进建议(KIP)已经被批准了。

文章

这一部分是关于灵感的。我们将尝试列出我们在互联网上找到的文章和帖子,以帮助我们所有人从处理数据工程的其他人、团队和公司的经验中学习。

选择脉冲星而不是卡夫卡的5个理由-作者直截了当地陈述了自己的偏见,这很好。这是他讨论脉冲星vs卡夫卡的第二部分,第一部分可以找到在这里.Pulsar和Kafka之间的竞争是激烈的,所以如果你想要明智地选择,了解每个解决方案的优缺点是有帮助的。

使用Kotlin构建数据管道-令人惊讶的是,大公司也在使用Kotlin作为数据管道!Salesforce分享了它在数据工程中使用Kotlin的经验,除了Spark,我们也在联系在Apache Spark中使用Kotlin API !

搜索索引Kafka和Elasticsearch-搜索索引是一个巨大的工程问题,每个公司都有自己的方法。例如,谷歌和Yandex等公司的整个业务都是围绕搜索展开的。如果你不是搜索巨头,但你仍然想为你的用户提供强大而易用的搜索功能,那该怎么办?DoorDash针对这个问题的解决方案涉及Kafka、Elasticsearch和大量其他技术。读一读这篇文章,看看他们是如何做到的。

工具

使用Mindgrammer构建架构图-数据工程经常是关于构建体系结构的一些东西。想出一个有效的架构需要大量的脑力,但你不能把整个架构都记在脑子里——那太难了(也太危险了!)架构必须被文档化,但是它们可以随时间变化。如果以文本形式保存,它们很快就会过时,维护成本也会很高。

输入Mindgrammer——一种将图表保存为代码的工具。作为一个例子,我们使用Mindgrammer来可视化JetBrains数据分析平台的一部分架构。请注意,在主要云服务提供商的生态系统中,对于Kubernetes,甚至一些本地服务,大多数项目都有图标。以下是JetBrains的数据访问管道图:

with Diagram("Data access pipeline", show=False, direction="LR"): analytics_backend = ECS("Analytics Backend") athena = athena (" athena ") postgres = RDS(" postgres ") Users("Regular Users ") >> CloudFront("Analytics Frontend") >> \ analytics_backend >> [athena, postgres] Users("Ad-hoc Users ") >> athena with Cluster("Data Marts"):data_marts = [S3("Data marts 1"), S3("Data marts 2"), S3("Data marts 3")] athena >> data_marts postgres >> data_marts

很方便,不是吗?

会议

SmartData 2021-这个关于数据工程的国际会议是由一家俄罗斯公司组织的,但目标是至少有30%的演讲是用英语进行的。从数据质量到DWH体系结构,大多数主题都很热门!看看你是否愿意提交你的演讲!

我们这个月的注释就到这里。请关注JetBrains大数据工具推特并订阅我们的bob app官方下载 更多的消息!你随时可以找到我,帕莎·芬克尔什顿asm0dey@jetbrains.com或发送DM到我的个人推特,或与我们的团队取得联系big-data-tools@jetbrains.com.我们很想知道您还会遇到什么有趣的数据工程文章!

发现更多的

Baidu