数据工程每月注释- 2021年8月

8月通常是一个安静的月份,假期带来了负面影响。但数据工程从未停止。我帕夏Finkelshteyn我将通过这个月的新闻,我对事态发展的印象和来自更广泛的社区的想法来指导你们。如果你认为我错过了什么有价值的东西,告诉我推特并建议一个主题,链接,或任何其他东西。

新闻

很多工程都是关于学习新事物和掌握新技术的脉搏。这是数据工程现在正在发生的事情。

Fairlens 0.1.0-道德ML现在是巨大的。但是,要确定一个数据集是否合乎道德、公正、不受人为干扰是非常困难的。考虑到这是一个热门话题,而且里面有一大笔钱,你可能会认为会有大量的工具来验证数据伦理,但你错了。至少在费尔伦斯出现之前。它还没有第一次发布,但它的承诺是,它将为你消除偏见的数据!多酷啊?

卡夫卡3.0.0-rc0-如果你想尝试流行产品的新版本,是时候测试Kafka 3了,并报告你在登台环境中发现的任何问题!仍然支持Scala 2.12和Java 8,但已弃用。卡夫也有一些变化(即修改KRaft元数据记录在卡夫模式下生成生产者ID),以及许多人其他的变化.不幸的是,人们最期待(至少是我)的特性——分层存储——已经推迟到后续版本。

ClickHouse v21.8-这次发布的ClickHouse是大规模的。对于开源工具的粉丝来说,最有趣的变化是对MaterializedPostgreSQL表引擎的支持,它可以让你轻松地将整个Postgres表/数据库复制到ClickHouse。

MLflow 1.12.0-这是一个流行的ML Ops框架的小版本,允许您存储和服务ML模型。让我感到兴奋的变化之一是“添加pip_requirements和extra_pip_requirements到mlflow。* .log_modelmlflow。* .save_model用于直接指定要记录/保存的模型的PIP要求。

Apache黑比诺0.8.0- - - - - -Apache黑比诺是一个实时分布式OLAP数据存储,设计用于以低延迟回答OLAP查询。从某种意义上说,它与ClickHouse竞争,因为两者都针对相同的工作流。当然,有很多不同之处;例如,皮诺葡萄酒打算在大集群中工作。网上有很多比较,比如这一个,但值得一提的是,这两个系统都很旧,而且都发生了很大的变化,所以如果你知道最近的比较,请让我知道!这里一个有趣的变化是支持布鲁姆过滤器在谓词。

LakeFS 0.48.0-我们在七月号的我们的注释.现在,它增加了对底层桶的多个AWS区域的支持。虽然从金钱和性能的角度来看,这可能更昂贵,但这听起来仍然是一个不错的灾难恢复选项。即使一颗陨石击中了你的数据中心,你的大数据仍然是安全的!

未来的改进

数据工程技术每天都在发展。这一部分是关于哪些技术是你可能想要关注的。

ORC元数据缓存在Spark中,ORC是数据存储中最流行的二进制格式之一,具有令人敬畏的压缩和编码功能。但是如果我们需要多次查询相同的数据集呢?读取文件元数据代价很高,因为这是一个IO操作,速度很慢。更多的文件意味着更多的时间。但是,使用缓存,执行时间可能会显著减少(在某些工作负载上)。

自定义netty HTTP请求入站/出站处理程序in Flink -有时我们需要在使用Flink处理时执行HTTP请求。但有时我们需要做的不仅仅是发出HTTP请求——有时我们需要定制它,例如,通过添加身份验证或自定义头,这在严格的企业环境中可能特别有用。看起来这个很快就会在Flink中出现了!

卡桑德拉Paxos改进众所周知,Cassandra的Paxos实现很好,但并不完美。例如,轻量级事务(LWT)的性能很差。别相信我——这是Cassandra开发者自己说的。所以,他们决定在可预见的未来改进它,这项工作已经在进行中,我认为这是很棒的。

文章

这一部分是关于灵感的。我们将尝试列出一些很棒的文章和帖子,这些文章和帖子可以帮助我们从其他人、团队和公司处理数据工程的经验中学习。

更改DeviantArt的数据捕获-我想我们都知道是什么Debezium是多少。但是,虽然它是一个从db流数据到Kafka的工具,它不能覆盖所有CDC的需求或场景。在本文中,来自DeviantArt的人员描述了他们的CDC解决方案的整体架构,以及具体的配方和技巧。

优步如何在数据质量体验方面实现卓越运营- Uber因在Kubernetes中安装了一个巨大的Hadoop而闻名。这篇博文更多的是关于数据质量,描述了他们是如何建立他们的数据质量平台的。谁能想到构建一个数据质量平台会如此具有挑战性和令人兴奋呢?100%的测试覆盖率听起来也很棒,所以做得很好!

Apache Hudi -数据湖平台-准可变数据存储格式不仅是趋势,而且是神秘的。他们到底是如何工作的?我们以什么代价得到这种可变性?在这篇详细的文章中,Hudi开发者详细描述了Apache Hudi是如何工作的,以及为什么它适合流媒体。

蜂巢Metastore- - - - - -它没有很好地老化-来自LakeFS的人们继续为我们带来关于数据工程的有趣文章。这次他们描述了流行的Hive Metastore的问题,并详细解释了它是如何工作的。

工具

sqlglot-我经常在网上搜索特定的SQL方言细节。我应该在这里反勾选标识符吗?我应该用双引号还是单引号?别让我开始说格式。有时候我只是不想发布我最喜欢的DataGrip格式化单个SQL语句。然后我发现了sqlglot,这是一个可以在瞬间将我的语法从一种方言转换成另一种方言的工具。这让我少了一件头疼的事!

会议

SmartData 2021-这个关于数据工程的国际会议是由一家俄罗斯公司组织的,但它的目标是至少有30%的演讲是用英语进行的。从数据质量到DWH体系结构,大多数主题都很热门!来自Databricks、微软、Netflix和其他大公司的发言者也将出席!

这就是八月份的annotation。请关注JetBrains大数据工具推特并订阅我们的bob app官方下载 更多的消息!你随时可以找到我,帕莎·芬克尔什顿asm0dey@jetbrains.com或发送DM到我的个人推特,或者你可以通过big-data-tools@jetbrains.com.我们很想知道您遇到的任何其他有趣的数据工程文章!

发现更多的

Baidu