大数据工具1.4现在可用
表的内容
我们刚刚发布了大数据工具插件的新版本,它与IntelliJ IDEA Ultimate、PyCharm Professional Edition和DataGrip的2021.3版本兼容。该插件还支持我们新的数据科学IDE,DataSpell.
在这个版本中,我们对用户界面进行了一些更改,添加了一些特性,并修复了一长串的bug。让我们仔细看看。
卡夫卡的支持
- 生产者和消费者管理卡夫卡连接工具窗口
这允许您通过提供测试数据或检查现有主题的内容来快速测试应用程序。
您会注意到在卡夫卡连接工具窗口:添加生产商而且增加消费.
要生成测试数据,请单击添加生产商按钮,该按钮将打开一个新的编辑器选项卡。只需填写所有参数(如键和值的类型)并单击生产按钮。
要收集数据,请单击增加消费按钮,选择您的主题、格式和日期范围,并按下开始消费.使用者将一直运行,直到您单击为止停止消费. - 高级Kafka属性配置
新属性从下拉菜单允许你选择是否在连接设置中写入所有属性或从现有文件加载它们:
当编辑器时,该窗口将在您键入属性时自动完成它们。还为类型和文档提供了自动补全:
远程文件系统
- 多桶支持s3类连接(AWS S3、Linode、Digital Ocean Spaces、MinIO和Yandex对象存储)。
此功能允许您将预览限制为实际使用的存储桶。在大型生产系统中,您可能有几十个桶,现在您可以过滤列表,而不是为每个桶创建不同的S3连接或滚动一个长列表。
在新连接设置选项卡中,您现在可以指定一个桶过滤器,而不是单个桶名。多种过滤器类型可用:包含,匹配,首先,而且正则表达式.如果将该字段保留为空,则将列出所有桶。
例如,让我们找到所有名称以“big-data-”开头的桶:
结果是大数据工具工具窗口看起来像这样:
您还可以创建新的桶。只需右键单击目标服务器,打开上下文菜单,并在对话框窗口中为新桶输入一个名称:
- 支持Yandex对象存储的一部分,Yandex。云
Yandex对象存储是一个通用的可扩展的云对象存储解决方案,它提供了各种好处,包括与Amazon S3 API的兼容性、跨多个可用性区域的复制、自动伸缩和高级安全性。 - 新文件系统:SFTP
SFTP是处理远程文件的实际标准。
方法建立到此服务器的新的SSH连接连接上下文菜单:
终端将自动更改当前目录。 - 谷歌云存储的代理支持
代理服务器充当客户端计算机和谷歌存储服务器之间的中介。您可以使用代理从安全的公司网络或任何其他没有直接internet访问的网络访问谷歌Cloud。您一直能够通过代理连接到AWS,现在您可以对谷歌云存储连接进行同样的操作。 - 现在可以编辑文本文件
在编辑器窗口的顶部,你会看到一个面板,在那里你可以比较所选文件与它的远程副本,并同步更改:
该特性适用于所有文件系统和云存储解决方案,但不适用于Zeppelin笔记本电脑。 - CSV、ORC、Parquet和文本文件的扩展文件信息
在检查表格格式文件(包括CSV文件)的文件模式时,
您现在可以访问云存储解决方案提供的其他元信息(如S3的电子标签)。还支持Azure、S3和GCS连接。
飞艇的支持
- ZTools实现的主要更改(“ZTools Light”)
我们已经完全重新设计了与Zeppelin服务器通信的方法,这允许我们实现额外的功能,并停止使用依赖关系。新的实现被称为“ZTools Light”,它适用于Spark和PySpark。 - 使用ZTools时不需要在服务器上安装额外的依赖项
生产Zeppelin实例过去常常带来实际问题,因为用户必须说服他们的服务器管理员或公司安全人员在他们的服务器上安装自定义依赖项。但是,现在不再需要这样做了,这是朝着能够在银行、医疗保健和其他主要行业中使用ZTools迈出的重要一步。 - 只有数据帧和数据集在ZTools工具窗口
因为我们发现用户很少需要查看局部变量,所以我们完全删除了这个特性。
在以前的版本中,本地变量是由安装在Zeppelin服务器上的自定义依赖项收集的。但与使用局部变量相比,无依赖性方法显然是赢家。 - ZTools的新选项设置
- 你可以禁用自动刷新因此,只有在单击刷新按钮。
- 您可以过滤数据集模式和SQL元数据,让你只看到与当前齐柏林笔记相关的内容。
这些选项位于飞艇连接设置选项卡。
- 搜索齐柏林笔记本的ID和URL
在浏览器中工作时,您可能偶尔希望返回IDE中的笔记本。现在可以复制URL或ID(包含在URL中)并将其粘贴到IDE的全局中搜索窗口。
火花的支持
- 解析现有Spark命令
如果您有一个Spark -shell命令,并且不想在Spark中填写几十个字段提交构型,这里有个技巧。你可以点击这个按钮:
然后将您的命令粘贴到出现的对话框窗口中:
现在你的火花提交运行配置时使用与原始命令相同的设置。 - 重新排列的字段在Spark提交运行配置
星火里的田地提交“运行配置”窗口已重新排列,因此最重要的信息显示在列表的顶部。一些选项被移到了高级提交选项部分。此外,您现在可以看到字段的简短提示。 - 中的执行器度量火花监控工具窗口
的执行人选项卡中火花监控工具窗口已升级。它现在看起来类似于Web UI,并显示有关活动和死亡执行程序的扩展信息(例如,它们的最大内存、失败的任务,等等)。
其他
- 更新日志内插件更新弹出
更改日志现在只显示一个版本中最重要的新特性,而不是所有的更改。
文档和社交网络
有关近期改进的概述,请访问的“最新消息”部分插件页面.你也可以复习YouTrack的完整报告其中包含了几乎所有的发布说明。
当您加载IDE时,不要忘记查看我们的每日提示。他们现在包含了一些针对大数据工具的建议。
您可以从浏览器、从插件页面或直接在IDE中升级到大数据工具插件的最新版本。如果你想了解更多关于如何使用插件特性的信息,请查看IntelliJ IDEA,PyCharm,DataGrip,或DataSpell文档。需要更多帮助?请留言给我们松弛或者评论推特.
我们正在积极开发和增强大数据工具插件,我们正在尽最大努力处理您的反馈,并修复尽可能多的bug。我们鼓励您在插件页面上留下您的想法和建议,我们将在未来的版本中解决这些问题。
我们希望这些改进将帮助您解决更大、更好的挑战——并在此过程中获得更多乐趣!感谢您使用大数据工具插件!
大数据工具团队