类别

版本

您正在查看版本9.5的RapidMiner Radoop文档点击这里查看最新版本

RapidMiner Radoop 9.5有什么新功能

本页描述了RapidMiner Radoop 9.5的新特性。

Radoop Proxy连接基于Hadoop 3的集群

我们增强了Radoop Proxy,使其能够与基于Hadoop 3(如Cloudera CDH 6)的集群无缝协作。或HDP 3.x)。

这意味着,如果你的组织运行一个基于Hadoop 3发行版的Hadoop集群,网络管理员只需要在公司防火墙上打开几个端口,就可以让数据科学家在这样一个防火墙集群中使用RapidMiner Radoop。

修改了一般设置和连接级别设置

为了使Radoop更加用户友好,我们将RapidMiner Studio Preferences中的大部分设置移到了Radoop连接中。这允许您在连接到多个Hadoop集群时方便地设置连接并使用它们,而不会有一些设置相互干扰。

修改了Radoop的常规设置

例如,在具有更多数据的生产集群上,您可能希望为Hive命令使用不同的超时值,而不是在开发/测试集群上。在Radoop 9.5中,这很容易,因为我们移动了Hive命令超时时间从Studio Preferences设置到连接级别设置。

上面示例中Hive命令超时的新位置

不要担心,在更新到这个版本的Radoop期间,所有现有的连接和设置都将保留。

聚合(Radoop)操作符中的中值和模式

为了让处理大数据变得更加容易,我们一直在努力缩小RapidMiner Studio内置的操作符与为Hadoop优化的操作符之间的差距。

这一次,我们补充道中位数模式作为两个新的聚合属性。在幕后,这些聚合将利用优化Hive查询的强大功能,在大型数据集上快速生成聚合。

中位数和模式

OpenJDK的支持

为了支持您和您的公司采用OpenJDK, RapidMiner Radoop现在支持OpenJDK Java 8。

覆盖高级连接设置

您是否曾经遇到过只需要为由Radoop操作符构建的过程的一部分调整设置或高级参数的情况?到目前为止,实现此目的的唯一方法是复制Radoop连接,调整所需的设置,并使用使用复制连接的单独Radoop Nest重新设计流程。

类中的许多连接设置和高级参数都可以定义覆盖Radoop巢子流程(Radoop)单进程下推(Radoop)SparkRM (Radoop)操作符。覆盖将只在这些操作符内部生效。还无缝地支持嵌套它们。

例如,您有一个包含Hive操作符的进程,该进程运行时间很长,并且在您的默认设置下会超时。

Hive操作导致超时

现在,您可以将Hive操作符合并到子进程中,并覆盖用于该操作的超时值。

具有子进程级覆盖的Hive操作符

具有子进程级覆盖的Hive操作符

具有子进程级覆盖的Hive操作符

您还可以将包含覆盖的连接导出为新的Radoop连接,例如用于测试目的和更容易共享。

我们希望通过这个新特性,Radoop连接的概念会更加清晰。它应该减少连接列表中的混乱,并且将调整作业执行的概念从Radoop连接转移到RapidMiner进程本身。

由于我们在版本中修复了一个错误9.5.2对于Radoop,在升级到此版本后需要重新创建覆盖。如果您已经定义了覆盖,请确保重新创建它们。

增强功能和bug修复