您正在查看版本9.5的RapidMiner Radoop文档点击这里查看最新版本
RapidMiner Radoop 9.5有什么新功能
本页描述了RapidMiner Radoop 9.5的新特性。
Radoop Proxy连接基于Hadoop 3的集群
我们增强了Radoop Proxy,使其能够与基于Hadoop 3(如Cloudera CDH 6)的集群无缝协作。或HDP 3.x)。
这意味着,如果你的组织运行一个基于Hadoop 3发行版的Hadoop集群,网络管理员只需要在公司防火墙上打开几个端口,就可以让数据科学家在这样一个防火墙集群中使用RapidMiner Radoop。
修改了一般设置和连接级别设置
为了使Radoop更加用户友好,我们将RapidMiner Studio Preferences中的大部分设置移到了Radoop连接中。这允许您在连接到多个Hadoop集群时方便地设置连接并使用它们,而不会有一些设置相互干扰。
例如,在具有更多数据的生产集群上,您可能希望为Hive命令使用不同的超时值,而不是在开发/测试集群上。在Radoop 9.5中,这很容易,因为我们移动了Hive命令超时时间从Studio Preferences设置到连接级别设置。
不要担心,在更新到这个版本的Radoop期间,所有现有的连接和设置都将保留。
聚合(Radoop)操作符中的中值和模式
为了让处理大数据变得更加容易,我们一直在努力缩小RapidMiner Studio内置的操作符与为Hadoop优化的操作符之间的差距。
这一次,我们补充道中位数和模式作为两个新的聚合属性。在幕后,这些聚合将利用优化Hive查询的强大功能,在大型数据集上快速生成聚合。
OpenJDK的支持
为了支持您和您的公司采用OpenJDK, RapidMiner Radoop现在支持OpenJDK Java 8。
覆盖高级连接设置
您是否曾经遇到过只需要为由Radoop操作符构建的过程的一部分调整设置或高级参数的情况?到目前为止,实现此目的的唯一方法是复制Radoop连接,调整所需的设置,并使用使用复制连接的单独Radoop Nest重新设计流程。
类中的许多连接设置和高级参数都可以定义覆盖Radoop巢,子流程(Radoop),单进程下推(Radoop)和SparkRM (Radoop)操作符。覆盖将只在这些操作符内部生效。还无缝地支持嵌套它们。
例如,您有一个包含Hive操作符的进程,该进程运行时间很长,并且在您的默认设置下会超时。
现在,您可以将Hive操作符合并到子进程中,并覆盖用于该操作的超时值。
您还可以将包含覆盖的连接导出为新的Radoop连接,例如用于测试目的和更容易共享。
我们希望通过这个新特性,Radoop连接的概念会更加清晰。它应该减少连接列表中的混乱,并且将调整作业执行的概念从Radoop连接转移到RapidMiner进程本身。
由于我们在版本中修复了一个错误9.5.2对于Radoop,在升级到此版本后需要重新创建覆盖。如果您已经定义了覆盖,请确保重新创建它们。