查询TERADATA耗时太长
学我
在帮助
最佳答案
-
BalazsBarany
管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:913
独角兽
| 0评论 | 0的讨论 | 0成员 | 0在线 |
学我
BalazsBarany
管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:913
独角兽
答案
这可能是内存问题。RapidMiner的工作原理是将完整的数据集读取到计算机的主存储器中。如果您用数据压倒现有内存(听起来您正在这样做),那么一切都会变慢,例如因为交换。
最好是分批处理这3500万行,就像处理100万行那样。例如,您将使用Loop操作符之一。
对于这类大数据,总是尽量在数据库内部进行处理。它比单独的内存进程更擅长过滤、连接和排序。
您甚至不必为此学习SQL,如果您使用数据库内处理扩展。
问候,
Balazs
谢谢你的快速回答。
我们的机器有256gb的内存。数据库内处理不适用于Teradata。
我们的要求是,我们做一切从ETL在RapidMiner,而不是查询。
你能进一步说明我们如何批量处理这些数据吗?我们必须有一些类似指针的指示器,告诉数据库从哪里开始下一批数据。
提前谢谢你。