FAQ
Superset 可以处理多大的数据集?
Superset 可以与巨大的数据库一起工作!Superset 作为底层数据库或数据引擎之上的轻量级层,所有的处理都在这些数据库或数据引擎中完成。 Superset 仅仅可视化查询的结果。
要在 Superset 中获得可接受的性能的关键在于你的数据库是否能够以用户可接受的速度执行查询并返回结果。 如果你在使用 Superset 时遇到性能缓慢的问题,可以对你的数据仓库进行基准测试和调优。
运行 Superset 需要什么样的计算规格?
你的 Superset 安装规格取决于你的用户数量以及他们的活动情况,而不是数据的大小。 社区中的 Superset 管理员报告称,8GB RAM 和 2vCPUs 的配置足以运行一个中等规模的实例。 如果你要开发 Superset,例如编译代码或构建镜像,你可能需要更多的计算能力。
监控你的资源使用情况,并根据需要增加或减少。 需要注意的是,Superset 的使用往往呈现出峰值特性, 例如,如果会议中的所有人都同时加载同一个仪表板。
Superset 的应用程序元数据不需要非常大的数据库来存储,尽 管日志文件会随着时间增长。
我能否一次连接(join) / 查询多个表?
在 Explore 或 Visualization UI 中不能。一个 Superset SQLAlchemy 数据源只能是一个单一的表或视图。
当你处理表时,解决方案是创建一个包含所有分析所需字段的表,这通常是通过某种定期批处理过程实现的。
视图是一个简单的逻辑层,它将任意 SQL 查询抽象为虚拟表。这可以让你连接和联合多个表, 并使用任意 SQL 表达式应用一些转换。这里的限制是你的数据库性能, 因为 Superset 实际上会在你的查询(视图)之上运行一个查询。 一个好的做法可能是只将你的主要大表连接到一个或多个小表,并尽可能避免使用 GROUP BY, 因为 Superset 会做自己的 GROUP BY,重复工作可能会降低性能。
无论你使用表还是视图,性能取决于你的数据库向使用 Superset 的用户交付结果的速度。
然而,如果你使用 SQL Lab,则没有这样的限制。只要你对表有访问权限,你可以编写 SQL 查询来连接多个表。
我如何创建自己的可视化?
我们建议阅读 创建可视化插件 中的说明。