Large datasets in Databricks

maltasa — Sun, 01 Dec 2024 05:30:40 GMT

How can I efficiently handle large datasets in Databricks when performing group-by operations to avoid out-of-memory errors? Are there any best practices or optimizations for improving performance, such as partitioning or caching, especially when working with Spark DataFrames?

Re: Large datasets in Databricks

Takuya-Omi — Mon, 02 Dec 2024 14:01:42 GMT

Hi, @maltasa

I believe this article might help answer your question.

Comprehensive Guide to Optimize Databricks, Spark and Delta Lake Workloads

topic Large datasets in Databricks in Generative AI

Large datasets in Databricks

Re: Large datasets in Databricks