Re: Pandas API on Spark, Does it run on a multi-no...

Mado · ‎10-18-2022

@Debayan Mukherjee

Thanks for your help.

I have a question about terms : "Pandas dataset" and "pandas-on-Spark dataset".

When you say "dataset", does it refer to "DataFrame"?

If I create "pandas-on-Spark dataset ", can I apply Pandas functions on it, or I should convert it to "pandas dataset" before such a computation?

If I need to convert it to "pandas dataset", I think computation will be done on a single node. Is it correct?