Databricks Community

Databricks2005 · 09-16-2021

Hello everyone,I am facing performance issue while calculating cosine similarity in pyspark on a dataframe with around 100 million records.I am trying to do a cross self join on the dataframe to calculate it.The executors are all having same number ...

Databricks2005 · 09-17-2021

Thank you Kaniz !. I shall wait for an answer 

Databricks Community

User Stats

User Activity

Cosine similarity between all rows pairwise on a dataset of 100million rows

Re: Cosine similarity between all rows pairwise on a dataset of 100million rows