Join
在 SQL 中非常常用,但通常用到的是 inner join
, left join
, right join
, outer join
。這邊介紹什麼是 semi join
與 anti join
,並且用 PySpark
做範例。
Python line profiler 是一個很方便的套件,讓你很方便看到程式碼逐行執行的時間,用法可以參考拙作關於 Python profiling 的介紹。有一個致命的缺點就是不知道 multiprocess 的 profiling,Github 上也有一個 2016 年留到現在的 issue。我在這裡提供一個 hacky 的作法在 multiprocessing 下使用 line profiler。