PySpark の UDF (User Defined Function) を試す

momijiame https://blog.hatena.ne.jp/momijiame/ CUBE SUGAR CONTAINER https://blog.amedama.jp/ Apache Spark PySpark Python 今回は PySpark の UDF (User Defined Function) 機能を使ってみる。 UDF というのはユーザが定義した関数を使って Spark クラスタで分散処理をするための機能になっている。柔軟に処理を記述できるメリットがある一方で、パフォーマンスには劣るというデメリットもある。この特性は、ユーザが定義した処理をワーカーに配布した上で Python インタプリタに解釈させる特性に由来している。今回は、そんな UDF を DataFrame API と Spark SQL という二つの API を通して使ってみることにした。使った環境は次の通り。クラスタは YAR… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fblog.amedama.jp%2Fentry%2F2018%2F01%2F31%2F210755" title="PySpark の UDF (User Defined Function) を試す - CUBE SUGAR CONTAINER" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://images-fe.ssl-images-amazon.com/images/I/51AW5aaN7PL._SL160_.jpg Hatena Blog https://hatena.blog 2018-01-31 21:07:55 PySpark の UDF (User Defined Function) を試す rich https://blog.amedama.jp/entry/2018/01/31/210755 1.0 100%