【分散処理】PySpark ～ CSV / MultiLine対応～

dk521123 https://blog.hatena.ne.jp/dk521123/ プログラムの超個人的なメモ https://dk521123.hatenablog.com/ Spark / PySpark ■ はじめに https://dk521123.hatenablog.com/entry/2019/11/24/225534 https://dk521123.hatenablog.com/entry/2020/07/30/195226 の続き。今回は、PySparkにおいて、 CSVなどで改行が入った時の複数行（MultiLine）の対応について触れたので、メモしておく目次【１】対応方法【２】サンプル例１：spark.read.csv() 例２：spark.read.format("csv").load() 【３】API仕様【１】対応方法 * 「multiLine=True」を… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fdk521123.hatenablog.com%2Fentry%2F2022%2F02%2F04%2F181842" title="【分散処理】PySpark ～ CSV / MultiLine対応～ - プログラムの超個人的なメモ" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2022-02-04 18:18:42 【分散処理】PySpark ～ CSV / MultiLine対応～ rich https://dk521123.hatenablog.com/entry/2022/02/04/181842 1.0 100%