【分散処理】PySpark ～ _corrupt

dk521123 https://blog.hatena.ne.jp/dk521123/ プログラムの超個人的なメモ https://dk521123.hatenablog.com/ Spark / PySpark ■ はじめに https://dk521123.hatenablog.com/entry/2021/06/01/142457 の続き。 PySpark で「columnNameOfCorruptRecord」とか「_corrupt_record」などでてきたので、調べてみた。目次【１】Corrupt Record １）何ができる？２）使用用途【２】使用方法１）手順【３】サンプル例１：CSVファイル【４】使用上の注意１）使用できるSparkバージョン２）使用可能なファイル種類およびモード３）cache() する必要がある４）データ型（特に数字）の指定に注意【１】Co… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fdk521123.hatenablog.com%2Fentry%2F2022%2F02%2F14%2F153845" title="【分散処理】PySpark ～ _corrupt_record ～ - プログラムの超個人的なメモ" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2022-02-14 15:38:45 【分散処理】PySpark ～ _corrupt_record ～ rich https://dk521123.hatenablog.com/entry/2022/02/14/153845 1.0 100%