Databricksで実現するデータ名寄せ【決定論的マッチング編】

dentsusoken https://blog.hatena.ne.jp/dentsusoken/ 電通総研テックブログ https://tech.dentsusoken.com/ Databricks エンタープライズ第三本部データエンジニアリングこんにちは。エンタープライズ第三本部マーケティングIT部の熊倉です。このブログでは、高速に動作する分散処理エンジン「Apache Spark」とオープンテーブルフォーマット「Delta Lake」を基盤としたレイクハウス環境を構築できるDatabricks上で管理しているデータセットに対して、名寄せ処理を行うアプローチについて紹介します。実際のノートブックの処理についても紹介しようと思っていますが、想定よりも内容が多くなってしまったので、名寄せの概要を紹介する「概要編」、ソースコードなど具体的な名寄せ処理の具体的な内容を紹介する「決定論的マッチング編」「確率的マッチング編」の三部作にしよ… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Ftech.dentsusoken.com%2Fentry%2Fdatabricks-entity-resolution-deterministic" title="Databricksで実現するデータ名寄せ【決定論的マッチング編】 - 電通総研テックブログ" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn.user.blog.st-hatena.com/default_entry_og_image/158529656/1704872217353595 Hatena Blog https://hatena.blog 2025-05-29 07:00:00 Databricksで実現するデータ名寄せ【決定論的マッチング編】 rich https://tech.dentsusoken.com/entry/databricks-entity-resolution-deterministic 1.0 100%