大規模データに対する統計手法

isseing333 https://blog.hatena.ne.jp/isseing333/ 『企業成長の方程式 ― AIDグロースコミットによる成長戦略』 https://iisssseeiiii.hatenablog.com/ 大規模データと一口に言っても、実は2種類のデータがあります。 1.対象者（サンプル数）が大規模 2.変数（項目）が大規模 1.は健診、コホート等のデータなどが相当しますし、2.は遺伝子等のデータが相当します（場合によってはQOL等も）。サンプル数をn、変数をmとすると前者はn>>m、後者はm>>nなので全く違う性質を持っています。それぞれのデータに対しての統計的な注意点をまとめてみます。サンプル数が大規模なデータサンプル数が数千〜数億といったデータでは、α水準が5%等で検定を行うこと自体が無意味なことが多いです。なぜかというと、サンプル数が多いと必然的に平均値の標準誤差が小さくなるので有… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fiisssseeiiii.hatenablog.com%2Fentry%2F20100924%2F1285316652" title="大規模データに対する統計手法 - 『企業成長の方程式 ― AIDグロースコミットによる成長戦略』" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/i/isseing333/20100924/20100924170411.jpg Hatena Blog https://hatena.blog 2010-09-24 17:24:12 大規模データに対する統計手法 rich https://iisssseeiiii.hatenablog.com/entry/20100924/1285316652 1.0 100%