データ整形を行う上で知っておきたい用語

POINT
- ・よく目にする「データ整形」「データクレンジング」「データクリーニング」
- ・データ整形する上で押さえておきたい基礎用語3選
よく目にする「データ整形」「データクレンジング」「データクリーニング」
手持ちのデータが整っておらず、思っていたようなデータ分析ができない……。そんな悩みを抱えている方も多いと思います。このような問題を解決できるサービスをWebで探してみると、見慣れないキーワードに巡り合うことはないでしょうか?
ここでは、データ整形にまつわる用語を解説させていただきます。
まずは、サービス名でよく見られる「データ整形」「データクレンジング」「データクリーニング」ですが、この3つは同じもの? それとも違うものなのでしょうか?
[データ整形 / データクレンジング / データクリーニング]
データクレンジングとデータクリーニングは基本的には同じ意味になりますが、データ整形は先述の2つに比べると少し広い意味を持っています。
「データ整形」は、データを集計できるように整えること。
「データクレンジング」「データクリーニング」は、データの誤字・脱字の修正や表記ゆれ(表記違い)の統一、重複データの削除や不足データの補填などにより不備を修正すること。
とされています。データ整形の作業の1つとして、データクレンジング、データクリーニングがあると考えていただけるとよいかと思います。
データ整形する上で押さえておきたい基礎用語3選
データ整形、データクレンジング、データクリーニングに関するWebサイトを見ていると、ここでも見慣れない言葉がいくつか出てくると思います。そこで、最低限これだけは押さえておきたいという基礎用語をご紹介します。
[表記ゆれ]
表記が混在していること。
例えば、「ABC」の場合、
エービーシーとABC(カナ・英字)、ABCとABC(半角・全角)
など、さまざまなパターンがあります。
[名寄せ]
複数のデータの中から同じデータをまとめること、統合すること。
データ内の重複を防ぎます。
[紐付け]
データとデータを繋げること。
異なるデータ同士でも、キーとなる(同じだと判別できる)項目があれば繋げることができます。
「データの美容室」では、お客様の課題解決に向け、わかりやすい言葉とともに伴走支援いたします。
まずは、お気軽にご相談ください。