Pandasを使って文字列のカテゴリーデータを「ダミー変数化」または「one-hotエンコーディング」と呼ばれる0か1に変換する方法。
pandas.get_dummies()を使います。簡単。

はじめに

前回は、sklearnに付属するアヤメの分類データを使って、アヤメの種類の正解ラベルが文字列表記されたカテゴリーデータを数値化する方法をやりました。超簡単便利。応用でいろいろ使えそうです。
【Pandas】文字列のラベルを自動で数値化するpd.factorize(文字列配列) - よちよちpython

そのデータのアヤメの種類は3種類で、sklearn付属のものはそれぞれ0、1、2と番号で割り振ってある。数値は文字列のカテゴリカルデータを便宜上数字に置き換えているだけであり、本来は数字の大小は意味しないのですが、機械学習分類モデルによっては数値の大小が分類精度に関わる場合がある。

そこで、前処理として、カテゴリーデータを0か1だけで表現する方法が今回のダミー変数化です。

実行環境

Android スマホ
Termux
Jupyter Notebook6.4.0
Python3.9.6
外部ライブラリ
- Pandas

データの表示

sklearn付属のアヤメの分類データで、正解ラベル(アヤメの種類)は既に0,1,2と数値化されていたと思います。
今回使うデータはネットからダウンロードしたもので、文字列で表記されております。表示します。

import pandas as pd

# アヤメのデータ (ネットからダウンロードしたもの
fname = "iris.csv"# csvを開く
df = pd.read_csv(fname)
df

	sepal.length	sepal.width	petal.length	petal.width	variety
0	5.1	3.5	1.4	0.2	Setosa
1	4.9	3.0	1.4	0.2	Setosa
2	4.7	3.2	1.3	0.2	Setosa
3	4.6	3.1	1.5	0.2	Setosa
4	5.0	3.6	1.4	0.2	Setosa
...	...	...	...	...	...
145	6.7	3.0	5.2	2.3	Virginica
146	6.3	2.5	5.0	1.9	Virginica
147	6.5	3.0	5.2	2.0	Virginica
148	6.2	3.4	5.4	2.3	Virginica
149	5.9	3.0	5.1	1.8	Virginica

150 rows × 5 columns

一番右の列「variety」はアヤメの種類名が文字列で入っている。1列で表されています。

種類名を確認しておきます。

# variety列のユニーク(アヤメの種類名print(df["variety"].unique())

# variety列のユニーク数print(df["variety"].nunique())

['Setosa''Versicolor''Virginica']
3

3種類。文字列。

カテゴリカルデータのダミー変数化(one-hot エンコーディング)

分類の正解ラベル(目的変数)となる「variety」列は1列です。これをダミー変数化すると、種類と同じ数の列に置き換えられます。つまり3列になる。
pd.get_dummies()を使います。

その前に、簡単な例で練習。

# リスト(適当
arr = "卵 牛乳 小麦粉 砂糖".split()

# データフレームで表示
pd.DataFrame(arr)

	0
0	卵
1	牛乳
2	小麦粉
3	砂糖

一列です。ダミー変数化すると、↓のように増えます。

# ダミー変数化
pd.get_dummies(arr)

	卵	小麦粉	牛乳	砂糖
0	1	0	0	0
1	0	0	1	0
2	0	1	0	0
3	0	0	0	1

0か1で表された。その代わり、列が増えた。4種類あるので4列です。
1になっている時はその列のカラム名が指す種類であることを示しています。

しかし、もし卵以外が0なら確実に卵は1になると分かりますので、列を1つ減らせる。pd.get_dummies()の引数でdrop_first=Trueを指定すると出来る。

# ダミー変数化
pd.get_dummies(arr, drop_first=True)

	小麦粉	牛乳	砂糖
0	0	0	0
1	0	1	0
2	1	0	0
3	0	0	1

「卵」列が消えてしまった。だが卵である場合の表現はこれだけで出来る。
「小麦粉」「牛乳」「砂糖」が0なら、残る「卵」が確実に1だと分かる。

では本番、ダウンロードしたアヤメのデータでやります。

# ダミー変数化
pd.get_dummies(df)

	sepal.length	sepal.width	petal.length	petal.width	variety_Setosa	variety_Versicolor	variety_Virginica
0	5.1	3.5	1.4	0.2	1	0	0
1	4.9	3.0	1.4	0.2	1	0	0
2	4.7	3.2	1.3	0.2	1	0	0
3	4.6	3.1	1.5	0.2	1	0	0
4	5.0	3.6	1.4	0.2	1	0	0
...	...	...	...	...	...	...	...
145	6.7	3.0	5.2	2.3	0	0	1
146	6.3	2.5	5.0	1.9	0	0	1
147	6.5	3.0	5.2	2.0	0	0	1
148	6.2	3.4	5.4	2.3	0	0	1
149	5.9	3.0	5.1	1.8	0	0	1

150 rows × 7 columns

pd.get_dummies()の引数にデータフレーム全体を渡しました。
元々数値化された列はそのままで、「variety」1列だけが「varietyナンチャラ」の3列に変わった。

上でやったようにdrop_first=Trueで1つ次元を減らします。

# ダミー変数化
pd.get_dummies(df, drop_first=True)

	sepal.length	sepal.width	petal.length	petal.width	variety_Versicolor	variety_Virginica
0	5.1	3.5	1.4	0.2	0	0
1	4.9	3.0	1.4	0.2	0	0
2	4.7	3.2	1.3	0.2	0	0
3	4.6	3.1	1.5	0.2	0	0
4	5.0	3.6	1.4	0.2	0	0
...	...	...	...	...	...	...
145	6.7	3.0	5.2	2.3	0	1
146	6.3	2.5	5.0	1.9	0	1
147	6.5	3.0	5.2	2.0	0	1
148	6.2	3.4	5.4	2.3	0	1
149	5.9	3.0	5.1	1.8	0	1

150 rows × 6 columns

「variety_Setona」が消え、3種類が2列で表現された。簡単でした。

おわりに

使用したデータは「variety」列だけが文字列の、しかもたった3種類のカテゴリカルデータだったので、ダミー変数化しても列はそれほど増えませんでした。
しかし、もしカテゴリーの数がもっと多く、さらに説明変数にもカテゴリカルデータが含まれその種類も多いとなれば、その分だけ計算量が爆発的に増加する。

たとえは、タイタニックの乗客の生存率を予測する時に使うデータでは、「性別」「客室のグレード」「客室の場所」「出身地」などの文字列カテゴリーデータを含みます。これらは体脂肪率や避難の優先度、身体能力、避難のしやすさ、などに関わると考えられる。
このような要素とカテゴリー数が増えれば増えるほど特徴量も爆増し、計算量も増える。

果たしてそのデータは予測モデルの精度を上げる為に必要か、計算量をどうしたら削減できるか、といったことを考えるのが「特徴量エンジニアリング」というもののようです。機械学習アルゴリズムの深い理解と共にデータ内容のドメイン知識や分析目的の理解も要求されるようで非常に難解。読んでもわからん ( ；∀；)

燃料や電気代の値上がりの話がありますけど、~~コロナの分析みたいな~~「不毛」とクラスタリングされた分野のデータ分析にコンピューターパワーを使えなくなってくるのかも…と思ったり。

以上です。

【Pandas】カテゴリカルデータのダミー変数化(one-hot)する pandas.get_dummies()

はじめに

データの表示

カテゴリカルデータのダミー変数化(one-hot エンコーディング)

おわりに

Trending Articles

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

洞ノ上、渡辺、武村選手が石垣合宿　車イス陸上チーム

学術・研究：部落探訪(270)香川県坂出市西庄町醍醐北

【ジャニーズグッズ専門店】JaniJaniFanキャナルシティ博多店

アライアンス・アライブ攻略・溶岩の洞窟：魔竜イベント

同一のカラム値をもつもの同士の中での連番

株式会社アルテカ　代表　野村紘一

五嶋みどり　タングルウッドの奇跡　その時何が起こったのか？

二代目彦根緑会【雄成会・神戸山口組】

2018年3月16日号　上越信用金庫（3月1日付）

安田菜津紀と結婚の夫はこの人？在日韓国人か？出身高校や学歴も

気付いたら 10

人気占い師・Sakkoが占う！今日のアナタの運勢と、ラッキーカラーは・・・

【ディズニーランドパリ】日本にないオススメアトラクション13選【ウォルトディズニースタジオ】

KANA-BOON、新曲「生きてゆく」MV本編がついに解禁

突撃！ビデオの鉄人

福島県郡山市強姦事件

レアル・マドリードアンセム「Hala Madrid y Nada Más」カナ歌詞と和訳とPV（デシマイムノ）

Gibson (Acoustic) 1928 L-1 Blues Tribute

本日の気の迷い…TOA REQ-100