【Python】よく忘れるダミーデータ作成方法のパターン集 | ムノログ 合同会社ムジンケイカクプロのITノウハウブログ
Pythonと機械学習

【Python】よく忘れるダミーデータ作成方法のパターン集

python Pythonと機械学習

テストをする際に、ダミーデータを作成することがあると思います。
手元で手早くダミーデータが作れると、実体験からも研究がはかどります。
ここでは、ダミーデータの作成方法をまとめています。

テスト用のダミーデータを作る|np.arangeとpd.util.testing.rands_array

RhQ1swnnz9というようなランダムの10文字を1000000行でName列へ。
IDは1000000個の連番で0から。
pd.util.testing.rands_array(文字数指定,要素数)

import pandas as pd
import numpy as np
import string
import random

N = 1000000
df = pd.DataFrame({'ID': np.arange(N),
                   'Name': pd.util.testing.rands_array(10, N),
                  })
df.shape
print(df)

テスト用のダミーデータを作る|pd.util.testing.makeDataFrame()

pd.util.testing.makeDataFrame()は、デフォルトで30行4列。

pd.util.testing.makeDataFrame()
##Nanができる
pd.util.testing.makeMissingDataframe()

以下はよく掲載されている例なのですが、試してみたら行列が制御できませんでした。

pd.util.testing.N = 10
pd.util.testing.K = 5
pd.util.testing.makeDataFrame()

CSVでファイル出力・書き出し

csv_outの部分は任意の名前で。

df.to_csv('csv_out.csv')