【Python】Googleスプレッドシートの読み込み|非プログラマーのためのスクレイピング講座(Colaboratory) | ムノログ 合同会社ムジンケイカクプロのITノウハウブログ
Pythonと機械学習

【Python】Googleスプレッドシートの読み込み|非プログラマーのためのスクレイピング講座(Colaboratory)

python Pythonと機械学習

スプレッドシートからデータを読み込みます。

DBが扱いにくいとか、スプレッドシートで別処理を共同作業者と行う場合にも向いています。

【Python】非プログラマーのためのスクレイピング講座目次(Colaboratory)

注意

私は、別に綺麗にプログラムを書けるわけでも、知識豊富なわけでもありません。

このコンテンツは、気軽に触って学べれば、あとは自分で頑張るって人を応援するコンテンツです。

Colaboratoryを使って環境構築や個々人の環境の差をなくしています。

Colaboratoryは速いです。

スプレッドシートの読み込み

あらかじめ、ドライブをマウント(読み込んで)しておきます。

以下の場合は、Google Drive直下のColab Notebooksフォルダの中のsampleフォルダをマウント。

ここにスプレッドシートを作っておきます。

スプレッドシート名は「テストのスプレッドシート」

シート名は「テストのシート」

from google.colab import drive 
drive.mount('/content/drive/')
%cd "/content/drive/My Drive/Colab Notebooks/sample/"

スプレッドシートを読み出す関数(1列のみ)

#スプレッドシートからキーワード抜き出し
def gc_list_url(filename,sheetname):
  ss = gc.open(filename)
  st = ss.worksheet(sheetname)
  words_lists = st.col_values(1)
  return words_lists

リスト形式でデータを読み込んで返します。

st.col_values(1)が指定シートの一列目だけを限定した形です。

実行

words_lists = gc_list_url(filename,sheetname)
words_lists
['あ', 'い', 'う', 'え', 'お', 'か', 'き', 'くけこ', 'さしすせそ']

スプレッドシートを読み出す関数(2列以上)

こちらは2列以上、シート全体のデータを取得。

#置換用スプレッドシートからキーワード抜き出し
def gc_list_allget(filename,sheetname):
  ss = gc.open(filename)
  st = ssworksheet(sheetname)
  words_lists = st.get_all_values()
  return words_lists

実行

words_lists = gc_list_allget(filename,sheetname)
words_lists
[['あ', '1'],
 ['い', '2'],
 ['う', '3'],
 ['え', '4'],
 ['お', '5'],
 ['か', '6'],
 ['き', '7'],
 ['くけこ', '8'],
 ['さしすせそ', '9']]

値の取得

words_lists[0][0]

「あ」

words_lists[0][1]

これで「1」

words_lists[1][0]

これで「い」