【Python】Pythonでスクレイピングするために

noteさんの方で記事更新を行っております。

pythonの技術・スクレイピングや機械学習に関して書いております。

是非ご覧ください。

▽Pythonのお話の定期更新マガジン

▽機械学習 kaggleへの再挑戦

kaggle銅メダル1枚取ってから、更に気になることがありました。

▽スクレイピング用プログラムの見本

note用で記事タイトルの一覧を作りますが、ベースがその他サイトに転用できる仕様になっているのでご興味あれば。

▽スクレイピングの注意点

ご依頼いただく際にも、自作される場合にも、こういうことに気をつけているんだなという参考になればと思います。

当社作業環境は、Windows10へ仮想環境でUbuntuをインストールし、その中にDBとAnacondaを設置しています。

  • スクレイピング対象サイトのサーバが重い時は、作業を停止して寝る。
  • 以前はPHP,今はPythonのみ案件をお受けしている。
  • 明示的に処理と処理の間にスリープをかけている。そちらのほうが作業が安定したからという経験則。 time.sleep(4)
  • BeautifulSoup(html, "lxml")
  • profile = webdriver.FirefoxProfile() Chrome+Selenium
  • DBに結果を書き込む形とCSVに出力する形、どちらでも対応可能。
  • CSVは、いらないデータや空白が挿入されてしまって、列が揃わないことも多いので、それを制御するためにExcelVBAツールも製作可能。