【Python】Pythonでスクレイピングするために | ムノログ 合同会社ムジンケイカクプロのITノウハウブログ
Pythonと機械学習

【Python】Pythonでスクレイピングするために

python Pythonと機械学習

noteさんの方で記事更新を行っております。

pythonの技術・スクレイピングや機械学習に関して書いております。

是非ご覧ください。

▽Pythonのお話の定期更新マガジン

Python悪戦苦闘|ムジン #IT業務改善&ネットショップ運営改善やってます|note
プログラミング言語「Python」をノンプログラマーがやったらこうなる。悪戦苦闘の連続でも、全くめげない奮闘記。

▽機械学習 kaggleへの再挑戦

kaggle銅メダル1枚取ってから、更に気になることがありました。

ヘボkagglerのTitanic再挑戦【直感失敗編】 #kaggle #機械学習|ムジン #IT業務改善&ネットショップ運営改善やってます
お世話になっております。 ふと疑問に思ったのでやってみます。 9ヶ月ぶりにタイタニックをやってみることにしました。 Kaggle CompetitionsKaggle is the world’s largest data science community with powwww.kaggle.com ここにいって、...

▽スクレイピング用プログラムの見本

note用で記事タイトルの一覧を作りますが、ベースがその他サイトに転用できる仕様になっているのでご興味あれば。

【Python】note記事のバックアップ|Webスクレイピングツール無料作成|実際のプログラムと使い方説明|Colaboratory|ムジン #IT業務改善&ネットショップ運営改善やってます
note記事のバックアップのための補正版、こちらになります。 note記事のWebスクレイピングとバックアップを自動で行うためのTIPS。Pythonで機械学習やろうよ!【第6回】です。 お世話になっております。 合同会社ムジンケイカクプロ 代表ムジンです。 note記事のWebスクレイピングをする理由 note記事の...

▽スクレイピングの注意点

ご依頼いただく際にも、自作される場合にも、こういうことに気をつけているんだなという参考になればと思います。

当社作業環境は、Windows10へ仮想環境でUbuntuをインストールし、その中にDBとAnacondaを設置しています。

  • スクレイピング対象サイトのサーバが重い時は、作業を停止して寝る。
  • 以前はPHP,今はPythonのみ案件をお受けしている。
  • 明示的に処理と処理の間にスリープをかけている。そちらのほうが作業が安定したからという経験則。
    time.sleep(4)
  • BeautifulSoup(html, “lxml”)
  • profile = webdriver.FirefoxProfile()
    Chrome+Selenium
  • DBに結果を書き込む形とCSVに出力する形、どちらでも対応可能。
  • CSVは、いらないデータや空白が挿入されてしまって、列が揃わないことも多いので、それを制御するためにExcelVBAツールも製作可能。