Pythonクローリング&スクレイピング[増補改訂版] -データ収集・解析のための実践開発ガイド

著者 :
  • 技術評論社
3.60
  • (0)
  • (3)
  • (2)
  • (0)
  • (0)
本棚登録 : 144
感想 : 2
本ページはアフィリエイトプログラムによる収益を得ています
  • Amazon.co.jp ・本 (440ページ)
  • / ISBN・EAN: 9784297107383

作品紹介・あらすじ

Pythonによるクローリング・スクレイピングの入門から実践までを解説した書籍です。2017年の初版から内容をアップデート、新ライブラリの解説などを追加した増補改訂版です。基本的なクローリングやAPIを活用したデータ収集、HTMLやXMLの解析から、データ取得後の分析や機械学習などの処理まで解説。データの収集・解析、活用がしっかりと基本から学べます。Webサービスの開発やデータサイエンスや機械学習分野で実用したい人はもちろん、基礎から解説しているのでPython初心者でもつまずかずに学習できます。多数のライブラリ、強力なフレームワークを活用して高効率に開発できます。

感想・レビュー・書評

並び替え
表示形式
表示件数
絞り込み
  • request、BeautifulSoup、Scrapyを使ったスクレイピングに関する情報が充実しているが、Seleniumに関しては軽く触れる程度。
    どちらかというとスクレイピングよりもクローリングに比重が大きい。
    本書の意義として大きいのは、情報の網羅性だと思う。
    クローリング、スクレイピング、取得したデータのCSV出力から、保存先のDBの導入、DBへのデータ保存、PandasやElasticSearchiを用いてのデータ分析、さらにはVagrant、VirtualBox、Ubuntuを用いての仮想サーバ環境を用意してクローリング・スクレイピング用サーバー用意するなど、スクレイピング・クローリングのために必要な「周辺」情報までも幅広く網羅している。
    2019年発売の本で、今この感想を書いている2023年までには4年しかたっていないが、近年技術の革新ペースがあまりに早いため、純粋に活用するのは既に難しいかもしれない。が、腐らない知識として必要な情報が満載なので手元に置いておいて損はないだろう。

    スクレイピングが流行ったからだろうか、スクレイピングをしたい多くのサービス、例えばメルカリ、Google、Twitterなど大手のサービスはスクレイピングを禁止してしまった。
    巻末のあとがきにあるように、自社で使っている各種アプリや分散した情報を集約するのには大いに役に立つだろうし、コロナ情報を集約してリアルタイムで公開していた某Webサイトのように社会的に大きな意義を持つ使い方も可能なので、消えることはないだろう。
    また同時に、グレーゾーンやブラックな範疇を含め、金儲けのために情報を集めて一攫千金を狙う輩は多く、ランサーズのような業務委託マッチングサービスでは毎日スクレイピング案件をよく見る。

    Pythonブームによって誰でもPythonを使えるようになった今、スクレイピングスキルはかなり陳腐化してしまっていて、
    そういったスクレイピングプログラム作成の案件はかなり安く買いたたかれている。
    なので、仕事としてよりも、趣味や、自社における業務効率化として活用するのが今後の主流になっていくように思う。

  • 請求記号 547.48/Ka 86

全2件中 1 - 2件を表示

加藤耕太の作品

  • 話題の本に出会えて、蔵書管理を手軽にできる!ブクログのアプリ AppStoreからダウンロード GooglePlayで手に入れよう
ツイートする
×