インプレス[コンピュータ・IT]ムック Pythonスクレイピングの基本と実践 データサイエンティストのためのWebデータ収集術
インプレス / 2018年12月17日 / 全315ページ
本書では、Pythonを使ったスクレイピングの基本と実践を解説。第1部で「HTTP/HTML/CSSの仕組み」「requestsやBeautiful Soupライブラリ活用の基本」を説明。第2部で「フォーム、ログイン、Cookieの操作」「JavaScriptサイトへの対処」「クローラーへの拡張」を解説。第3部で「ベストプラクティス」「規模の大きいサンプル」を示し、データサイエンス指向の使用法にも焦点を当てています。本当に興味深いプロジェクトは、情報という宝の山を探索することから始まります。本書を携えて探索の旅を進めていきましょう。
目次
- 商標
- 口絵
- 著者紹介テクニカルレビュアー紹介
- はじめに
- 第1部 Webスクレイピングの基礎
- 第1章 イントロダクション―スクレイピングの考え方、Pythonの準備
- 1.1 Webスクレイピングとは1.1.1 なぜデータサイエンスでWebスクレイピングを使うのか
- 1.1.2 だれがWebスクレイピングの使うのか
- 1.2 準備1.2.1 セットアップ
- 1.2.2 Python基礎の確認
- 第2章 HTTPでWebと対話してみよう―HTTPとrequestsライブラリの基本事項
- 2.1 Webによるネットワーク通信の仕組み
- 2.2 HTTP(HyperText Transfer Protocol)
- 2.3 PythonでHTTPを操作する:requestsライブラリ
- 2.4 クエリ文字列:パラメーター付きのURL
- 第3章 Webのスープをかき回そう―HTML+CSSページからの情報収集の基本
- 3.1 HTML(HyperText Markup Language)
- 3.2 ブラウザーを開発用ツールとして使用する
- 3.3 CSS(Cascading Style Sheets)
- 3.4 Beautiful Soupライブラリ
- 商標
- 口絵
- 著者紹介テクニカルレビュアー紹介
- はじめに
- 第1部 Webスクレイピングの基礎
- 第1章 イントロダクション―スクレイピングの考え方、Pythonの準備
- 1.1 Webスクレイピングとは1.1.1 なぜデータサイエンスでWebスクレイピングを使うのか
- 1.1.2 だれがWebスクレイピングの使うのか
- 1.2 準備1.2.1 セットアップ
- 1.2.2 Python基礎の確認
- 第2章 HTTPでWebと対話してみよう―HTTPとrequestsライブラリの基本事項
- 2.1 Webによるネットワーク通信の仕組み
- 2.2 HTTP(HyperText Transfer Protocol)
- 2.3 PythonでHTTPを操作する:requestsライブラリ
- 2.4 クエリ文字列:パラメーター付きのURL
- 第3章 Webのスープをかき回そう―HTML+CSSページからの情報収集の基本
- 3.1 HTML(HyperText Markup Language)
- 3.2 ブラウザーを開発用ツールとして使用する
- 3.3 CSS(Cascading Style Sheets)
- 3.4 Beautiful Soupライブラリ
- 3.5 Beautiful Soupの詳細
- 第2部 高度なWebスクレイピング
- 第4章 POSTメソッドやクッキーなどへの対処法
- 4.1 フォームとPOSTリクエストの操作
- 4.2 HTTPリクエストメソッドのまとめ
- 4.3 ヘッダーの詳細
- 4.4 Cookieの処理
- 4.5 requestsのセッションを利用する
- 4.6 バイナリ、JSON、その他のコンテンツ形式
- 第5章 JavaScriptへの対処法
- 5.1 JavaScriptとは何か
- 5.2 JavaScriptのスクレイピング
- 5.3 Seleniumによるスクレイピング
- 5.4 Seleniumの高度な使用法
- 第6章 スクレイピングからクローリングへ―Webクローラー開発のポイント
- 6.1 Webクローリングとは
- 6.2 PythonによるWebクローリング
- 6.3 結果をデータベースに保存する
- 第3部 Webスクレイピングの実践入門
- 第7章 管理と法律に関する問題
- 7.1 データサイエンスのプロセス
- 7.2 Webスクレイピングが効果的な領域
- 7.3 法務に関する問題
- 第8章 有用なツールとベストプラクティス
- 8.1 スクレイピングに役立つその他のツール8.1.1 Pythonの代替ライブラリ8.1.2 Scrapy
- 8.1.3 キャッシュ処理
- 8.1.4 キャッシュ処理プロキシサーバー8.1.5 ほかのプログラミング言語でのスクレイピング
- 8.1.6 キャッシュ処理コマンドラインツール
- 8.1.7 グラフィカルなスクレイピングツール
- 8.2 ベストプラクティスとヒント
- 第9章 データサイエンス指向の実践サンプル―ファッションデータニュース記事商品レビューなどの収集と分析
- 9.1 Hacker Newsのスクレイピング
- 9.2 Hacker News APIの利用
- 9.3 名言のスクレイピング
- 9.4 書籍の情報をスクレイピングする
- 9.5 GitHubのスター数をスクレイピングする
- 9.6 住宅ローン金利の情報をスクレイピングする
- 9.7 IMDbの評価をスクレイピングしてビジュアル化する
- 9.8 IATAの航空情報をスクレイピングする
- 9.9 Webフォーラムの対話をスクレイピングして解析する
- 9.10 ファッションのデータセットを収集してクラスタリングする
- 9.11 Amazonのレビューをスクレイピングしてセンチメント分析を行う
- 9.12 ニュース記事のスクレイピングと分析
- 9.13 Wikipediaをスクレイピングしてグラフ化と分析を行う
- 9.14 役員のグラフをスクレイピングしてビジュアル化する
- 9.15 ディープラーニングによってCAPTCHAを突破する
- 索引
- 翻訳者紹介+STAFF LIST
- 奥付
※このデジタル雑誌には目次に記載されているコンテンツが含まれています。それ以外のコンテンツは、本誌のコンテンツであっても含まれていません のでご注意ください。
※電子版では、紙の雑誌と内容が一部異なる場合や、掲載されないページがある場合があります。