インプレス[コンピュータ・IT]ムック Pythonデータ分析/機械学習のための基本コーディング! pandasライブラリ活用入門
インプレス / 2019年02月22日 / 全423ページ
データ分析や機械学習では、まず必要なデータを取り込んで整備する必要があります。Pythonでは、そのためのライブラリpandasが用意されています。本書では、まずpandasの使い方の基本を説明。その後、データの整備/集約、可視化、モデル採択、正則化など、一連の定石的な手法を紹介。付録では、Pythonのインストールや文法を確認できます。本書は、データ分析や機械学習を進める前の準備段階として、データ処理の全体を見渡しつつその手法を確認できる一冊です(本書は『Pandas for Everyone: Python Data Analysis』の翻訳書です)。
目次
- 商標など
- 口絵
- 序文
- まえがき
- 本書の構成
- 本書の読み方
- データの入手方法など
- 謝辞
- 第1部 基本的な使い方の基本
- 第1章 DataFrameの基礎1.1 はじめに
- 1.2 最初のデータセットをロードする
- 1.3 列、行、セルを見る
- 1.4 グループ化と集約
- 1.5 基本的なグラフ
- 1.6 まとめ
- 第2章 pandasのデータ構造2.1 はじめに
- 2.2 データを自作する
- 2.3 Seriesについて
- 2.4 DataFrameについて
- 2.5 SeriesとDataFrameの書き換え
- 商標など
- 口絵
- 序文
- まえがき
- 本書の構成
- 本書の読み方
- データの入手方法など
- 謝辞
- 第1部 基本的な使い方の基本
- 第1章 DataFrameの基礎1.1 はじめに
- 1.2 最初のデータセットをロードする
- 1.3 列、行、セルを見る
- 1.4 グループ化と集約
- 1.5 基本的なグラフ
- 1.6 まとめ
- 第2章 pandasのデータ構造2.1 はじめに
- 2.2 データを自作する
- 2.3 Seriesについて
- 2.4 DataFrameについて
- 2.5 SeriesとDataFrameの書き換え
- 2.6 データのエクスポートとインポート
- 2.7 まとめ
- 第3章 プロットによるグラフ描画3.1 はじめに
- 3.2 matplotlib
- 3.3 matplotlibによる統計的グラフィックス
- 3.4 seaborn
- 3.5 pandasのオブジェクト
- 3.6 seabornのテーマとスタイル
- 3.7 まとめ
- 第2部 データ操作によるクリーニング
- 第4章 データを組み立てる4.1 はじめに
- 4.2 整然データ4.3 連結
- 4.4 複数のデータセットをマージする
- 4.5 まとめ
- 第5章 欠損データへの対応5.1 はじめに
- 5.2 NaNとは何か
- 5.3 欠損値はどこから来るのか
- 5.4 欠損データの扱い
- 5.5 まとめ
- 第6章 整然データを作る6.1 はじめに
- 6.2 複数列に(変数ではなく)値が入っているとき
- 6.3 複数の変数を含む列がある場合
- 6.4 行と列の両方に変数があるとき
- 6.5 1個の表に観察単位が複数あるとき(正規化)
- 6.6 同じ観察単位が複数の表にまたがっているとき
- 6.7 まとめ
- 第3部 データの準備―変換整形結合など
- 第7章 データ型の概要と変換7.1 はじめに
- 7.2 データ型7.3 型変換
- 7.4 カテゴリ型データ
- 7.5 まとめ
- 第8章 テキスト文字列の操作8.1 はじめに
- 8.2 文字列
- 8.3 文字列メソッド
- 8.4 その他の文字列メソッド
- 8.5 文字列のフォーマッティング
- 8.6 正規表現
- 8.7 regexライブラリ8.8 まとめ
- 第9章 applyによる関数の適用9.1 はじめに
- 9.2 関数
- 9.3 applyの基本
- 9.4 applyの応用
- 9.5 関数のベクトル化
- 9.6 ラムダ関数
- 9.7 まとめ
- 第10章 groupby演算による分割-適用-結合10.1 はじめに
- 10.2 集約
- 10.3 変換(transform)
- 10.4 フィルタリング
- 10.5 DataFrameGroupByオブジェクト
- 10.6 マルチインデックスを使う
- 10.7 まとめ
- 第11章 日付時刻データの操作11.1 はじめに
- 11.2 Pythonのdatetimeオブジェクト11.3 datetimeへの変換
- 11.4 日付を含むデータをロードする
- 11.5 日付のコンポーネントを抽出する
- 11.6 日付の計算とtimedelta
- 11.7 datetimeのメソッド
- 11.8 株価データを取得する
- 11.9 日付によるデータの絞り込み
- 11.10 日付の範囲
- 11.11 値をシフトする
- 11.12 リサンプリング
- 11.13 時間帯
- 11.14 まとめ
- 第4部 モデルをデータに適合させる
- 第12章 線形モデル12.1 はじめに12.2 単純な線形回帰
- 12.3 重回帰
- 12.4 sklearnでインデックスラベルを残す
- 12.5 まとめ
- 第13章 一般化線形モデル13.1 はじめに13.2 ロジスティック回帰
- 13.3 ポアソン回帰
- 13.4 その他の一般化線形モデル13.5 生存分析
- 13.6 まとめ
- 第14章 モデルを診断する14.1 はじめに14.2 残差
- 14.3 複数のモデルを比較する
- 14.4 k分割交差検証
- 14.5 まとめ
- 第15章 正則化で過学習に対処する15.1 はじめに15.2 なぜ正則化するのか
- 15.3 LASSO回帰
- 15.4 リッジ回帰
- 15.5 ElasticNet
- 15.6 交差検証
- 15.7 まとめ
- 第16章 クラスタリング16.1 はじめに16.2 k平均法
- 16.3 階層的クラスタリング
- 16.4 まとめ
- 第5部 締めくくり―次のステップへ
- 第17章 pandas周辺の強力な機能17.1 Pythonの科学計算スタック
- 17.2 コードの性能
- 17.3 大きなデータをより速く処理する
- 第18章 さらなる学びのための情報源18.1 1人歩きは危険だ!18.2 地元でのミートアップ
- 18.3 カンファレンス
- 18.4 インターネット18.5 ポッドキャスト
- 18.6 まとめ
- 第6部 付録
- 付録A インストール
- 付録B コマンドライン
- 付録C プロジェクトのテンプレート
- 付録D Pythonの使い方
- 付録E ワーキングディレクトリ
- 付録F 環境
- 付録G パッケージのインストール
- 付録H ライブラリのインポート
- 付録I リスト
- 付録J タプル
- 付録K 辞書
- 付録L 値のスライス
- 付録M ループ
- 付録N 内包表記(comprehension)
- 付録O 関数
- 付録P 範囲とジェネレータ
- 付録Q 複数代入
- 付録R numpyのndarray
- 付録S クラス
- 付録T Odo(TheShapeshifter)
- 参考文献
- 索引
- 著者プロフィールなど
- 奥付
※このデジタル雑誌には目次に記載されているコンテンツが含まれています。それ以外のコンテンツは、本誌のコンテンツであっても含まれていません のでご注意ください。
※電子版では、紙の雑誌と内容が一部異なる場合や、掲載されないページがある場合があります。