インプレス[コンピュータ・IT]ムック pandasライブラリ活用入門[第2版]データクリーニング
インプレス / 2023年09月14日 / 全521ページ
pandasで効率的なデータ操作と可視化を実践! 解釈しやすい形にデータセットを変更できる― データの取り込みからデータ解析をスムーズに進めるためのPythonライブラリとしてpandasが用意されています。本書では、pandasなどを使ったデータ分析全体の基本手法を網羅的にカバー。巻末ではPython周辺の基本を確認できます。初中級レベルの方がコードを試しながら理解を深めたり、おぼろげな知識について確認したりすることで、基礎技術の定着やスキルアップが図れる一冊です。
目次
- 口絵
- 本扉
- サンプル正誤表など
- 序文―第2版に寄せて
- 初版の序文
- はじめに
- 本書の構成
- 本書の読み方開発環境の準備
- 謝辞初版の謝辞
- 著者について
- 第2版での変更点
- 目次
- 第1部 基本的な使い方
- 第1章 DataFrameの基礎1.1 はじめに
- 1.2 最初のデータセットをロードする
- 1.3 列、行、セルを見る
- 1.4 グループ分けと集約の計算
- 1.5 基本的なプロット
- 1.6 まとめ
- 第2章 pandasのデータ構造
- 口絵
- 本扉
- サンプル正誤表など
- 序文―第2版に寄せて
- 初版の序文
- はじめに
- 本書の構成
- 本書の読み方開発環境の準備
- 謝辞初版の謝辞
- 著者について
- 第2版での変更点
- 目次
- 第1部 基本的な使い方
- 第1章 DataFrameの基礎1.1 はじめに
- 1.2 最初のデータセットをロードする
- 1.3 列、行、セルを見る
- 1.4 グループ分けと集約の計算
- 1.5 基本的なプロット
- 1.6 まとめ
- 第2章 pandasのデータ構造
- 2.1 データを自作する
- 2.2 Seriesについて
- 2.3 DataFrameについて
- 2.4 SeriesとDataFrameの書き換え
- 2.5 データのエクスポートとインポート
- 2.6 まとめ
- 第3章 プロッティングによるグラフ描画
- 3.1 データを可視化する理由3.2 matplotlibの基本
- 3.3 matplotlibによる統計的グラフィックス
- 3.4 seaborn
- 第4章 「整然データ」を作る
- 4.1 列に(変数ではなく)値が入っているとき
- 4.2 複数の変数を含む列があるとき
- 4.3 行と列の両方に変数があるとき
- 4.4 まとめ
- 第5章 関数を適用(apply)する
- 5.1 関数の初歩
- 5.2 applyの基本
- 5.3 関数のベクトル化
- 5.4 ラムダ関数
- 5.5 まとめ
- 第2部 データ操作
- 第6章 データの組み立て6.1 データセットを組み合わせる
- 6.2 連結
- 6.3 データが観測単位ごとの表に分かれている場合
- 6.4 複数のデータセットをマージする
- 6.5 まとめ
- 第7章 データの正規化7.1 1個の表に観察単位が複数あるとき(正規化)
- 7.2 まとめ
- 第8章 groupby演算による分割-適用-結合
- 8.1 集約
- 8.2 変換(transform)
- 8.3 フィルタリング
- 8.4 DataFrameGroupByオブジェクト
- 8.5 マルチインデックスの使い方
- 8.6 まとめ
- 第3部 データの型
- 第9章 欠損データ9.1 NaNとは何か
- 9.2 欠損値はどこから来るのか
- 9.3 欠損データの扱い
- 9.4 pandas組み込みのNA(欠損値)
- 9.5 まとめ
- 第10章 データ型10.1 データ型
- 10.2 型変換
- 10.3 カテゴリ型データ
- 第11章 文字列とテキストデータ
- 11.1 文字列
- 11.2 文字列メソッド
- 11.3 その他の文字列メソッド
- 11.4 文字列の書式整形(f文字列)
- 11.5 正規表現(RegEx)
- 11.6 regexライブラリ11.7 まとめ
- 第12章 日付と時刻12.1 Pythonのdatetimeオブジェクト
- 12.2 datetimeへの変換
- 12.3 日付を含むデータをロードする
- 12.4 日付の各部を抽出する
- 12.5 日付の計算とtimedelta
- 12.6 datetimeのメソッド
- 12.7 株価データを取得する
- 12.8 日付によるデータの絞り込み
- 12.9 日付の範囲
- 12.11 リサンプリング
- 12.12 時間帯(タイムゾーン)
- 12.13 日付と時刻の扱いが優れたarrowライブラリ
- 12.14 まとめ
- 第4部 データモデリング
- 第13章 線形回帰モデル13.1 単純な線形回帰
- 13.2 重回帰
- 13.3 カテゴリ変数を使うモデル
- 13.4 sklearnのone-hotエンコーディングと、トランスフォーマーのパイプライン
- 13.5 まとめ
- 第14章 一般化線形モデル
- 14.1 ロジスティック回帰
- 14.2 ポアソン回帰
- 14.3 その他の一般化線形モデル
- 14.4 まとめ
- 第15章 生存分析
- 15.1 生存データ
- 15.2 カプランマイヤー曲線
- 15.3 Coxの比例ハザードモデル
- 15.4 まとめ
- 第16章 モデルを評価する
- 16.2 複数のモデルを比較する
- 16.3 k分割交差検証
- 16.4 まとめ
- 第17章 正則化で過学習に対応する17.1 正則化とは
- 17.2 LASSO回帰
- 17.3 リッジ回帰
- 17.4 Elastic Net
- 17.5 交差検証
- 17.6 まとめ
- 第18章 クラスタリング18.1 k平均法
- 18.2 階層的クラスタリング
- 18.3 まとめ
- 第5部 次のステップへ
- 第19章 pandas周辺の強力な機能19.1 Pythonの科学計算スタック
- 19.2 コードの性能
- 19.6 Polars19.7 pyjanitor19.8 pandera19.9 機械学習
- 19.10 出版19.11 ダッシュボード19.12 まとめ
- 第20章 仲間と学び続けよう20.1 地元でのミートアップ
- 20.2 カンファレンス
- 20.3 The Carpentries20.4 ポッドキャスト20.5 その他のリソース
- 20.6 まとめ
- 第6部 付録
- 付録A コンセプトマップ
- 付録B インストールと設定
- 付録C コマンドライン
- 付録D プロジェクトのテンプレート
- 付録E Pythonの使い方
- 付録F ワーキングディレクトリ
- 付録G 環境
- 付録H パッケージのインストール
- 付録I ライブラリのインポート
- 付録J コーディングスタイル
- 付録K コンテナ(リスト、タプル、辞書)
- 付録L 値のスライスと範囲
- 付録M ループ
- 付録N リストの内包表記
- 付録O 関数
- 付録P 範囲とジェネレータ
- 付録Q 複数代入
- 付録R NumPyのndarray
- 付録S クラス
- 付録T SettingWithCopyWarning
- 付録U メソッドチェーン
- 付録V コードの実行時間を計測する
- 付録W 文字列の書式整形(フォーマッティング)
- 付録X 条件文(if-elif-else)
- 付録Y New York ACSによるロジスティック回帰の例
- 付録Z 結果をR言語で再現する
- 主な参考文献
- 索引
- 翻訳者監訳者プロフィール
- 奥付
※このデジタル雑誌には目次に記載されているコンテンツが含まれています。それ以外のコンテンツは、本誌のコンテンツであっても含まれていません のでご注意ください。
※電子版では、紙の雑誌と内容が一部異なる場合や、掲載されないページがある場合があります。