QQ在線客服
免費咨詢熱線
400-615-1233
工作時間-工作日
8:30-17:30
立封
平封

Python數(shù)據(jù)挖掘技術

以CRISP行業(yè)標準流程為指導
  • 類  別:大數(shù)據(jù)與云計算
  • 書  名:Python數(shù)據(jù)挖掘技術
  • 主  編:孫玉榮 張佳
  • 定  價:49.8
  • 開  本:大16開
  • 印刷方式:雙色
  • 頁  數(shù):244
  • 時  間:2023年8月
  • 出  版  社:上海交通大學出版社
  • 書  號:978-7-313-29113-4

內容摘要

        本書主要介紹數(shù)據(jù)挖掘的基本技術和應用,全書共分11章,主要內容包括數(shù)據(jù)挖掘概述、Python數(shù)據(jù)挖掘基礎、數(shù)據(jù)獲取與預處理技術、數(shù)據(jù)可視化、關聯(lián)規(guī)則、決策樹算法、樸素貝葉斯分類算法、邏輯回歸算法、K-近鄰算法、聚類分析算法、主成分分析。
        本書適合作為高等教育計算機類、工商管理類相關專業(yè)數(shù)據(jù)挖掘課程的教材,也可作為數(shù)據(jù)分析與挖掘技術人員的參考用書。

目錄

第1章 數(shù)據(jù)挖掘概述
 1.1數(shù)據(jù)治理
  1.1.1數(shù)據(jù)儲量
  1.1.2各國數(shù)據(jù)治理的戰(zhàn)略地位
 1.2數(shù)據(jù)挖掘與機器學習
  1.2.1兩者概念區(qū)分
  1.2.2兩者間的聯(lián)系
 1.3數(shù)據(jù)挖掘技術
  1.3.1數(shù)據(jù)挖掘本質
  1.3.2數(shù)據(jù)挖掘任務
 1.4數(shù)據(jù)挖掘過程模型
  1.4.19步模型
  1.4.2CRISP-DM模型
 1.5數(shù)據(jù)挖掘工具
 1.6模型構建中的幾個關鍵問題
 本章小結
 本章習題
第2章 Python數(shù)據(jù)挖掘基礎
 2.1搭建Python開發(fā)環(huán)境
  2.1.1Python第三方庫介紹
  2.1.2安裝Anaconda
 2.2Python數(shù)據(jù)類型
  2.2.1數(shù)字類型
  2.2.2序列容器
  2.2.3非序列容器
  2.2.4數(shù)據(jù)類型的嵌套
 2.3Python程序控制結構
 2.4NumPy科學計算包
  2.4.1NumPy數(shù)據(jù)類型、視圖和副本
  2.4.2NumPy數(shù)組基礎
  2.4.3NumPy數(shù)組操作介紹
 2.5pandas數(shù)據(jù)分析包
  2.5.1pandas核心數(shù)據(jù)結構——Series
  2.5.2pandas核心數(shù)據(jù)結構——DataFrame
  2.5.3數(shù)據(jù)分析操作基礎
 本章小結
 本章習題
第3章 數(shù)據(jù)獲取與預處理技術
 3.1數(shù)據(jù)
  3.1.1數(shù)據(jù)定義
  3.1.2數(shù)據(jù)分類
 3.2數(shù)據(jù)源
  3.2.1數(shù)據(jù)庫數(shù)據(jù)
  3.2.2數(shù)據(jù)倉庫數(shù)據(jù)
  3.2.3事務數(shù)據(jù)
  3.2.4數(shù)據(jù)矩陣
  3.2.5圖狀結構數(shù)據(jù)
  3.2.6時序數(shù)據(jù)
  3.2.7其他類型數(shù)據(jù)
 3.3數(shù)據(jù)收集
  3.3.1構造數(shù)據(jù)倉庫
  3.3.2網絡爬蟲技術
  3.3.3數(shù)據(jù)集網站
 3.4數(shù)據(jù)質量問題
  3.4.1數(shù)據(jù)完整性問題
  3.4.2異常數(shù)據(jù)
  3.4.3數(shù)據(jù)的不一致
  3.4.4多維度數(shù)據(jù)處理
  3.4.5數(shù)據(jù)量太少
  3.4.6數(shù)據(jù)量過多
 3.5數(shù)據(jù)預處理
  3.5.1數(shù)據(jù)清洗
  3.5.2數(shù)據(jù)集成
  3.5.3數(shù)據(jù)變換
  3.5.4數(shù)據(jù)歸約
 3.6數(shù)據(jù)安全
  3.6.1數(shù)據(jù)安全的戰(zhàn)略地位
  3.6.2數(shù)據(jù)霸權
  3.6.3基礎數(shù)據(jù)界定
  3.6.4責任和義務
  本章小結
 本章習題
第4章 數(shù)據(jù)可視化
 4.1數(shù)據(jù)可視化定義
 4.2常用的可視化工具
 4.3常見的可視化圖形
  4.3.1散點圖
  4.3.2箱形圖
  4.3.3熱力圖
  4.3.4直方圖
  4.3.5聚類譜系圖
  4.3.6詞云圖
 4.4數(shù)據(jù)可視化與數(shù)據(jù)挖掘
 4.5Python數(shù)據(jù)可視化簡介
  4.5.1Python繪圖環(huán)境搭建
  4.5.2Matplotlib繪圖操作方式
  4.5.3matplotlib.pyplot模塊的繪圖程序設計方式
  4.5.4Matplotlib圖層結構
  4.5.5圖形繪制流程
 本章小結
 本章習題
第5章 關聯(lián)規(guī)則
 5.1關聯(lián)規(guī)則基礎知識
  5.1.1基本概念
  5.1.2數(shù)據(jù)的離散化
 5.2Apriori算法原理
  5.2.1關聯(lián)規(guī)則的評價參數(shù)
  5.2.2規(guī)則的分類
  5.2.3Apriori算法中的兩個關鍵問題
  5.2.4Apriori算法描述及其執(zhí)行流程
 5.3Python應用案例
  5.3.1應用案例代碼實現(xiàn)
  5.3.2生成的規(guī)則
  5.3.3關聯(lián)規(guī)則的價值衡量
 5.4關聯(lián)規(guī)則應用討論
 本章小結
 本章習題
第6章 決策樹算法
 6.1決策樹算法基礎知識
  6.1.1基本概念
  6.1.2構造決策樹的關鍵問題
 6.2ID3算法原理
  6.2.1信息增益與屬性選擇
  6.2.2ID3算法描述
  6.2.3ID3算法的優(yōu)缺點
 6.3決策樹的優(yōu)化
  6.3.1擬合能力和泛化能力
  6.3.2剪枝策略介紹
 6.4決策樹模型性能評價
  6.4.1混淆矩陣
  6.4.2幾個常用評估指標的計算
 6.5ID3算法應用案例及Python代碼實現(xiàn)
  6.5.1應用案例
  6.5.2代碼實現(xiàn)
 本章小結
 本章習題
第7章 樸素貝葉斯分類算法
 7.1貝葉斯算法基礎知識
  7.1.1貝葉斯決策理論
  7.1.2先驗概率和后驗概率
  7.1.3條件概率
  7.1.4使用條件概率分類
 7.2樸素貝葉斯分類算法
  7.2.1樸素的由來
  7.2.2關鍵問題
  7.2.3算法原理
  7.2.4樸素貝葉斯分類算法的三種類型
 7.3樸素貝葉斯分類算法的優(yōu)化
  7.3.1不完全數(shù)據(jù)集
  7.3.2連續(xù)型數(shù)值型屬性
  7.3.3屬性之間的獨立性
 7.4算法的Python代碼實現(xiàn)
  7.4.1準備工作
  7.4.2先驗概率估計
  7.4.3求出類條件概率并計算可能性
  7.4.4構建分類器并進行檢驗
 7.5算法應用案例
  7.5.1代碼實現(xiàn)
  7.5.2可視化效果展示
 7.6樸素貝葉斯分類算法的優(yōu)點和缺點
  7.6.1優(yōu)點
  7.6.2缺點
 本章小結
 本章習題
第8章 邏輯回歸算法
 8.1回歸基礎知識
  8.1.1回歸概念分類
  8.1.2線性回歸和邏輯回歸
  8.1.3線性回歸
  8.1.4二分類
  8.1.5多分類
 8.2邏輯回歸原理
  8.2.1邏輯回歸的關鍵問題
  8.2.2算法核心內容
 8.3邏輯回歸算法的優(yōu)化
  8.3.1正則化策略
  8.3.2多類別邏輯回歸算法
 8.4邏輯回歸算法的性能評價
 8.5Python代碼實現(xiàn)
 8.6算法應用案例
  8.6.1代碼實現(xiàn)
  8.6.2可視化效果展示
 8.7邏輯回歸算法應用場景探討
 8.8邏輯回歸算法的優(yōu)點和缺點
 本章小結
 本章習題
第9章 KNN算法
 9.1KNN算法基礎知識
  9.1.1基本概念
  9.1.2KNN算法的關鍵問題
 9.2KNN算法原理
  9.2.1核心思想
  9.2.2算法流程
  9.2.3KD樹求解分類過程
 9.3基于KD樹的近鄰算法
  9.3.1問題實例
  9.3.2算法實現(xiàn)
 9.4KNN算法的優(yōu)缺點及其改進
  9.4.1優(yōu)點
  9.4.2缺點
  9.4.3改進
 9.5KNN算法的應用場景
 本章小結
 本章習題
第10章 聚類分析算法
 10.1聚類分析算法基礎知識
  10.1.1分類與聚類
  10.1.2聚類分析概述
  10.1.3聚類分析的兩種類型
  10.1.4聚類分析的關鍵問題
  10.1.5聚類算法類型
 10.2相似性度量
  10.2.1距離度量相似性
  10.2.2相關系數(shù)度量相似性
 10.3原型聚類算法介紹
  10.3.1K均值聚類分析算法介紹
  10.3.2其他原型聚類算法介紹
 10.4K均值聚類分析算法的優(yōu)化
  10.4.1后處理
  10.4.2二分K均值聚類分析算法
  10.4.3K均值++聚類分析算法
 10.5K均值聚類分析算法的代碼復現(xiàn)
  10.5.1K均值聚類分析算法流程
  10.5.2Python代碼
 10.6聚類分析算法實例應用
  10.6.1鳶尾花數(shù)據(jù)集聚類代碼
  10.6.2效果展示
 10.7聚類性能度量
  10.7.1外部指標
  10.7.2內部指標
 10.8K均值聚類分析算法的優(yōu)點和缺點
 本章小結
 本章習題
第11章 主成分分析
 11.1基礎知識
  11.1.2與主成分分析相關的數(shù)學概念
  11.1.3主成分分析的關鍵問題
 11.2主成分分析的基本原理
  11.2.1主成分獲取的理論基礎
  11.2.2主成分的線性組合
  11.2.3主成分的求解過程
  11.2.4主成分的算法描述
 11.3主成分的作用與用途
  11.3.1主成分的作用
  11.3.2主成分的用途
 11.4主成分分析應用舉例
  11.4.1降維處理
  11.4.2相關系數(shù)矩陣與協(xié)方差矩陣結果對比
 11.5主成分分析的Python代碼實現(xiàn)
 11.6主成分分析的優(yōu)點和缺點
  11.6.1優(yōu)點
  11.6.2缺點
 本章小結
 本章習題
參考文獻

主編信息

孫玉榮,中南林業(yè)科技大學副教授。

相關圖書

  • Python數(shù)據(jù)分析與應用

    主編:吳濤 徐光俠 劉俊

    本書從實際應用出發(fā),側重對學生實踐能力的培養(yǎng)。全書共分9章,內容包括數(shù)據(jù)分析基礎、Python編程語言、數(shù)據(jù)分析過程、回歸與預測

    ¥45
  • Python程序設計

    主編:金松林

    本書深入淺出地介紹了Python編程語言的基礎知識及簡單的數(shù)據(jù)處理技術。全書共分10章,主要內容包括初識Python,數(shù)據(jù)類型、變量與運

    ¥45