Python數據挖掘入門與實踐 | 運動資訊第一站 - 2024年10月

Python數據挖掘入門與實踐

作者:(澳)ROBERT LAYTON
出版社:人民郵電
出版日期:2016年07月01日
ISBN:9787115427106
語言:繁體中文

作為數據挖掘入門讀物,介紹了數據挖掘的基礎知識、基本工具和實踐方法,通過循序漸進地講解算法,帶你輕松踏上數據挖掘之旅。本書采用理論與實踐相結合的方式,呈現了如何使用決策樹和隨機森林算法預測美國職業籃球聯賽比賽結果,如何使用親和性分析方法推薦電影,如何使用朴素貝葉斯算法進行社會媒體挖掘,等等。本書也涉及神經網絡、深度學習、大數據處理等。Robert Layton計算機科學博士,網絡犯罪問題和文本分析方面的專家。多年來一直熱衷於Python編程,參與過scikit- learn庫等很多開源庫的開發,曾擔任2014年度「谷歌編程之夏」項目導師。他曾與全球幾大數據挖掘公司密切合作,挖掘真實數據並研發相關應用。他的 公司dataPipeline為多個行業提供數據挖掘和數據分析解決方案。

第1章開始數據挖掘之旅1 1.1數據挖掘簡介1 1.2使用Python和IPython Notebook2 1.2.1安裝Python2 1.2.2安裝IPython4 1.2.3安裝scikit—learn庫5 1.3親和性分析示例5 1.3.1什麽是親和性分析5 1.3.2商品推薦6 1.3.3在NumPy中加載數據集6 1.3.4實現簡單的排序規則8 1.3.5排序找出最佳規則10 1.4分類問題的簡單示例12 1.5什麽是分類12 1.5.1准備數據集13 1.5.2實現OneR算法14 1.5.3測試算法16 1.6小結18 第2章用scikit—learn估計器分類19 2.1scikit—learn估計器19 2.1.1近鄰算法20 2.1.2距離度量20 2.1.3加載數據集22 2.1.4努力實現流程標准化24 2.1.5運行算法24 2.1.6設置參數25 2.2流水線在預處理中的應用27 2.2.1預處理示例28 2.2.2標准預處理28 2.2.3組裝起來29 2.3流水線29 2.4小結30 第3章用決策樹預測獲勝球隊31 3.1加載數據集31 3.1.1采集數據31 3.1.2用pandas加載數據集32 3.1.3數據集清洗33 3.1.4提取新特征34 3.2決策樹35 3.2.1決策樹中的參數36 3.2.2使用決策樹37 3.3NBA比賽結果預測37 3.4隨機森林41 3.4.1決策樹的集成效果如何42 3.4.2隨機森林算法的參數42 3.4.3使用隨機森林算法43 3.4.4創建新特征44 3.5小結45 第4章用親和性分析方法推薦電影46 4.1親和性分析46 4.1.1親和性分析算法47 4.1.2選擇參數47 4.2電影推薦問題48 4.2.1獲取數據集48 4.2.2用pandas加載數據49 4.2.3稀疏數據格式49 4.3Apriori算法的實現50 4.3.1Apriori算法51 4.3.2實現52 4.4抽取關聯規則54 4.5小結60 第5章用轉換器抽取特征62 5.1特征抽取62 5.1.1在模型中表示事實62 5.1.2通用的特征創建模式64 5.1.3創建好的特征66 5.2特征選擇67 5.3創建特征71 5.4創建自己的轉換器75 5.4.1轉換器API76 5.4.2實現細節76 5.4.3單元測試77 5.4.4組裝起來79 5.5小結79 第6章使用朴素貝葉斯進行社會媒體挖掘80 6.1消歧80 6.1.1從社交網站下載數據81 6.1.2加載數據集並對其分類83 6.1.3Twitter數據集重建87 6.2文本轉換器90 6.2.1詞袋91 6.2.2N元語法92 6.2.3其他特征93 6.3朴素貝葉斯93 6.3.1貝葉斯定理93 6.3.2朴素貝葉斯算法94 6.3.3算法應用示例95 6.4應用96 6.4.1抽取特征97 6.4.2將字典轉換為矩陣98 6.4.3訓練朴素貝葉斯分類器98 6.4.4組裝起來98 6.4.5用F1值評估99 6.4.6從模型中獲取更多有用的特征100 6.5小結102 第7章用圖挖掘找到感興趣的人104 7.1加載數據集104 7.1.1用現有模型進行分類106 7.1.2獲取Twitter好友信息107 7.1.3構建網絡110 7.1.4創建圖112 7.1.5創建用戶相似度圖114 7.2尋找子圖117 7.2.1連通分支117 7.2.2優化參數選取准則119 7.3小結123 第8章用神經網絡破解驗證碼124 8.1人工神經網絡124 8.2創建數據集127 8.2.1繪制驗證碼127 8.2.2將圖像切分為單個的字母129 8.2.3創建訓練集130 8.2.4根據抽取方法調整訓練數據集131 8.3訓練和分類132 8.3.1反向傳播算法134 8.3.2預測單詞135 8.4用詞典提升正確率138 8.4.1尋找最相似的單詞138 8.4.2組裝起來139 8.5小結140 第9章作者歸屬問題142 9.1為作品找作者142 9.1.1相關應用和使用場景143 9.1.2作者歸屬143 9.1.3獲取數據144 9.2功能詞147 9.2.1統計功能詞148 9.2.2用功能詞進行分類149 9.3支持向量機150 9.3.1用SVM分類151 9.3.2內核151 9.4字符N元語法152 9.5使用安然公司數據集153 9.5.1獲取安然數據集153 9.5.2創建數據集加載工具154 9.5.3組裝起來158 9.5.4評估158 9.6小結160 第10章新聞語料分類161 10.1獲取新聞文章161 10.1.1使用WebAPI獲取數據162 10.1.2數據資源寶庫reddit164 10.1.3獲取數據165 10.2從任意網站抽取文本167 10.2.1尋找任意網站網頁中的主要內容167 10.2.2組裝起來168 10.3新聞語料聚類170 10.3.1k—means算法171 10.3.2評估結果173 10.3.3從簇中抽取主題信息175 10.3.4用聚類算法做轉換器175 10.4聚類融合176 10.4.1證據累積176 10.4.2工作原理179 10.4.3實現180 10.5線上學習181 10.5.1線上學習簡介181 10.5.2實現182 10.6小結184 第11章用深度學習方法為圖像中的物體進行分類185 11.1物體分類185 11.2應用場景和目標185 11.3深度神經網絡189 11.3.1直觀感受189 11.3.2實現189 11.3.3Theano簡介190 11.3.4Lasagne簡介191 11.3.5用nolearn實現神經網絡194 11.4GPU優化197 11.4.1什麽時候使用GPU進行 計算198 11.4.2用GPU運行代碼198 11.5環境搭建199 11.6應用201 11.6.1獲取數據201 11.6.2創建神經網絡202 11.6.3組裝起來204 11.7小結205 第12章大數據處理206 12.1大數據206 12.2大數據應用場景和目標207 12.3MapReduce208 12.3.1直觀理解209 12.3.2單詞統計示例210 12.3.3HadoopMapReduce212 12.4應用212 12.4.1獲取數據213 12.4.2朴素貝葉斯預測215 12.5小結226 附錄接下來的方向227

你是不是向往數據挖掘的殿堂,卻不得其門而入?如果是的話,這本書就是為你而寫的。很多講授數據挖掘的書涵蓋了大量數學知識,倘若讀者有較好的數學背景,這自然不錯,但我覺得這些書往往只見樹木不見森林;也就是說,它們過於關注算法的工作原理,而忘記了我們使用這些算法的初衷。本書的目標讀者是具備一定編程能力、渴望學習數據挖掘的人。我的目標是,如果你認真學完本書,能較好地理解數據挖掘的基礎知識,掌握用數據挖掘知識解決問題的最佳實踐,此外還能從書中找到幾個值得你深入研究的方向。本書的每一章都會介紹一個新的主題,我會給出該主題的相關算法和數據集。因此,各章主題之間跳躍有點大,閱讀本書的過程中需要你的大腦能快速切換。每學完一章,你都要思考一下有沒有什麼辦法能夠提升該章中算法的效果,然后嘗試去實現它!


相關書籍