機器學習:特徵工程 | 運動資訊第一站 - 2024年11月
機器學習:特徵工程
資料科學家需學的原理與技術
"資料前置處理和特徵工程已經被認為是許多應用中模型效能的主要推手。我很高興終於有一本專書來談論這個主題。Alice和Amanda詳細解釋了許多常用技術的精妙細節。" —Andreas C. Müller (哥倫比亞大學機器學習講師/scikit-learn核心開發者 )
特徵工程是機器學習生產線中關鍵的步驟,不過這個領域還很少被單獨檢視過。在這本實用的書中,您會學到將特徵──原始資料的數值表達法──淬取與轉換為機器學習模型格式的技術。每一章都使用單一的資料問題來導引您,例如如何表達文字或影像資料。綜合在一起後,這些範例就描繪了特徵工程的主要原理。
不是只教導這些原理,作者Alice Zheng和Amanda Casari也在整本書中使用習題來聚焦在實際應用上。最後一章會藉由在一個真實的結構化資料集上應用數種特徵工程技術來總結全書所學。程式碼範例則使用了Python的套件,包括numpy、Pandas、scikit-learn、以及Matplotlib。
您會學到:
‧數值資料的特徵工程:過濾、分箱、縮放、對數轉換及次方轉換
‧自然文本技術:詞袋、n元語法及片語偵測
‧以基於頻率之過濾與特徵縮放來消除不具資訊性的特徵
‧類別變數的編碼技術,包括特徵雜湊和分箱計數
‧使用主要成份分析進行基於模型的特徵工程
‧模型堆疊和使用k-means作為特徵淬取技術的概念
‧使用手動和深度學習技術之影像特徵淬取
作者簡介
Alice Zheng
Amazon Advertising研究科學經理。她的工作涵蓋了演算法和平台開發,並且應用在廣告、軟體診斷及網路分析上。
Amanda Casari
SAP Concur之Concur Labs資深產品經理與資料科學家。她用計畫和程式進行各項實驗來讓機器學習變得更容易親近。