首页亚洲欧美制服丝腿,日韩一区二区久久,国产精品久久久久久模特

產品簡介

美林新聞/NEWS

首頁美林數據大數據分析與應用

AI時代，數據挖掘過時了嗎？—企業數據挖掘成功之道（理論篇）

2019-06-06 15:21:05 次

大數據時代、人工智能時代，機器學習、人工智能、深度學習、集成學習……概念漫天飛，數據挖掘似乎成為一個過時技術和概念。今天小編結合多年專業學習與研究經驗，從實踐應用的角度重新梳理一下“數據挖掘”，讓您能夠拋開概念了解本質！
數據挖掘（Data Mining）隸屬于知識發現（KDD）的范疇，是（劃重點）基于人工智能、機器學習、模式識別、統計學和數據庫等交叉方法，在數據中特別是大數據及海量數據中發現規律的過程，是從一個數據中提取、融合、處理信息，并將其轉換成可理解的結構數據、可視化的分析圖表、可解釋的規律結論，以進一步響應業務分析的需求。它不是一個簡單的概念或者技術，而是一種解決問題的思路和方法，是一個知識綜合應用的技術集合。

數據挖掘涉及知識面廣，技術點多。在面對復雜多樣的業務分析場景時，如何做出有效的數據挖掘分析方案其實是有一套可遵循的方法體系。針對不同的分析數據和業務場景，數據挖掘的方法可以分為監督學習、無監督學習、半監督學習、增強學習，每種方法都有其適應的分析場景和數據基礎。

監督式學習是基于標簽化的訓練資料學習或建立一個映射模式，依此模式推測新的實例；它包括：分類、回歸、估計等。注意，定義強調‘標簽化的訓練資料’，這就要求分析的樣本數據是有標注的。
半監督學習是指訓練集同時包含有標記樣本數據和未標記樣本數據，并且不需要人工干預，讓學習器不依賴外界交互、自動利用少量的標注樣本和大量的未標注樣本進行訓練和分類。半監督學習對于減少標注代價，提高學習器性能具有非常重大的實際意義。
無監督學習是指沒有給定事先標記過的訓練示例，自動對輸入的數據進行分類或分群，包括：聚類、關聯規則分析、部分統計分析等。
增強學習（Reinforcement learning）即強化學習，強調基于環境而行動，以取得最大化的預期利益。它采用的是邊獲得樣例邊學習的方式，在獲得樣例之后更新自己的模型，利用當前模型來指導下一步行動，例如博弈論、控制論、仿真優化、群體智能。
明確了業務分析場景和數據挖掘的方法，接下來就要思考如何完成數據挖掘分析的目標。一般情況下，基于一定的業務場景和挖掘分析目標，數據挖掘的基本流程可以總結為以下幾個階段：數據探索、數據預處理、數據建模、模型評估和模型部署應用。

數據探索
數據探索是對建模分析數據進行先導性的洞察分析，利用繪制圖表、計算某些特征量等手段，對樣本數據集的結構特征和分布特性進行分析的過程。該步驟有助于選擇合適的數據預處理和數據分析技術，它是數據建模的依據，比如：數據探索發現數據稀疏，建模時則選擇對稀疏數據支持相對較好的分析方案；如果數據包含文本數據，建模時則需要考慮基于自然語言處理相關技術等。

數據預處理
數據預處理是將不規整的業務數據整理為相對規整的建模數據（比如，數據缺失處理、異常值檢測處理等操作）。數據的質量決定了模型輸出的結果，即數據決定了模型的上限，所以我們需要花大量的時間來對數據進行處理。在數據預處理階段，如果數據存在缺失值情況而導致建模過程混亂甚至無法進行建模，則需要做缺失值處理，缺失值處理分為刪除存在缺失值的記錄、對可能值進行插補及不處理3種情況；如果建模數據存在數據不均衡情況，則需要考慮數據平衡處理，解決這一問題的基本思路是讓正負樣本在訓練過程中擁有相同的話語權，比如利用采樣和加權等方法；如果分析數據量較大，而建模分析又不強制全部數據參與建模分析（比如統計分析隨機選取部分數據作為分析對象），或者建模過程需要全量樣本的部分數據，則需要做數據抽樣，包括隨機抽樣、等距抽樣、分層抽樣等方法；如果建模分析數據存在量綱、數量級上的差別，則需要做數據規約處理消除量綱數量級的影響；如果異常數據會對分析結果影響巨大，則需要做異常值檢測處理排除影響。

特征工程
理論上，數據和特征決定了模型的上限，而算法只是逼近這個上限而已，這里的數據指的是經過特征工程得到的數據，因此特征工程是我們進行機器學習必須重視的過程。特征工程的目的是最大限度地從原始數據中提取特征以供算法和模型使用。一般認為特征工程包括特征選擇、特征規約、特征生成三個部分。其中，特征選擇在降低模型復雜度、提高模型訓練效率、增強模型的準確度方面影響較大；在建模字段繁多的情形下，通過特征規約降低建模數據維度，降低特征共線特性對模型準確度的不利影響，從而提升模型的訓練效率；特征生成是在特征維度信息相對單一情況下為了提升模型準確性能而采取的維度信息擴充的方法體系。

數據建模
數據挖掘的核心階段是基于既定的數據和分析目標選擇適宜的算法模型進行建模訓練和迭代優化。數據建模涉及的技術包括：機器學習、統計分析、深度學習，相關技術之間沒有一個明顯的區分界限，且功能互補。如果建模業務數據涉及到文本非結構化數據，則需要借助自然語言處理實現業務分析場景；面對一些調查數據分析統計意義給出決策結論時，則需要基于統計分析的相關技術；在機器學習領域，分類技術主要解決影響因素X和決策變量Y的問題，基于此目的我們所要做的就是尋找X和Y之間的函數關系。其中分類場景的實際應用Y是名詞型屬性，如用于故障預測、精準營銷等；回歸場景和分類場景類似，只是回歸場景中的決策變量Y是連續性的數值型數據，如用于設備壽命預測、收視率預測等；聚類分析是在沒有決策變量Y的情況下，基于一定的規則（比如基于距離相近、基于曲線相似等）將樣本數據進行分群進而找出共性群體，如客戶細分，市場細分等；時間序列數據是基于歷史數據挖掘內在的趨勢規律，進而實現對未來數據的預測分析，如銷量預測、產量預測等；關聯分析適用于挖掘多個事務項之間共現關聯關系，從而描述事物項中某些屬性同時出現的規律和模式，如產品關聯推薦、交叉故障等，關聯分析的一個典型例子是購物籃分析；綜合評價適用于在多因素、多層次復雜決策情況下對多個備選方案打分以輔助決策，如店鋪選址、客戶信用評分等；
深度學習領域涉及多種模型框架和操作使用技巧，其本身可以作為機器學習的特例，同樣適用于機器學習多個應用場景。深度學習作為一種實現機器學習的技術，往往在數據量大、業務數據指標難以人工提取的情形下發揮著舉足輕重的作用，它在圖像處理、語音識別、自然語言處理等領域具有其它機器學習算法無法企及的準確性能。

模型評估
模型評估是評估所構建的模型是否符合既定的業務目標，它有助于發現表達數據的最佳模型和所選模式將來工作的性能如何。模型評估秉承的準則是在滿足業務分析目標的前提下優先選擇簡單化的模型。每個分析場景可以基于多種算法構建多個模型，也可以依據模型優化的方法體系做模型訓練優化，而如何在訓練得到的多個模型中選擇最優模型，可以選擇性能度量作為指標體系，進而基于一定的評估方法進行擇優選擇。

模型部署及應用
模型部署及應用是將數據挖掘結果作用于業務過程，即將訓練得到的最優模型部署到實際應用中；模型部署后，可使用調度腳本控制數據挖掘模型實現流程化運行。在模型日常運行過程中，可根據實際需求檢查模型運行結果是否滿足前端業務的實際應用，跟蹤模型運行情況，定期進行模型結果分析，并適時進行模型優化。

以上內容對數據挖掘涉及的知識體系做了簡要介紹，上述的知識體系涵蓋了實際挖掘分析所用方法體系的絕大部分內容，希望讀者能夠通過本文對數據挖掘有個全局認識。在面對復雜的業務分析場景時，能夠有一個清晰嚴謹的挖掘分析思路，進步明確可以對樣本數據做哪些分析以及如何科學地做挖掘分析。另一方面來說，在實際挖掘分析過程中，一個特定的挖掘分析場景只是涉及上述知識體系的一部分，每個分析場景涉及的知識點也不盡相同，全面掌握和深入理解挖掘知識體系是一個逐漸學習與積累的過程；這就需要我們在每一個挖掘場景下對涉及的知識點進行深入理解和知識擴充，并且對多個實踐過程進行循環往復的知識總結和經驗積累。

上一篇：數據挖掘方法論—企業數據挖掘成功之道（方法篇）下一篇：寫給千萬考生的大學志愿報考指南

日本午夜免费一区二区,亚洲麻豆一区,国产伦精品一区二区三区千人斩,日韩高清电影一区

Tempo大數據分析平臺

Tempo商業智能平臺

Tempo人工智能平臺

Tempo數據工廠平臺

Tempo數據治理平臺

Tempo主數據管理平臺

Tempo指標平臺

自助式可視化分析

算法模型管理

指標管理解決方案

數字指揮中心

湖倉一體解決方案

智能場景應用構建

主數據應用監管

數據中臺

數據資產入表

發電

電網

制造

油氣

煤炭

高校

政企

金融

科研院所

大數據分析師

DAMA認證

美林數據

合作生態

內容中心

幫助中心

美林新聞

行業資訊

產品簡介

Tempo商業智能平臺

Tempo人工智能平臺

Tempo數據工廠平臺

Tempo指標平臺

Tempo數據治理平臺

Tempo主數據管理平臺

相關推薦

美林新聞/NEWS

AI時代，數據挖掘過時了嗎？—企業數據挖掘成功之道（理論篇）

聯系我們

400-608-2558 029-8669-8003

掃碼關注我們

掃碼立即咨詢