<dfn id="w48us"></dfn><ul id="w48us"></ul>
  • <ul id="w48us"></ul>
  • <del id="w48us"></del>
    <ul id="w48us"></ul>
  • 數(shù)據(jù)挖掘的讀書筆記

    時間:2024-06-27 13:28:27 美云 讀書筆記 我要投稿
    • 相關(guān)推薦

    數(shù)據(jù)挖掘的讀書筆記

      數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機(jī)科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標(biāo)。目前喲普與大數(shù)據(jù)時代的到來,數(shù)據(jù)挖掘在很多高等院校已經(jīng)成為一門獨(dú)立的學(xué)科。下面是數(shù)據(jù)挖掘的相關(guān)讀書筆記。歡迎大家閱讀。

    數(shù)據(jù)挖掘的讀書筆記

      數(shù)據(jù)挖掘的讀書筆記 1

      一、數(shù)據(jù)挖掘概念(即什么是數(shù)據(jù)挖掘)

      我們生活在數(shù)據(jù)時代,各行各業(yè)每天都產(chǎn)生巨大的數(shù)據(jù)。數(shù)據(jù)的爆炸式增長、廣泛可用和巨大數(shù)量使得我們的時代成為真正的數(shù)據(jù)時代。急需功能強(qiáng)大和通用的工具,以便從海量數(shù)據(jù)中發(fā)現(xiàn)有價值的信息,把這些數(shù)據(jù)轉(zhuǎn)換成有組織的、可利用的知識。這種需求導(dǎo)致了數(shù)據(jù)挖掘的誕生。

      數(shù)據(jù)挖掘?qū)嶋H上是從數(shù)據(jù)中挖掘知識,由以下步驟的迭代組成:

      (1)數(shù)據(jù)清理(消除噪聲和刪除不一致數(shù)據(jù))

      (2)數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起)

      (3)數(shù)據(jù)選擇(從數(shù)據(jù)庫中提取與分析任務(wù)相關(guān)的數(shù)據(jù))

      (4)數(shù)據(jù)變換(通過匯總或聚集操作,把數(shù)據(jù)變換和統(tǒng)一成適合挖掘的形式)

      (5)數(shù)據(jù)挖掘(基本步驟,使用智能方法提取數(shù)據(jù)模式)

      (6)模式評估(根據(jù)某種興趣度度量,識別代表知識的真正有趣的模式)

      (7)知識表示(使用可視化和知識表示技術(shù),向用戶提供挖掘的知識) 關(guān)系數(shù)據(jù)庫是數(shù)據(jù)挖掘最常見、最豐富的信息源,因此它是我們數(shù)據(jù)挖掘研究研究的一種主要數(shù)據(jù)形式。

      二、數(shù)據(jù)挖掘技術(shù)(即怎樣進(jìn)行數(shù)據(jù)挖掘)

      1、可以挖掘什么類型的模式 特征化與區(qū)分、頻繁模式、關(guān)聯(lián)和相關(guān)性挖掘,分類與回歸,聚類分析,離群點分析。 數(shù)據(jù)挖掘可以被用來進(jìn)行市場分析和管理、風(fēng)險分析和管理、缺陷分析和管理等。

      2、使用什么技術(shù)

      1)首先要認(rèn)識數(shù)據(jù),一個數(shù)據(jù)對象代表一個實體,又稱樣本、實例、數(shù)據(jù)點或?qū)ο蟆?屬性是一個數(shù)據(jù)字段,表示數(shù)據(jù)對象的一個特征,又稱維、特征和變量。

      2)數(shù)據(jù)描述 中心趨勢度量:均值、中位數(shù)和眾數(shù) 度量數(shù)據(jù)散布:極差、四分位數(shù)、方差、標(biāo)準(zhǔn)差和四分位數(shù)極差 通過基于像素的可視化技術(shù)等清晰有效的表達(dá)數(shù)據(jù)

      3)進(jìn)行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)變換與數(shù)據(jù)離散化。 數(shù)據(jù)變換策略:光滑、屬性構(gòu)造、聚集、規(guī)范化、離散化、由標(biāo)稱數(shù)據(jù)產(chǎn)生概念分層 數(shù)據(jù)離散化策略:分箱、直方圖分析、聚類決策樹和相關(guān)分析

      4)然后需要建立數(shù)據(jù)倉庫進(jìn)行處理,數(shù)據(jù)倉庫:是一種數(shù)據(jù)庫,它允許將各種應(yīng)用系統(tǒng)集成在一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅實的平臺,對信息處理提供支持。數(shù)據(jù)倉庫的構(gòu)建需要數(shù)據(jù)集成、數(shù)據(jù)清洗和數(shù)據(jù)統(tǒng)一。

      5)聯(lián)機(jī)分析處理可以,在使用多維數(shù)據(jù)模型的數(shù)據(jù)倉庫或數(shù)據(jù)集市上進(jìn)行,使用數(shù)據(jù)立方體結(jié)構(gòu),OLAP操作可以有效的實現(xiàn)。

      數(shù)據(jù)立方體計算的一般策略: 排序、散列和分組 同時聚集和緩存中間結(jié)果

      當(dāng)存在多個子女方體時,由最小的子女聚集 可以使用先驗剪枝方法有效的'計算冰山立方體

      數(shù)據(jù)立方體計算方法: 多路數(shù)組聚集,基于稀疏數(shù)組的、自底向上的、共享計算的物化整個數(shù)據(jù)立方體 BUC,通過探查有效的自頂向下計算次序和排序計算冰山立方體 Star-Cubing,使用星樹結(jié)構(gòu),集成自頂向下和自底向上計算,計算冰山立方體 外殼片段立方體,通過僅預(yù)計算劃分的立方體外殼片段,支持進(jìn)行高維OLAP

      6)挖掘頻繁模式和關(guān)聯(lián)規(guī)則 頻繁項集挖掘方法: Apriori算法(通過限制候選產(chǎn)生發(fā)現(xiàn)頻繁項集),由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則,提高Apriori算法的效率,挖掘頻繁項集的模式增長方法,使用垂直數(shù)據(jù)格式挖掘頻繁項集,挖掘閉模式和極大模式

      數(shù)據(jù)挖掘的讀書筆記 2

      1、數(shù)據(jù)挖掘要解決的問題

      可伸縮(算法在處理各種規(guī)模的數(shù)據(jù)時都有很好的性能。隨著數(shù)據(jù)的增大,效率不會下降很快。)

      高維性(簡單的說就是多維數(shù)據(jù)的意思。平時我們經(jīng)常接觸的是一維數(shù)據(jù)或者可以寫成表形式的二維數(shù)據(jù),高維數(shù)據(jù)也可以類推,不過維數(shù)較高的時候,直觀表示很難。)

      異種數(shù)據(jù)和復(fù)雜數(shù)據(jù)

      數(shù)據(jù)的所有權(quán)與分布(分布式數(shù)據(jù)挖掘:應(yīng)付分布式海量數(shù)據(jù)的現(xiàn)代方法)

      非傳統(tǒng)的分析(傳統(tǒng)方法:基于一種假設(shè)-檢驗?zāi)J剑粩?shù)據(jù)挖掘分析-時機(jī)性樣本,而不是隨機(jī)樣本)

      2、數(shù)據(jù)挖掘任務(wù)

      1)預(yù)測任務(wù)(目標(biāo)變量/因變量:被預(yù)測的屬性;說明變量/自變量:用來做預(yù)測的屬性)

      2)描述任務(wù)

      A預(yù)測建模:分類-預(yù)測離散的.目標(biāo)變量和回歸-預(yù)測連續(xù)的目標(biāo)變量

      B關(guān)聯(lián)分析

      C聚類分析

      D異常檢測(識別其特征顯著不同于其他數(shù)據(jù)的觀測值。這樣的觀測值稱為異常點或離群點)

      3、屬性的四種類型

      1)標(biāo)稱

      2)序數(shù)

      3)區(qū)間

      4)比率

      (布爾變量:Boolean Variable (布爾型變量) 是有兩種邏輯狀態(tài)的變量,它包含兩個值:真和假。如果在表達(dá)式中使用了布爾型變量,那么將根據(jù)變量值的真假而賦予整型值1或0。)

    【數(shù)據(jù)挖掘的讀書筆記】相關(guān)文章:

    數(shù)據(jù)挖掘理論在數(shù)據(jù)采集中的運(yùn)用03-16

    數(shù)據(jù)挖掘?qū)I(yè)就業(yè)方向09-27

    數(shù)據(jù)挖掘崗位職責(zé)05-14

    數(shù)據(jù)挖掘與企業(yè)營銷策略探究03-29

    數(shù)據(jù)挖掘分析崗位職責(zé)04-20

    數(shù)據(jù)挖掘在CRM中的應(yīng)用分析03-22

    數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用03-22

    基于聚類分析的數(shù)據(jù)挖掘方法03-08

    淺談反病毒數(shù)據(jù)庫的數(shù)據(jù)分類挖掘論文02-19

    數(shù)據(jù)挖掘論文參考文獻(xiàn)范文11-20

    主站蜘蛛池模板: 无码精品人妻一区二区三区中| 久久久精品国产亚洲成人满18免费网站| 成人精品一区二区三区免费看 | 欧美精品欧美人与动人物牲交 | 99久久精品毛片免费播放| 国产午夜精品无码| 国产亚洲精品a在线无码| 午夜精品久久久久久久无码| 色欲国产麻豆一精品一AV一免费| 国产乱子伦精品无码专区| 欧洲精品一区二区三区在线观看| 亚洲爆乳无码精品AAA片蜜桃 | 精品免费久久久久国产一区| 亚洲精品国产福利一二区| 国产精品欧美久久久久天天影视| 日韩三级精品| 国产精品福利区一区二区三区四区| 99香蕉国产精品偷在线观看| 999国产精品色在线播放| 国产精品热久久毛片| 国产精品一二区| 精品人妻少妇一区二区三区不卡 | 午夜成人精品福利网站在线观看 | 国产区精品高清在线观看| 亚洲愉拍自拍欧美精品| 拍国产乱人伦偷精品视频| 国产偷国产偷高清精品| 国产精品美女久久久久AV福利 | 久久久无码精品亚洲日韩按摩| 亚洲av永久无码精品漫画| 欧美日韩精品一区二区| 精品久久久久久久久久久久久久久| 中国精品videossex中国高清| 久久亚洲精品视频| 久久这里只有精品首页| 精品亚洲一区二区| 亚洲国产精品一区二区第一页| 亚洲精品NV久久久久久久久久| 亚欧无码精品无码有性视频| 亚洲精品国产精品乱码不卡 | 欧美精品色精品一区二区三区|