<dfn id="w48us"></dfn><ul id="w48us"></ul>
  • <ul id="w48us"></ul>
  • <del id="w48us"></del>
    <ul id="w48us"></ul>
  • 基于關鍵詞組合向量模型的文本自動分類研究

    時間:2024-08-20 04:03:25 經濟管理畢業論文 我要投稿
    • 相關推薦

    基于關鍵詞組合向量模型的文本自動分類研究

         [摘 要] 本文描述了一種新的基于關鍵詞組合模式的文本向量空間表示模型,相對于只使用文本中詞語的頻率的文本向量空間模型,這種新的模型在可以計算的前提下,使用了詞語之間的相對位置信息,從而可以解決部分詞語向量空間模型表示的不足。本文討論了使用這種模型的自動文本分類系統,包括分類系統的結構、特征提取、文本相似度計算公式,并給出了評估方法。
      [關鍵詞] 關鍵詞組合 向量空間 自動分類 分類算法
      
      近年來,以文本格式存儲的海量信息出現在Internet、數字化圖書館及公司的Intranet上,如何從這些浩瀚的文本中發現有價值的信息是信息處理領域的重要目標,而文本自動分類系統能夠在給定的分類模型下,根據文本的內容自動對文本分門別類,從而更好地幫助人們組織及挖掘文本信息,因此得到日益廣泛的關注,成為信息處理領域最重要的研究方向之一。
      一、自動分類的種類和作用
      自動分類就是用計算機系統代替人工對文獻等對象進行分類,一般包括自動聚類和自動歸類。自動聚類和自動歸類的主要區別就是自動聚類不需要事先定義好分類體系,而自動歸類則需要確定好類別體系,并且要為每個類別提供一批預先分好的對象作為訓練文集,分類系統先通過訓練文集學習分類知識,在實際分類時,再根據學習到的分類知識為需要分類的文獻確定一個或者多個類別。本文中所指的自動分類是指對網頁的自動分類,包括網頁的自動歸類和自動聚類。
      目前搜索引擎提供兩種信息查詢方式:分類瀏覽和關鍵詞檢索。分類瀏覽一般是基于網站分類目錄。關鍵詞檢索的對象不是網站,而是符合條件的網頁。關鍵詞檢索信息量大、更新及時、不需要人工干預。
      二、問題描述
      1.系統任務
      簡單地說,文本分類系統的任務是:在給定的分類體系下,根據文本的內容自動地確定文本關聯的類別。從數學角度來看,文本分類是一個映射的過程,它將未標明類別的文本映射到已有的類別中,該映射可以是一一映射,也可以是一對多的映射,因為通常一篇文本可以同多個類別相關聯。用數學公式表示如下:
      
      文本分類的映射規則是系統根據已經掌握的每類若干樣本的數據信息,總結出分類的規律性而建立的判別公式和判別規則。然后在遇到新文本時,根據總結出的判別規則,確定文本相關的類別。
      2.評估方法
      我們使用評估文本分類系統的兩個指標:準確率和查全率。準確率是所有判斷的文本中與人工分類結果吻合的文本所占的比率。其數學公式表示如下:;查全率是人工分類結果應有的文本中分類系統吻合的文本所占的比率,其數學公式表示如下:;準確率和查全率反映了分類質量的兩個不同方面,兩者必須綜合考慮,不可偏廢。
      3.詞語向量空間模型的文本表示
      目前,在信息處理方向上,文本的表示主要采用向量空間模型 (VSM)。向量空間模型的基本思想是以向量來表示文本:(W1,W2,W3……Wn),其中Wi為第i個特征項的權重,那么選取什么作為特征項呢,一般可以選擇字、詞或詞組,根據實驗結果,普遍認為選取詞作為特征項要優于字和詞組,因此,要將文本表示為向量空間中的一個向量,就首先要將文本分詞,由這些詞作為向量的維數來表示文本。詞頻分為絕對詞頻和相對詞頻,絕對詞頻,即使用詞在文本中出現的頻率表示文本,相對詞頻為歸一化的詞頻,其計算方法主要運用TF~IDF公式,目前存在多種TF~IDF公式,一種比較普遍的TF~IDF公式為:;其中,為詞t在文本中的權重,而為詞t在文本中的詞頻,N為訓練文本的總數,nt為訓練文本集中出現t的文本數,分母為歸一化因子。
      4.詞語向量空間模型的訓練方法和分類算法
      訓練方法和分類算法是分類系統的核心部分,目前存在多種基于向量空間模型的訓練算法和分類算法,例如,支持向量機算法、神經網絡方法,最大平均熵方法,最近 K 鄰居方法和貝葉斯方法等等。一般相似度定義公式為:;其中,di,dj為不同的文本,M為特征向量的維數,Wk為向量的第K維。

    畢業論文搜集整理:

    基于關鍵詞組合向量模型的文本自動分類研究

    【基于關鍵詞組合向量模型的文本自動分類研究】相關文章:

    基于粗糙集的文本分類研究03-03

    基于組合模型的防城港貨物吞吐量預測研究03-07

    基于戰略系統的審計風險模型研究03-04

    基于活動的日活動計劃模型研究11-22

    基于顧客價值的共生營銷模型研究03-22

    基于元胞自動機模型的快速路入口匝道交通流研究03-07

    基于SDO的異構服務數據模型研究03-28

    自動分標組合技術的研究和開發12-02

    基于供應鏈管理的知識轉移模型研究12-08

    基于剩余收益RI的企業價值評估模型的研究03-21

    主站蜘蛛池模板: 国产日韩一区在线精品欧美玲| 四虎成人精品免费影院| 久久久无码精品亚洲日韩按摩 | 少妇人妻偷人精品视频| 欧美国产日本精品一区二区三区| 亚洲国产人成精品| 99久久精品免费国产大片| 国产午夜精品久久久久免费视 | 久久夜色精品国产亚洲av| 久久亚洲欧美日本精品| 国产精品午睡沙发系列| 亚洲国产成人久久精品99| 9999国产精品欧美久久久久久| 国产精品水嫩水嫩| 一级做a爰黑人又硬又粗免费看51社区国产精品视 | 免费精品国自产拍在线播放| 777欧美午夜精品影院| 国产精品久久久亚洲| 亚洲AV无码成人精品区蜜桃| 日韩视频中文字幕精品偷拍| 国产啪亚洲国产精品无码| 真实国产乱子伦精品免费| 精品久久久久久久| 国产精品精品自在线拍| 日韩精品真人荷官无码| 亚洲精品亚洲人成人网| 亚洲一区二区精品视频| 一本大道无码日韩精品影视| 在线精品自拍无码| 亚洲精品国产精品国自产观看| 国产精品自产拍在线18禁 | 中文字幕无码精品三级在线电影| 欧美日韩国产成人高清视频,欧美日韩在线精品一 | 欧产日产国产精品精品| 亚洲精品中文字幕乱码三区| 区亚洲欧美一级久久精品亚洲精品成人网久久久久 | 国产成人精品福利网站在线观看| 狠狠色丁香婷婷综合精品视频| 福利姬在线精品观看| 91精品在线播放| 精品视频一区二区三区免费|