目錄式搜索引擎的體系架構(gòu)研究

時間：2024-09-07 03:35:01 計算機應用畢業(yè)論文我要投稿

相關(guān)推薦

目錄式搜索引擎的體系架構(gòu)研究

　　爬蟲子系統(tǒng)是搜索引擎獲取資源的主要方式，下面是小編搜集整理的一篇關(guān)于目錄式搜索引擎的體系架構(gòu)研究的論文范文，歡迎閱讀借鑒。

目錄式搜索引擎的體系架構(gòu)研究

　　引言

　　信息檢索系統(tǒng)主要為互聯(lián)網(wǎng)用戶提供對資源的檢索服務，用戶通過輸入自己想要尋找的資源信息(諸如資源的部分名稱，資源內(nèi)容中相關(guān)關(guān)鍵詞等)，信息檢索系統(tǒng)根據(jù)用戶提供的檢索需求進行資源匹配和資源定位，并按照一定的順序?qū)⑵ヅ涞馁Y源反饋給用戶。搜索引擎是在信息檢索系統(tǒng)的基礎上發(fā)展而來，目前的搜索引擎可以大致分為：目錄式搜索引擎，元搜索引擎，語義搜索引擎等。目錄式搜索引擎以當前主流的百度搜索引擎(基于中文的搜索)和谷歌搜索引擎(基于多種語言的搜索)為代表，本文也主要以目錄式搜索引擎為例，展開對搜索引擎體系架構(gòu)的研究。

　　搜索引擎體系架構(gòu)

　　相比于信息檢索系統(tǒng)，搜索引擎在檢索詞輸入時更加靈活，對資源的預處理方面，搜索引擎系統(tǒng)優(yōu)化了更多的細節(jié)，在對資源的相似度匹配方面，搜索引擎需要考慮更多的因素在綜合定量用戶檢索詞和資源之間的相似度，最后的排序輸出更是衍生出很多優(yōu)秀的排序算法。總體來說，搜索引擎主要分為：索引子系統(tǒng)，內(nèi)容管理子系統(tǒng)，鏈接分析子系統(tǒng)和結(jié)果排序子系統(tǒng)，搜索引擎的體系架構(gòu)如圖1所示。

　　1、爬蟲子系統(tǒng)

　　爬蟲子系統(tǒng)是搜索引擎獲取資源的主要方式，爬蟲子系統(tǒng)通過在互聯(lián)網(wǎng)環(huán)境下運行爬蟲子程序，定期的對互聯(lián)網(wǎng)資源進行檢查，判斷指定URL鏈接的內(nèi)容是否發(fā)生變更并適時的對數(shù)據(jù)進行更新，并將更新后的數(shù)據(jù)反饋給數(shù)據(jù)庫系統(tǒng)。爬蟲子系統(tǒng)目前主要采用兩種方式進行資源爬取：增量式爬取和累積式爬取。增量式爬取表示爬蟲子系統(tǒng)根據(jù)當前URL鏈接遞增的去遍歷下一條網(wǎng)頁;累積式爬取表示根據(jù)當前URL鏈接遍歷所有與之相連的網(wǎng)頁，并將新得到的URL鏈接加入到隊列，完成遍歷后從隊列中取新的URL繼續(xù)遍歷。爬蟲子系統(tǒng)性能的優(yōu)良直接決定了最終搜索引擎結(jié)果的輸出質(zhì)量，因為在數(shù)據(jù)的篩選階段主要也是依賴爬蟲子系統(tǒng)進行數(shù)據(jù)過濾，篩選出有價值的資源信息。

　　2、索引子系統(tǒng)

　　索引子系統(tǒng)則是承接了爬蟲子系統(tǒng)的數(shù)據(jù)資源，互聯(lián)網(wǎng)數(shù)據(jù)呈現(xiàn)的是一種無規(guī)則或者半結(jié)構(gòu)的數(shù)據(jù)，面對如此不規(guī)整的數(shù)據(jù)格式，搜索引擎難以完成對資源的篩選和排序工作，因此索引子系統(tǒng)主要針對這種情況，通過對網(wǎng)絡爬蟲爬取的數(shù)據(jù)資源進行梳理，按照規(guī)則對數(shù)據(jù)進行規(guī)則化。倒排索引堪稱是在信息檢索領(lǐng)域?qū)?shù)據(jù)規(guī)則化最為有效的方式，我們通常對數(shù)據(jù)的認知是從正排索引開始，即根據(jù)資源名稱，聯(lián)想到資源的內(nèi)容相關(guān)信息;倒排索引則與此相反，倒排索引根據(jù)關(guān)鍵詞和概念特征去反推具體的資源名稱。諸如我們在討論武俠時，會先想到“孤獨求敗”、“喬峰”等，根據(jù)這些關(guān)鍵詞和概念特征，我們會繼續(xù)反推得到對應的金庸先生相關(guān)武俠著作的書名：“神雕俠侶”和“天龍八部”等。這種推理的方式和我們的搜索引擎系統(tǒng)是何其相似，用戶通過輸入相關(guān)關(guān)鍵詞和概念來獲得對應的資源信息。

　　基于倒排索引的理論基礎，我們對搜索引擎的數(shù)據(jù)資源進行結(jié)構(gòu)重組。首先需要對數(shù)據(jù)進行數(shù)據(jù)分詞和關(guān)鍵詞提取，對中文的分詞是一項非常復雜的工作，中文不像英文那樣，天然的以空格進行分割，中文分詞需要將中文字符序列按照詞義進行分割，分割后的每個單元都是一個關(guān)鍵詞，進行對中文進行分詞需要符合中文的語言規(guī)范和特點，需要保證分詞之后，每個單元都是一個完整的語義部分，同時還需要考慮分割之后語義的最大完整性，另一方面，在分詞過程中要考慮對停用詞(對整個語義表達沒有實際含義的詞，如“的”)的去重工作。分詞和停用詞操作相當于對數(shù)據(jù)的初始化處理，經(jīng)過初始化之后，則完成了數(shù)據(jù)的初始化工作，索引子系統(tǒng)的構(gòu)建是建立在數(shù)據(jù)初始化之后，文檔經(jīng)過分詞之后，文檔都由一系列關(guān)鍵詞組成，此時可以建立文檔和關(guān)鍵詞之間的二維矩陣，二維矩陣中對應的權(quán)值信息表示關(guān)鍵詞在文檔中的權(quán)值信息，關(guān)鍵詞在文檔中的權(quán)值可以通過多種方式加以計算，目前主要由：TF方法，DF方法，TF-IDF方法，CHI方法，IG方法和MI方法。

　　3、鏈接分析子系統(tǒng)

　　鏈接分析子系統(tǒng)曾是谷歌的發(fā)家算法，并且在數(shù)據(jù)挖掘和搜索引擎享有極高的評價，鏈接分析子系統(tǒng)通過對互聯(lián)網(wǎng)中數(shù)據(jù)進行建模分析，發(fā)現(xiàn)互聯(lián)網(wǎng)網(wǎng)頁之間通過URL鏈接建立彼此之間的聯(lián)系，網(wǎng)頁之間通過超鏈接關(guān)系進行頁面跳轉(zhuǎn)。通過對互聯(lián)網(wǎng)鏈接關(guān)系的深度分析，網(wǎng)頁質(zhì)量越高的網(wǎng)頁，其被其它網(wǎng)頁所鏈向的可能性越大，反之亦然，通過對這一規(guī)律進行深度分析并構(gòu)建模型，得出互聯(lián)網(wǎng)網(wǎng)頁的質(zhì)量評價模型：即網(wǎng)頁的質(zhì)量由鏈向其網(wǎng)頁的數(shù)量所決定。網(wǎng)頁的質(zhì)量用PageRank值(PR值)表示，如公式1所示。

　　PageRank(PR)值=重新訪問概率+迭代訪問概率(公式1)。

　　假設互聯(lián)網(wǎng)用戶采用兩種方式進行網(wǎng)頁：其一、通過一個網(wǎng)頁目錄，隨機的選擇其中一個網(wǎng)頁進行瀏覽，瀏覽結(jié)束之后，重新回到網(wǎng)頁目錄，再次選取新的URL進行訪問;其二、隨機選擇一個網(wǎng)頁URL進行訪問，從該網(wǎng)頁中提取URL鏈接列表，從URL鏈接列表中隨機選擇一個網(wǎng)頁URL繼續(xù)訪問。我們定義為該訪問模式和隨機游走模型，并得出網(wǎng)頁質(zhì)量的量化評價公式，如公式2所示。

　　在公式2中，p表示采用重新訪問的方式進行頁面瀏覽的概率，相應地采用迭代訪問的概率為(1-p)，迭代訪問時用戶選擇下一個頁面進行訪問的概率取決于下一個頁面的PR值，從某個頁面鏈出的網(wǎng)頁可能有多個，表示的是對每一個鏈出網(wǎng)頁都采取平均分配權(quán)值的方式。

　　4、結(jié)果排序子系統(tǒng)

　　結(jié)果排序子系統(tǒng)是用戶直接與搜索引擎進行交互的部分，結(jié)果排序子系統(tǒng)通過對符合用戶篩選條件的數(shù)據(jù)庫中資源進行排序并輸出。排序子系統(tǒng)需要綜合考慮多種因素，諸如網(wǎng)頁自身的PR值，用戶檢索詞和數(shù)據(jù)資源之間的相似度值等多個方面。同時，排序子系統(tǒng)需要考慮如何保證用戶需要的資源排在靠前的位置。相關(guān)研究發(fā)現(xiàn)，用戶通常只會對前幾頁的搜索引擎結(jié)果進行點擊，因此排序子系統(tǒng)不僅要保證結(jié)構(gòu)輸出的準確性，即既要保證準確率和召回率，同時非常重要的因素是首頁命中率。

　　總結(jié)

　　本文通過對當前主流的目錄式搜索引擎的體系架構(gòu)進行研究，主要就爬蟲子系統(tǒng)、索引子系統(tǒng)、鏈接分析子系統(tǒng)和結(jié)果排序子系統(tǒng)四部分進行論述，并就每種子系統(tǒng)中關(guān)鍵詞技術(shù)進行了介紹。

　　參考文獻：

　　[1]羊晶璟，鞠時光，王秀紅。基于Web的個性化搜索引擎的研究[J].計算機工程與設計，2008,20:5206-5208.

　　[2]李廣麗，劉覺夫。垂直搜索引擎系統(tǒng)的研究與實現(xiàn)[J].情報雜志，2009,10:144-147+169.

　　[3]文必龍，張璇，趙晶浩，趙滿。企業(yè)搜索引擎?zhèn)€性化排序方法[J].計算機系統(tǒng)應用，2013,04:199-203.

　　[4]佟曉筠，王翥。一種特定領(lǐng)域智能搜索引擎技術(shù)的研究[J].計算機應用研究，2004,05:49-51.

【目錄式搜索引擎的體系架構(gòu)研究】相關(guān)文章：

綜合業(yè)務體系架構(gòu)研究05-14

Home.Net模型/架構(gòu)研究08-28

淺談網(wǎng)絡工程垂直式循環(huán)教學體系的研究的優(yōu)秀論文10-03

梯進式雙語教學體系在旅游管理專業(yè)的應用研究論文07-17

基于環(huán)境視角的創(chuàng)業(yè)研究框架構(gòu)建06-26

最新理論架構(gòu)研究管理論文09-06

3層體系架構(gòu)下的電子政務系統(tǒng)設計論文07-15

搜索引擎的研究與實現(xiàn)ASP+SQL論文09-15

基于Davinci架構(gòu)的嵌入式Web播放器05-13

醫(yī)院成本會計體系架構(gòu)論述05-25