山東省微山縣第一中學 龔義
隨著因特網的迅速發展, 網上信息以爆炸性的速度不斷豐富和擴展,若你想詳盡瀏覽所有計算機上應有盡有的信息, 這無異是癡人說夢。不用擔心, 面對信息的“海洋”, 我們有自己的“指南針” ———搜索引擎。它使我們在大量的信息中篩選需要的信息成為可能,本文在簡述網絡環境下搜索引擎的基本概念及其主要特點.
一、搜索引擎
1.搜索引擎定義
搜索引擎(search engine)是指根據一定的策略、運用特定的計算機程序從互聯網上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務,將用戶檢索相關的信息展示給用戶的系統。其主要任務是在因特網上主動搜索Web 服務器信息形成自動索引, 索引內容存儲于可供查詢的大型數據庫中。當用戶輸入關鍵詞查詢時,該網站會告訴用戶包含該關鍵字信息的所有網址, 并提供通向該網站的鏈接。
2.搜索引擎的構成搜索引擎主要包括以下五個組成部分:
(1) 搜索引擎的網頁搜索程序, 用于搜索和尋找網站和網頁;
(2) 收集網頁信息和收集來自其他資源的其他網頁信息的數據庫;
(3) 標引程序, 用于標引數據庫中的內容;
(4) “檢索引擎”, 即接到提問要求后, 從索引(或數據庫) 中檢索資料的算法和相關程序;
(5) 圖像(HTML) 界面, 收集用戶的提問數據, 送到檢索搜索引擎。
3. 搜索引擎的基本工作原理
各搜索引擎的工作原理基本上是相同的, 其包括以下三個方面:
(1) 利用“網頁搜索程序”在網上搜尋所有信息, 并將它們反饋給搜索引擎。這主要是通過被稱為“蜘蛛(spider) ”或“機器人(robots) ”網頁搜索軟件訪問各網址的網頁, 并記錄下來形成一個詳盡的網絡目錄。
(2) 將信息進行整理分類形成搜索引擎數據庫。在此過程中, 不同的系統在反饋檢索結果的數量和質量上會有所不同, 有的將對每個站點的每一頁的所有內容進行記錄; 而其它的則在分析數據庫中的地址后, 選擇記錄最熱門站點的信息。被記錄信息的主要包括從HTML 標題到整個站點所有文本內容以及經過特定算法處理后的摘要;
(3) 通過Web 服務器端軟件, 為用戶提供瀏覽器界面下的信息查詢。每個搜索引擎都為用戶提供了一個良好的人機對話的界面, 并具有幫助功能。只要在查詢輸入框中輸入想要查找的關鍵詞或短語, 并按“search”按鈕。搜索引擎就會根據用戶的輸入提問, 在索引中查找對應的的詞語, 在進行必要的邏輯計算后給出命中結果。用戶只需通過搜索引擎提供的超文本鏈接就可以訪問到相關信息。
有人根據搜索引擎的工作原理的不同將其分為全文搜索引擎、目錄搜索引擎和元搜索引擎,目前很多搜索引擎都是將這幾種工作原理結合使用。
二、優秀搜索引擎所具備的主要特點
1. 支持目錄式的分類結構
該結構將信息系統地加以分門歸類, 遇到一個網站時,先將該網站劃分到某個分類下, 再記錄一些摘要信息, 對其進行概述性的簡要介紹(如Yahoo 網站) 。而并非是將網站上所有文章和信息都收錄進去。該類引擎能使用戶方便明了地查找到某一大類信息,與傳統信息查找方式相吻合, 尤其適合那些“希望了解某一方面(或某一范圍) 的信息, 并不嚴格限于查詢關鍵詞”的用戶。但該類引擎搜索范圍較全文搜索引擎相比要小很多, 尤其是當用戶選擇類型不當時, 有可能漏檢某些重要信息。
2. 支持全文檢索該類引擎優點是有較高的查全率, 能對和網站的每篇文章中的每個詞進行搜索, 只要某網頁有用戶送檢的“關鍵詞”就會將該網頁作為相匹配的結果反饋給用戶。從某方面來說, 它為用戶提供了最全面最廣泛的搜索結果, 然而正是因為它的結果信息的多而全, 沒有分類式搜索引擎那樣清晰的層次結構, 其搜索結果給人一種“雜亂繁多”的感覺。
3.提供搜索結果的相關度該類引擎在找到與搜索要求相對應的網站的同時, 按其相關程度(指關鍵詞在文檔中出現的頻度) 對搜索結果進行排序。但需要注意的是有些文檔盡管相關程度較高,但未必是用戶所需要的“最好”的文檔, 除非你知道要查找的文檔的標題。
4.檢索方法多樣性、查找手段完備性
有些性能完善的搜索引擎不僅能檢索因特網上的文獻,還能查找公司和個人的信息; 不僅能進行文本檢索, 還能進行圖像檢索: 不僅能檢索Web 頁面, 還提供對新聞組內文章的查找; 不僅提供輸入單詞、詞組或句子的初級檢索方式, 還提供指定多個單詞之間的邏輯組配、截詞以及相關位置關系等的高級檢索方式; 不僅能以詞語查詢主頁信息, 也能以特定的域名、主機名、URL 等查找有關信息;此外, 還可以對被檢索文獻發表的語種、日期、字母的大小寫、顯示回復的數量等進行限制。
5.技術不斷更新的搜索引擎一個優秀的搜索引擎產品不再僅憑借數據庫大小、更新頻率、檢索速度、對多語言的支持這幾個基本特性來衡量, 不僅查詢速度快, 還需具有較好的可維護、可更新性能。其系統穩定可靠性強, 具有完整的容錯備份、崩潰修復機制, 即使出錯, 也可以及時得到迅速恢復。好在搜索引擎技術發展迅速, 諸如智能化、個性化特色的新型引擎與過去的搜索引擎相比有了很大的區別。其最新技術發展包括以下幾個方面: (1) 提高搜索引擎對用戶檢索提問的理解。已經出現了自然語言智能答詢; (2)對檢索結果進行處理。如去掉檢索結果中附加的多余信息。出現了基于鏈接評價和訪問大眾性的搜索引擎; (3) 確定搜索引擎信息搜集范圍, 提高搜索引擎的針對性。出現垂直主題搜索引擎、多媒體搜索引擎、非www 信息(如FTP等類信息) 的搜索; (4) 更注意對檢索結果的處理, 如純凈搜索引擎和元搜索引擎。
朋友, 在你掌握了搜索引擎及使用技巧后,在熟悉一下搜索引擎的搜索特點,你會發現互聯網遠比想像中的精彩, 而你竟能自由自在地暢游在這片廣闊的海洋之上。
Copyright (C) 2009-2016 中華文教網 www.shouji3g.org.cn All Rights Reserved 版權所有 京ICP備10012388號
商務聯系、網站內容、合作建議:18610236845 zdkw2005@163.com