电气工程
会计论文
金融论文
国际贸易
财务管理
人力资源
学前教育
德语论文
工程管理
文化产业
机械设计
汉语文学
英语论文
物流论文
电子商务
法律论文
工商管理
旅游管理
市场营销
药学论文
制药工程
生物工程
包装工程
模具设计
测控专业
工业工程
教育管理
行政管理
计算机论
电子信息
体育教育
小学教育
印刷工程
土木工程
书法论文
护理论文
心理学论
信息管理
公共事业
给水排水
范文首页
|
毕业论文
|
论文范文
|
计算机论文
|
外文翻译
|
工作总结
|
工作计划
|
现成论文
|
论文下载
|
教学设计
|
免费论文
|
原创论文
|
全站搜索
搜索
高级搜索
当前位置:
论文同学网:毕业论文范文网-论文范文
->
免费论文
->
论文格式
NERMS中基于Internet的搜查引擎研究与实现
作者: 浏览:
3
次
免费专业论文
政治工作论文
计算机论文
营销专业论文
工程管理论文范文
医药医学论文范文
法律论文范文
生物专业论文
物理教学论文范文
人力资源论文范文
化学教学论文范文
电子专业论文范文
历史专业论文
电气工程论文
社会学专业论文
英语专业论文
行政管理论文范文
语文专业论文
电子商务论文范文
焊工钳工技师论文
社科文学论文
教育论文范文
数学论文范文
物流论文范文
建筑专业论文
食品专业论文
财务管理论文范文
工商管理论文范文
会计专业论文范文
专业论文格式
化工材料专业论文
英语教学专业论文
电子通信论文范文
旅游管理论文范文
环境科学专业论文
经济论文
人力资源论文范文
营销专业论文范文
财务管理论文范文
物流论文范文
财务会计论文范文
数学教育论文范文
数学与应用数学论文
电子商务论文范文
法律专业论文范文
工商管理论文范文
汉语言文学论文
计算机专业论文
环境艺术专业论文
信息计算科学专业
物流专业论文范文
人力资源论文范文
教育管理论文范文
现代教育技术论文
小学教育论文范文
机械模具专业论文
报告,总结,申请书
理工科专业论文
心理学论文范文
学前教育论文范文
毕业论文范文题目:
NERMS中基于Internet的搜查引擎研究与实现
,论文范文关键词:
NERMS中基于Internet的搜查引擎研究与实现
NERMS中基于Internet的搜查引擎研究与实现毕业论文范文介绍开始:
【论文摘要】
:网络教导资源管理体系NERMS(NetworkEducationalResourceManagementSystem)是咱们承担的吉林省科学技巧厅的重大名目。NERMS的重要目标是对繁多的网络教导资源进行有效的组织跟管理,以便于网络教导资源的高度共享跟便利获取,从而加快网络教导资源的开发跟促进网络教导的发展。本文是其中的一部分,用于教导资源的动态扩大及站内资源的检索跟索引。这里集中探讨了NERMS中基于Internet的搜查引擎顶用到的关键技巧跟算法。首先,介绍了搜查引擎的基本概念跟重要技巧,阐述了多数基于Internet搜查引擎的体系构造。而后,研究了搜查引擎中页面收集即Spider顶用到的重要技巧,并探讨了如何进步Spider的工作效力。最后探讨了查问中波及到的一些问题,以及如何对成果进行排序。1.站点爬行器SpiderSpider利用HTTP协定从互联网上收集页面,个别是从一个或者多个有名的站点开端爬行,这些站点或者页面可能自行抉择。当Spider获取一个新页面后,它对页面进行分(此处忽略..)析,提取出页面中的所有链接的URL,并把该页面跟这些URL存入数据库。也就是说,一个Spider主动的利用Web的超文本构造,获取一个文档,并通过该文档中引用的URL递归的获取所有文档。首先,Web构造及其复杂跟不一致,在Internet上有很多品种型的页面,如text、HTML跟XML等,其中简单文本很轻易分析跟处理;XML文档因为高度构造化,也很轻易处理。但互联网上的大多数页面都是HTML页面,而HTML的语法请求不是很严格,比方,一个超链接标签a赡苊挥薪崾?昵?/a?彼?龅搅硪桓?a币部梢匀衔?耙桓鲆丫?崾??虼耍?乖旖∽场⒐δ芮看蟮腍TML解析器是站点爬行器的一个基本请求。这里实现了一个通用的HTML解析器。其次,互联网上有大量的活动页面,它们包含表单、Javascript等动态特点,所以Spider请求可能处理页面中的Form,换句话说,它应当可能发送表单或者模仿履行Javascript代码。同时,HTTP连接是无状况的,为了保护Spider跟Web服务器之间的连接的状况,(略..)Spider请求可能读取跟存储来自服务器端的Cookie,这些Cookie不应当被永恒保存,因为当Spider再次拜访该站点时将是一个新的状况。WP=51最后,Spider应当是高机能的,因此这里利用了多线程技巧。Spider有很多工作者线程,称为SpiderWorker,它从Thread类持续,因此SpiderWorker可能并发运行,处理任务。当一个工作者实现了自己的任务,即从Web上获取页面,提取URL,存入数据库后,它将被调配另一个任务,就这样不停的运行。2.解析跟索引文档一旦树破了页面的数据库,解析器开端分析文档,并树破索引。在这个过程中,首先波及到的是HTML的解析,从HTML页面中提取的文本须要进行文本预处理,其中,包含词干提取,假如文档是中文还须要对中文句子进行中文分词。索引词条将从经过预处理的文本中提取,包含中文词汇跟英文单词,索引器从这些词条中抉择一些作为索引词条。首先,Web页面利用HTML标签来组织,因此HTML解析器须要提取标签,并利用标签来给索引词条赋权重(we(此处忽略..)ight),比方,被“title”标签润饰的文本、“meta”标签中的“description”跟“keyword”属性中的文本将存在较高的权值。在提取文本中的词汇的时候,还有保存润饰该词汇的标签。其次,解析器利用传统的词干提取技巧来处理英文单词,利用中文分词来处理中文句子。英文的词干提取有较为幻想的算法,这里采取的是PorterStemer算法。中文分词的核心问题是歧义处理,中文歧义用两种:交加型歧义跟组合型歧义,其中交加型歧义占绝大多数,是歧义处理的重点也是难点。根据歧义字段的宏构造对交加型切不合义的分类,采取了处理交加型切不合义的4条准则:尽量成词:即假如全部交加字段是一个词,则不作切分;否则使切分成果各部分尽可能成为多个汉字构成的词,尽量避免呈现切分成果是多个单个汉字构成的词的情况;成语、熟语优先:假如待切分字段中含有成语或熟语,则尽可能保障该部分成词;合乎语法规矩:切分成果必须合乎语法规矩,不容许呈现诸如“形容词+动词”的情况;正向最大匹配优先:用于呈现多少种公道的切分成果的(文章此处忽略..)情况。在以上准则的领导下,给出了处理各重要歧义类型的规矩。最后,索引器产生一个词条(不含反复的)及其权重的凑集,可能代表一个文档,称为文档的向量,这个模型称为文档向量模型。索引器将文档向量存储在数据库中,称为前向索引,同时,将一个词条及所有包含该词条的文档构成一条记录,存储在数据库中,称为倒排索引,可能可能实现文档的疾速查找。3.搜查跟成果排序因为存在大量含有关键词的文档,因此对成果进行排序变得越来越重WP=52要。有很多搜查成果排序的方法,其中最有效的两种算法是PageRank跟HITS(Hyperlink-inducedTopicSearch)算法,本文实现了这两个算法。PageRank是目前最富强的搜查引擎Google的核心算法,其思维是:一个页面被多次引用,则这个页面很可能是很重要的;一个页面只管不被多次引用,但被一个重要页面引用,则这个页面很可能是重要的;一个页面的重要性被均分并被传递到它所引用的页面。HITS算法中,有两种重要的页面:hub页面跟auth
以上为本篇毕业论文范文
NERMS中基于Internet的搜查引擎研究与实现
的介绍部分。
本论文在
论文格式
栏目,由
论文网
(www.zjwd.net)整理,更多论文,请点
论文范文
查找
收费专业论文
汉语言文学论文
物理学论文
自动化专业论文
测控技术专业论文
历史学专业论文
机械模具专业论文
金融专业论文
电子通信专业论文
材料科学专业论文
英语专业论文
会计专业论文
行政管理专业论文
财务管理专业论文
电子商务国贸专业
法律专业论文
教育技术学专业论文
物流专业论文
人力资源专业论文
生物工程专业论文
市场营销专业论文
土木工程专业论文
化学工程专业论文
文化产业管理论文
工商管理专业论文
护理专业论文
数学教育专业论文
数学与应用数学专业
心理学专业论文
信息管理专业论文
工程管理专业论文
工业工程专业论文
制药工程专业论文
电子机电信息论文
现代教育技术专业
新闻专业论文
热能与动力设计论文
教育管理专业论文
日语专业论文
德语专业论文
轻化工程专业论文
社会工作专业论文
乡镇企业管理
给水排水专业
服装设计专业论文
电视制片管理专业
旅游管理专业论文
物业管理专业论文
信息管理专业论文
包装工程专业论文
印刷工程专业论文
动画专业论文
营销专业论文范文
工商管理论文范文
汉语言文学论文范文
法律专业论文范文
教育管理论文范文
小学教育论文范文
学前教育论文范文
财务会计论文范文
电子商务论文范文
上一篇
:
一种鼓励机制下的P2P流媒体索引及..
下一篇
:
我国网络舆情保险评估指标体系研究
最新论文
精品推荐
热门论文