毕业论文范文网-论文范文
电气工程 会计论文 金融论文 国际贸易 财务管理 人力资源 学前教育 德语论文 工程管理 文化产业 工商管理 会计专业 行政管理 广告学
机械设计 汉语文学 英语论文 物流论文 电子商务 法律论文 工商管理 旅游管理 市场营销 药学论文 播音主持 人力资源 金融论文 保险学
制药工程 生物工程 包装工程 模具设计 测控专业 工业工程 教育管理 行政管理 计算机论 电子信息 市场营销 法学论文 财务管理 投资学
体育教育 小学教育 印刷工程 土木工程 书法论文 护理论文 心理学论 信息管理 公共事业 给水排水 新闻专业 摄影专业 广电编导 经济学
  • 范文首页 |
  • 毕业论文 |
  • 论文范文 |
  • 计算机论文 |
  • 外文翻译 |
  • 工作总结 |
  • 工作计划 |
  • 现成论文 |
  • 论文下载 |
  • 教学设计 |
  • 免费论文 |
  • 原创论文 |
搜索 高级搜索

原创毕业论文

当前位置:毕业论文范文网-论文范文 -> 计算机论文 -> 计算机论文

基于Nutch的搜索引擎实现及中文扩展


本文ID:ZJWD6904 字数:19341,页数:41

下载地址 全文下载链接(充值: 50 元) 

客服QQ:229120615 微信:lunwen668 免费获取

免费论文范文
免费论文
政治工作论文
计算机论文
营销专业论文
工程管理论文范文
医药医学论文范文
法律论文范文
生物专业论文
物理教学论文范文
人力资源论文范文
化学教学论文范文
电子专业论文范文
历史专业论文
电气工程论文
社会学专业论文
英语专业论文
行政管理论文范文
语文专业论文
电子商务论文范文
焊工钳工技师论文
社科文学论文
教育论文范文
数学论文范文
物流论文范文
建筑专业论文
食品专业论文
财务管理论文范文
工商管理论文范文
会计专业论文范文
专业论文格式
化工材料专业论文
英语教学专业论文
电子通信论文范文
旅游管理论文范文
环境科学专业论文
经济论文
人力资源论文范文
营销专业论文范文
财务管理论文范文
物流论文范文
财务会计论文范文
数学教育论文范文
数学与应用数学论文
电子商务论文范文
法律专业论文范文
工商管理论文范文
汉语言文学论文
计算机专业论文
教育管理论文范文
现代教育技术论文
小学教育论文范文
机械模具专业论文
报告,总结,申请书
心理学论文范文
学前教育论文范文

收费计算机专业论文范文
收费计算机专业论文
Delphi
ASP
VB
JSP
ASP.NET
VB.NET
java
VC
pb
VS
dreamweaver
c#.net
vf
VC++
计算机论文
毕业论文范文题目:基于Nutch的搜索引擎实现及中文扩展,论文范文关键词:基于Nutch的搜索引擎实现及中文扩展
基于Nutch的搜索引擎实现及中文扩展毕业论文范文介绍开始:

论文字数:19341,页数:41 有开题报告,任务书

摘    要
     
 搜索引擎是为满足人们网络信息搜索应运而生的网络工具,它是互联网信息查询的导航针,是沟通用户与网络信息的桥梁。然而,随着网上内容的爆炸式增长和内容形式花样的不断翻新,搜索引擎越来越不能满足挑剔的网民们的各种搜索需求,尽管Web搜索是漫游Internet的基本要求, 并且现有web搜索引擎的数目却在下降。 这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益。于是强有力的搜索工具成为这些网民们的渴盼。作为Apache开源子项目,Nutch 提供完整的搜索引擎框架,在对全文进行索引的时候,索引部分采用了开源工具包Lucene进行全文索引。通过对Nutch的二次开发,我们可以利用它强大的网络资源采集功能对网络资源进行采集,并加工进入本地库,最后让用户直接面对有效的信息。
 本文重点讨论搜索引擎原理,基于Nutch的搜索引擎的实现架构,同时网页抓取过程做了深入的研究和分析;最后,对在早期Nutch的版本的基础上如何更好的支持中文,实现中文分词搜索给出问题的解决方案,并对基于Nutch的搜索引擎的应用进行了讨论。
 
 关键词:搜索引擎,抓取器,Nutch,中文分词
 
Nutch –Based Search Engine Implementation and Chinese extension
           

 Abstract
 Search engine is the internet tool meeting demands of people while surfing on the internet and searching the information. It is a Internet Information navigation and bridge between internet user and information. However, with the sharply increase of the net content and the surprisingly change of the Synchronized forms of content, search engine can not satisfy increasingly critical user’s all kinds of search demands, although Web search is the foundation of the internet Roaming ,the existing number of search engine is down.This phenomenon can easily became one company almost monopolized all web search for its commercial gain.  Therefore ,a strong and useful and effective search tool rise to the hope focus of internet user.Nutch is such search engine, when Nutch aims to text indexing, it uses the revenue Lucene toolkit for full-text indexing. Through the second Nutch development we can make use of its powerful internet resource Collection Function to collect the resource we need, then put the processed information into local database, finally, user can directly face effective information.
 In this paper, we emphasize on the implementation architecture of the Nutch, Search engine principle,webpage crawling process. Excepting the in-depth research and analysis about above, we also give the solution of how to support Chinese and Chinese segmentation on the basis of earlier versions. Finally, a discussion about the application based on Nutch is given.
 
Key words:Search engine, crawler, Nutch, Chinese segmentation


 目录
1绪论 1
1.1 课题背景   1
1.2 搜索引擎的现状 2
1.2.1搜索引擎的发展历史 2
1.2.2搜索引擎的分类 3
1.2.3当前主流搜索引擎简介 4
1.3 论文组织结构 5
2搜索引擎基本组成及数据结构 6
2.1搜索引擎基本组成及工作流程 6
2.1.1基本组成 6
2.1.2工作流程 6
2.2 存储结构 8
2.2.1页面存储库 8
2.2.2词典库 8
2.2.3 Hits列表 9
2.3 索引结构 10
2.3.1论文索引库 10
2.3.2前向索引表 10
2.3.3后向索引表 11
3基于Nutch的搜索引擎实现的关键技术 11
3.1网页抓取技术研究与设计 11
3.1.1抓取技术的协议分析 11
3.1.2通信协议 12
3.1.3 HTML解析 13
3.2 网页抓取方法 13
4 基于Nutch实现架构 16
4.1 基于Nutch的搜索引擎开发环境和体系结构 16
4.1.1 基于Nutch的搜索引擎的开发环境 16
4.1.2基于 Nutch的搜索引擎的体系结构 16
4.2 基于Nutch的搜索引擎的抓取过程运行 20
4.3 搜索结果展示 22
5 Nutch中文扩展设计与实现 23
5.1中文分词和搜索引擎 23
5.2 中文分词算法 23
5.2.1 基于字符串匹配的分词算法 24
5.2.2基于理解的分词方法 25
5.2.3基于统计的分词方法 25
5.3 中文分词难点 26
5.4 Nutch分析 27
5.5 Nutch中文搜索 28
5.5.1 Nutch中文分词 28
5.5.2 JavaCC分析 29
5.5.3利用JavaCC构造中文分析模块 31
5.6小结 33
结论 33
总结 33
展望 33
致谢 34
参考文献 34

充值 50 元下载全文→充值 以上为本篇毕业论文范文基于Nutch的搜索引擎实现及中文扩展的介绍部分。

本论文在计算机论文栏目,由论文网(www.zjwd.net)整理,更多论文,请点论文范文查找

毕业论文降重 相关论文
收费论文范文
收费论文
汉语言文学论文
物理学论文
自动化专业论文
测控技术专业论文
历史学专业论文
机械模具专业论文
金融专业论文
电子通信专业论文
材料科学专业论文
英语专业论文
会计专业论文
行政管理专业论文
财务管理专业论文
电子商务国贸专业
法律专业论文
教育技术学专业论文
物流专业论文
人力资源专业论文
生物工程专业论文
市场营销专业论文
土木工程专业论文
化学工程专业论文
文化产业管理论文
工商管理专业论文
护理专业论文
数学教育专业论文
数学与应用数学专业
心理学专业论文
信息管理专业论文
工程管理专业论文
工业工程专业论文
制药工程专业论文
电子机电信息论文
现代教育技术专业
新闻专业论文
艺术设计专业论文
采矿专业论文
环境工程专业论文
西班牙语专业论文
热能与动力设计论文
工程力学专业论文
酒店管理专业论文
安全管理专业论文
交通工程专业论文
体育教育专业论文
教育管理专业论文
日语专业论文
德语专业论文
理工科专业论文
轻化工程专业论文
社会工作专业论文
乡镇企业管理
给水排水专业
服装设计专业论文
电视制片管理专业
旅游管理专业论文
物业管理专业论文
信息管理专业论文
包装工程专业论文
印刷工程专业论文
动画专业论文
环境艺术专业论文
信息计算科学专业
物流专业论文范文
人力资源论文范文
营销专业论文范文
工商管理论文范文
汉语言文学论文范文
法律专业论文范文
教育管理论文范文
小学教育论文范文
学前教育论文范文
财务会计论文范文

电子商务论文范文

上一篇:人事管理数据库系统的开发 下一篇:工作流在ERP中的实践调拨业务的实..

最新论文

精品推荐

毕业论文排版

热门论文


本站简介 | 联系方式 | 论文改重 | 免费获取 | 论文交换

本站部分论文来自网络,如发现侵犯了您的权益,请联系指出,本站及时确认删除 E-mail:229120615@qq.com

毕业论文范文-论文范文-论文同学网(www.zjwd.net)提供计算机论文毕业论文,毕业论文范文,毕业设计,论文范文,毕业设计格式范文,论文格式范文

Copyright@ 2010-2024 zjwd.net 毕业论文范文-论文范文-论文同学网 版权所有