毕业论文范文网-论文范文
电气工程 会计论文 金融论文 国际贸易 财务管理 人力资源 学前教育 德语论文 工程管理 文化产业 工商管理 会计专业 行政管理 广告学
机械设计 汉语文学 英语论文 物流论文 电子商务 法律论文 工商管理 旅游管理 市场营销 药学论文 播音主持 人力资源 金融论文 保险学
制药工程 生物工程 包装工程 模具设计 测控专业 工业工程 教育管理 行政管理 计算机论 电子信息 市场营销 法学论文 财务管理 投资学
体育教育 小学教育 印刷工程 土木工程 书法论文 护理论文 心理学论 信息管理 公共事业 给水排水 新闻专业 摄影专业 广电编导 经济学
  • 范文首页 |
  • 毕业论文 |
  • 论文范文 |
  • 计算机论文 |
  • 外文翻译 |
  • 工作总结 |
  • 工作计划 |
  • 现成论文 |
  • 论文下载 |
  • 教学设计 |
  • 免费论文 |
  • 原创论文 |
搜索 高级搜索

原创毕业论文

当前位置:毕业论文范文网-论文范文 -> 论文下载 -> 计算机毕业论文范文

博士学位论文 搜索引擎中文档聚类方法研究

 本文ID:ZJWD241424 充值:150元
免费毕业论文范文
免费毕业论文
政治工作论文
计算机论文
营销专业论文
工程管理论文范文
医药医学论文范文
法律论文范文
生物专业论文
物理教学论文范文
人力资源论文范文
化学教学论文范文
电子专业论文范文
历史专业论文
电气工程论文
社会学专业论文
英语专业论文
行政管理论文范文
语文专业论文
电子商务论文范文
焊工钳工技师论文
社科文学论文
教育论文范文
数学论文范文
物流论文范文
建筑专业论文
食品专业论文
财务管理论文范文
工商管理论文范文
会计专业论文范文
专业论文格式
化工材料专业论文
英语教学专业论文
电子通信论文范文
旅游管理论文范文
环境科学专业论文
经济论文
人力资源论文范文
营销专业论文范文
财务管理论文范文
物流论文范文
财务会计论文范文
数学教育论文范文
数学与应用数学论文
电子商务论文范文
法律专业论文范文
工商管理论文范文
汉语言文学论文
计算机专业论文
教育管理论文范文
现代教育技术论文
小学教育论文范文
机械模具专业论文
报告,总结,申请书
心理学论文范文
学前教育论文范文

收费计算机专业论文范文
收费计算机专业论文
Delphi
ASP
VB
JSP
ASP.NET
VB.NET
java
VC
pb
VS
dreamweaver
c#.net
vf
VC++
计算机论文
扫一扫 扫一扫
毕业论文范文题目: 博士学位论文 搜索引擎中文档聚类方法研究,论文范文关键词: 博士学位论文 搜索引擎中文档聚类方法研究
博士学位论文 搜索引擎中文档聚类方法研究毕业论文范文介绍开始:
   博士学位论文 搜索引擎中文档聚类方法研究,共117页。
  【摘要】 随着互联网的发展,Web上的信息浩如烟海,搜索引擎作为互联网中的基础应用已经成为人们获取信息的重要工具。为了能给用户提供更好的搜索服务,近年来,数据挖掘和机器学习技术被广泛用来改善搜索结果的质量。其中,聚类技术在无任何先验知识的情况下,能将大规模数据按照数据的相似性划分成用户可迅速理解的簇(cluster),从而使用户更快地了解大量文档中所包含的内容。因此,聚类技术成为搜索引擎中不可或缺的部分和研究热点。在搜索引擎中,存在着两类数据:一是搜索引擎从互联网抓取的文档即用户搜索的对象,包括普通文本网页、XML文档和包括Flash、AJAX在内的超链接信息较少的文档;二是搜索日志即用户使用搜索引擎时产生的行为记录(userbehavior data),搜索日志提供了一个潜在的知识库来辅助文档聚类分析。不同的文档有不同的特点,不同的应用对聚类分析有不同的要求。因此,数据的表示、数据相似度的定义,以及聚类分组算法是重要研究课题,具有重要的理论和实际意义。对于文本文档(text document),现有的文本聚类算法忽略了文档是有序的单词序列而将文档视为一系列离散单词的集合。基于带窗口约束的关联规则的聚类算法(FICW)首先用滑动窗口对单词的位置进行约束,挖掘出文本集合中的频繁项目集,然后将得到的频繁项目集用于文本聚类。实验表明,FICW产生了质量更高的聚类结果,具有更好的效率和伸缩性。XML文档是Web上的重要组成部分,基于公共路径的XML文档相似度定义因为计算开销小而被应用于XML聚类,却忽略了公共子路径在XML树上的分布信息。一种基于启发性策略的合并编辑距离(MED),利用将两棵XML树压缩为它们的公共子树所需的编辑代价来捕获公共子路径的分布情况。实验表明,MED成功表示了XML树间公共子树的分布情况,基于MED的相似度定义较基于路径的相似度定义更好地衡量了XML文档间的相似程度。另一方面,为解决XML文档随意命名标签导致的度量XML文档相似度困难的问题,根据XML描述同类对象时,所使用的数据在数据类型的构成上具有一致性的特点,一种基于数据类型树的相似度评估标准被应用于XML文档聚类中。实验验证了该相似度定义的有效性,得到了较高质量的聚类结果。搜索日志记录的用户点击情况反映了网页中哪些主题才是真正引起用户兴趣的主题。因此利用搜索日志从用户的角度对网页进行聚类分析成为一种有效的方法。基于用户行为的混合网页表示模型首先从搜索引擎的搜索日志中抽取访问过给定网页的查询,将这些查询作为描述该网页的主题词,然后以主题词为中心从网页中抽取内容生成描述网页的虚拟文档以及相应的向量表示。实验结果表明,该混合表示模型能有效地改善网页分类和聚类的质量。Web上的AJAX应用和PowerPoint文件等弱链接文档由于缺乏足够的超链接信息,导致搜索该类文档时,排序结果不佳。针对该问题,基于聚类的弱链接文档排序算法利用聚类算法从高质量的网页搜索结果中提取与查询相关的主题,并根据主题的相关网页的排名确定该主题的重要性,最后根据识别的带权重的主题计算弱链接文档的排序值。实验结果表明该算法能够为弱链接文档产生较好的排序结果。
  【关键词】 搜索引擎; Web使用挖掘; 聚类技术; XML文档聚类; 弱链接文档;
 


以上为本篇毕业论文范文 博士学位论文 搜索引擎中文档聚类方法研究的介绍部分。

本论文在计算机毕业论文范文栏目,由论文网(www.zjwd.net)整理,更多论文,请点论文范文查找

毕业论文降重 相关论文
收费毕业论文范文
收费毕业论文
汉语言文学论文
物理学论文
自动化专业论文
测控技术专业论文
历史学专业论文
机械模具专业论文
金融专业论文
电子通信专业论文
材料科学专业论文
英语专业论文
会计专业论文
行政管理专业论文
财务管理专业论文
电子商务国贸专业
法律专业论文
教育技术学专业论文
物流专业论文
人力资源专业论文
生物工程专业论文
市场营销专业论文
土木工程专业论文
化学工程专业论文
文化产业管理论文
工商管理专业论文
护理专业论文
数学教育专业论文
数学与应用数学专业
心理学专业论文
信息管理专业论文
工程管理专业论文
工业工程专业论文
制药工程专业论文
电子机电信息论文
现代教育技术专业
新闻专业论文
艺术设计专业论文
采矿专业论文
环境工程专业论文
西班牙语专业论文
热能与动力设计论文
工程力学专业论文
酒店管理专业论文
安全管理专业论文
交通工程专业论文
体育教育专业论文
教育管理专业论文
日语专业论文
德语专业论文
理工科专业论文
轻化工程专业论文
社会工作专业论文
乡镇企业管理
给水排水专业
服装设计专业论文
电视制片管理专业
旅游管理专业论文
物业管理专业论文
信息管理专业论文
包装工程专业论文
印刷工程专业论文
动画专业论文
环境艺术专业论文
信息计算科学专业
物流专业论文范文
人力资源论文范文
营销专业论文范文
工商管理论文范文
汉语言文学论文范文
法律专业论文范文
教育管理论文范文
小学教育论文范文
学前教育论文范文
财务会计论文范文

电子商务论文范文

上一篇: C语言程序设计实训报告 电子通讯.. 下一篇: 博士学位论文 数据挖掘相关算法..

最新论文

精品推荐

毕业论文排版

热门论文


本站简介 | 联系方式 | 论文改重 | 免费获取 | 论文交换

本站部分论文来自网络,如发现侵犯了您的权益,请联系指出,本站及时确认删除 E-mail:229120615@qq.com

毕业论文范文-论文范文-论文同学网(www.zjwd.net)提供计算机毕业论文范文毕业论文,毕业论文范文,毕业设计,论文范文,毕业设计格式范文,论文格式范文

Copyright@ 2010-2024 zjwd.net 毕业论文范文-论文范文-论文同学网 版权所有