电气工程
会计论文
金融论文
国际贸易
财务管理
人力资源
学前教育
德语论文
工程管理
文化产业
机械设计
汉语文学
英语论文
物流论文
电子商务
法律论文
工商管理
旅游管理
市场营销
药学论文
制药工程
生物工程
包装工程
模具设计
测控专业
工业工程
教育管理
行政管理
计算机论
电子信息
体育教育
小学教育
印刷工程
土木工程
书法论文
护理论文
心理学论
信息管理
公共事业
给水排水
范文首页
|
毕业论文
|
论文范文
|
计算机论文
|
外文翻译
|
工作总结
|
工作计划
|
现成论文
|
论文下载
|
教学设计
|
免费论文
|
原创论文
|
全站搜索
搜索
高级搜索
当前位置:
论文同学网:毕业论文范文网-论文范文
->
免费论文
->
论文格式
基于N-grams短语的中文Web文本聚类及其预处理的研究
作者: 浏览:
3
次
免费专业论文
政治工作论文
计算机论文
营销专业论文
工程管理论文范文
医药医学论文范文
法律论文范文
生物专业论文
物理教学论文范文
人力资源论文范文
化学教学论文范文
电子专业论文范文
历史专业论文
电气工程论文
社会学专业论文
英语专业论文
行政管理论文范文
语文专业论文
电子商务论文范文
焊工钳工技师论文
社科文学论文
教育论文范文
数学论文范文
物流论文范文
建筑专业论文
食品专业论文
财务管理论文范文
工商管理论文范文
会计专业论文范文
专业论文格式
化工材料专业论文
英语教学专业论文
电子通信论文范文
旅游管理论文范文
环境科学专业论文
经济论文
人力资源论文范文
营销专业论文范文
财务管理论文范文
物流论文范文
财务会计论文范文
数学教育论文范文
数学与应用数学论文
电子商务论文范文
法律专业论文范文
工商管理论文范文
汉语言文学论文
计算机专业论文
环境艺术专业论文
信息计算科学专业
物流专业论文范文
人力资源论文范文
教育管理论文范文
现代教育技术论文
小学教育论文范文
机械模具专业论文
报告,总结,申请书
理工科专业论文
心理学论文范文
学前教育论文范文
毕业论文范文题目:
基于N-grams短语的中文Web文本聚类及其预处理的研究
,论文范文关键词:
基于N-grams短语的中文Web文本聚类及其预处理的研究
基于N-grams短语的中文Web文本聚类及其预处理的研究毕业论文范文介绍开始:
【论文摘要】
:随着计算机技术的不断发展与应用,数字化的文本数量不断增长,互联网的发展更加剧了数字文本的膨胀。本文的目标就是在我国互联网资源急剧增长的背景下,为了有效地挖掘中文Web文本信息资源,针对传统文本表示模型应用于中文文本的不足和传统文本聚类方法处理高维文本对象时运行效率低的缺陷,以及中文文本需要进行分词等困难,根据网页文本对象的特殊性和中文语言自身特点,尝试从中文Web文本聚类过程的不同阶段入手,研究中文Web文本聚类分析技术。在预处(文章此处忽略..)理阶段,为了能够提供准确表达网页主题信息的去噪网页或文本,在分析现有不同网页主题信息提取或网页去噪方法的基础上,针对这些方法需要不同程度地依赖网页结构和视觉特征的缺陷,本文提出了一种新的提取方法,即基于正文特征的网页主题信息提取方法。实验结果表明,这种方法无论在主题信息提取的准确率,还是主题信息提取完整性,结果都比较好。根据中文语言自身特点,把中文信息处理的基础技术——中文自动分词纳入研究内容之一。词语粗分是分词后续处理的基础和(略..)前提,直接影响到分词系统最终的准确率和召回率。针对目前常用分词方法单一使用时存在的不足,综合机械分词的高效性和统计分词的灵活性,本文设计了一种最短路径的二元语法中文词语粗分模型。实验结果表明,此粗分模型无论在封闭测试和开放测试中,还是在不同粗分模型对比测试和不同领域的开放测试中,都有较好的句子召回率。在文本表示阶段,传统文本表示模型应用较为广泛的是基于词集的向量空间模型(VectorSpaceModel,VSM),在构建VSM中,仅(本文此处忽略..)仅考虑利用文档中单个词的信息,而忽略了对聚类来说更重要的词之间的关系和顺序信息。针对VSM表示文本的不足和文本信息自身特征,本文提出了一种新的文本表示模型,即短语相关文档模型(PhraseRelatedDocumentsModel,PRDM)。在模型中,PRDM使用具有上下文信息的N-grams短语来表达文档和文档关系,能够更准确地聚集相似文档。在文本聚类阶段,针对传统文本聚类方法处理高维文本对象时运行效率低和需要初始化参数的缺陷,(此处忽略..)本文提出了一种新的中文文本聚类方法,即基于N-grams短语的中文文本聚类方法。该方法在PRDM的基础上,构建文档相关文档模型(DocumentRelatedDocumentsModel,DRDM);然后在DRDM的基础上,计算文档相似度;最后聚集相关文档(相似文档),得到“物以类聚”的结果。通过实验对比,N-grams短语方法无论在查准率、查全率,还是F值、聚类用时,都比k-均值算法和AHC算法有更好的性能表现。
以上为本篇毕业论文范文
基于N-grams短语的中文Web文本聚类及其预处理的研究
的介绍部分。
本论文在
论文格式
栏目,由
论文网
(www.zjwd.net)整理,更多论文,请点
论文范文
查找
收费专业论文
汉语言文学论文
物理学论文
自动化专业论文
测控技术专业论文
历史学专业论文
机械模具专业论文
金融专业论文
电子通信专业论文
材料科学专业论文
英语专业论文
会计专业论文
行政管理专业论文
财务管理专业论文
电子商务国贸专业
法律专业论文
教育技术学专业论文
物流专业论文
人力资源专业论文
生物工程专业论文
市场营销专业论文
土木工程专业论文
化学工程专业论文
文化产业管理论文
工商管理专业论文
护理专业论文
数学教育专业论文
数学与应用数学专业
心理学专业论文
信息管理专业论文
工程管理专业论文
工业工程专业论文
制药工程专业论文
电子机电信息论文
现代教育技术专业
新闻专业论文
热能与动力设计论文
教育管理专业论文
日语专业论文
德语专业论文
轻化工程专业论文
社会工作专业论文
乡镇企业管理
给水排水专业
服装设计专业论文
电视制片管理专业
旅游管理专业论文
物业管理专业论文
信息管理专业论文
包装工程专业论文
印刷工程专业论文
动画专业论文
营销专业论文范文
工商管理论文范文
汉语言文学论文范文
法律专业论文范文
教育管理论文范文
小学教育论文范文
学前教育论文范文
财务会计论文范文
电子商务论文范文
上一篇
:
移动定位分布式系统开发
下一篇
:
基于符号数据的群组推荐算法研究
最新论文
精品推荐
热门论文