|
产品概述 近年来随着Internet的大规模普及和企业信息化程度的提高,有越来越多的信息积累,而需要信息的人还没有特别方便的工具去从来自异构数据源的大规
模的文本信息资源中提取符合需要的简洁、精炼、可理解的知识,文本挖掘正是解决这一问题的一个方法。
TRS CKM的主要功能是为中文文本挖掘应用提供强有力的开发接口。它集成了TRS公司最新推出的多项中文信息处理技术,具体包括:TRS文本分类系统、TRS文本相似性检索系统、TRS文本摘要系统、TRS文本信息过滤系统、TRS拼音检索系统、TRS相关短语检索系统、TRS(政治)常识校对系统、TRS文本聚类系统、TRS文本分词系统。
TRS CKM 相关产品和技术可以广泛的应用于以下领域和系统中:企业知识门户、信息增值服务、智能搜索引擎 、数字图书馆 、情报分析 、信息安全和过滤、电子商务系统。
产品功能 自动分类 文本分类是指计算机根据文献内容进行类别划分的功能,TRS的文本分类系统支持两种分类方法:基于统计原理的自动分类和基于语义规则的规则分类。用户可以根据具体需求选择一种或者”两种结合”的方式进行分类支持。
TRS的文本分类系统支持多种分类标准和分类体系,支持多级分类和类别复分,支持中英文分类和中英文混合分类,并且可根据用户需求扩展到其他语种。可以用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多应用。

• 自动分类
基于内容、不需人工干预的文本自动分类技术。系统提供分类训练工具,允许用户自行根据自己的分类需求和数据特点设定分类结构,自动生成特征模板,进行分类训练。TRS自动分类支持反馈学习机制,可以根据用户的反馈自动对分类模板进行完善,从而逐步增加分类的准确率。
TRS 自动分类技术适用于用户基于内容的分类需求,例如:将互联网新闻按照”国际 ” 、”国内 ” 、”法制 ” 、”体育 ”等进行分类。点击进入互联网新闻自动分类示例
• 规则分类
基于规则的文本分类技术。规则的书写满足与、或、非等逻辑运算规则,具有设定词频数功能。同时系统提供方便的规则定义界面,用户可以根据需求书写和调整规则,达到预期的分类目标。规则表达式示例:作者=(李四+王某)-正文=外汇、标题=世界杯*正文=(汉城+中国队)。
TRS 规则分类技术适用于用户基于关键词的分类需求,通过和自动分类技术相结合,为用户提供高准确度的多级分类支持。 相似性检索
• 相似性检索是指对于给定样本文献,在文献数据集合中查找出与之内容相似的文献的技术。实践表明应用相似性检索技术可以达到很好的网络内容自动排重、相关文章推荐效果。
利用内容的相似性进行排重判断,准确性高,不会因为标题或内容的少许变化而产生漏判,即使把标题进行了改头换面,系统也会正确判定。
系统支持用户根据个性化需求设定相似度阈值和检索结果集大小,达到预期的相似检索、内容排重目标。支持中英文文本的相似性检索,并可根据用户需求扩展到其他语种。该技术可应用于稿件查重、版权保护等诸多领域。点击查看相似性检索示例 自动聚类
• 基于相似性算法的自动聚类技术。根据文本内容的相似度,将内容聚合成不同的类别,同时对每一个聚得的类别,给出精确的类别主题词。系统聚类速度快、精度高,支持中英文聚类,并可根据用户需求扩展到其他语种。该技术可应用于可视化文献分析等诸多领域。点击查看自动聚类示例 自动摘要
• TRS自动摘要技术采用统计技术设计,自动提取文本的主题,生成文章摘要,为用户快速预览文章内容提供快捷的方式。同时用户可根据需求调整自动摘要的长度。
支持中英文文本的自动摘要,并可根据用户需求扩展到其他语种。该技术可应用于新闻采编、搜索引擎等诸多领域。点击查看自动摘要示例 自动分词
• 基于规则与统计相结合的分词技术。内嵌分词歧义规则库,有效解决大部分的切分歧义,准确识别人名、地名、组织机构名等信息,并提供词性标注功能。应用于文献检索、搜索引擎等诸多领域。 拼音检索
• 基于统计的汉字注音技术和多音排歧技术。通过超大的拼音词典支持,支持同音检索、全拼检索和简拼检索,支持拼音输入校正。可用于信息检索、搜索引擎等系统,向用户提供同音查询建议,帮助用户更好地进行检索。点击体验新华社多媒体数据库拼音检索 相关短语检索
• 基于人工整理和数据挖掘方法结合的相关短语技术。根据语义信息、短语结构、短语词典等计算短语之间的相关关系,获取相关短语。可用于信息检索、搜索引擎等系统,向用户提供短语查询建议,帮助用户更好地进行检索。点击体验新华社多媒体数据库相关短语检索 自动过滤
• 基于统计和机器学习的文本过滤技术。TRS文本信息过滤系统的主要功能是有效地识别和过滤各种有害文本信息,帮助用户摆脱有害信息的侵扰。可应用于互联网络信息过滤、垃圾邮件过滤、法轮功信息过滤等内容安全领域。点击查看法轮功信息过滤示例 政治常识校对
• 基于语义的校对技术。可以校对党和政府的领导人名字、党和政府领导人的称谓、党和政府领导人的排序以及政治术语不当引用,可应用于稿件校对审查等方面。点击查看政治常识校对示例 产品优势 性能优异,各项指标位居世界前列
•自动分类达到85%~~90%的准确率 •自动分类支持多层分类,缺省每层最多支持100个类,层数不受限制 •分类速度在每秒40篇以上。(P2-500 128M内存) •20万篇文章以内,相似性检索平均速度在1s内;121.5万篇文章,相似性检索平均速度在2~3s (P3-933 1G内存)。 •自动文摘速度可达每秒十篇以上。 •拼音检索速度平均为支持每秒100次检索以上。(测试环境为:P4 2.4G,512M内存) •文本信息过滤的准确性达到90%以上。 •文本信息过滤的平均速度为每秒40篇以上。(测试环境:p4 1.5G , 512M内存) 成熟度高,多领域的成功应用
• TRS CKM 相关技术和产品广泛的应用于政府的互联网内容安全领域、媒体的信息资产加工领域、企业的情报分析领域等,经过了海量信息和复杂环境的考验,具有很高的成熟度和可用性。 开放性好,易于开发和应用集成
• 产品提供本地动态库调用(C API)和SOAP API调用(Web Services)两种接口方式,使得用户可以很容易的利用这些技术开发前端应用,或者集成到其他文本应用软件中。 一体化强,和TRS Database Server 搭建一体的非结构化数据管理解决方案
• TRS Database Server全文数据库服务器的核心功能是实现对海量非结构化信息的全文检索和统一存储。通过TRS Database Server和TRS CKM的有机结合,不但提供海量非结构化信息的统一存储和全文检索,而且提供自然语言检索和相似性检索等全方位智能检索,以及智能化信息处理加工,从而构成一体的非结构化数据管理解决方案。 运行环境 Windows NT/2000/xp/2003和Linux2.4
备注:Windows 标准介质只支持x86平台的Windows;Linux 标准介质只支持x86平台的Redhat Linux和红旗Linux., 不支持其它CPU的Redhat Linux和红旗Linux, 同时不保证支持其它厂家的linux
|