海南州启动藏文搜索引擎与问答系统研发工作

作者:多杰拉旦 来源:青海湖网 时间:2013-04-13 15:44:00 点击数:


兰州座谈会现场

  近日,海南州藏文信息技术研究中心先后在西北民族大学、青海师范大学、青海民族大学、青海藏医药文献数字化研究室召开座谈会,从基础性理论研究的调研全面启动“藏文搜索引擎与自动问答系统”研发工作。座谈会围绕“藏文搜索引擎与自动问答系统”研发项目展开了讨论,对藏文搜索引擎的必要性认识、社会效益及发展方向、服务对象、文献内容等方面畅所欲言,各抒己见。尤其对核心技术层面进行了深入探讨,阐述各自在藏文搜索引擎领域的研究及取得的成果、现有的储备资源情况,分词与词性标准、词法与语法、介入动词与不介入动词、藏文传统排序与现代排序的比较等方面真诚建议,提出真知灼见。


西宁座谈会现场

  藏文搜索引擎的具体做法进行了分析。从搜索引擎的发展背景、藏文搜索引擎开发的思路、藏文搜索引擎的工作原理、藏文搜索引擎系统的自主开发模块以及搜索引擎在执行搜索操作时的控制等进行了分析。对搜索引擎的各个功能模块,特别是对质量掌控的把握,网页访问的大并发问题,在今后的升级中会逐渐提高并发的承载能力,还有系统响应的效率即搜索响应速度的控制在10秒以内的要求,再次为系统的容灾能力既稳定性,采取措施保证服务器在当机的情况下系统能够保证正常运行等方面提出了指导性和建设性的理论依据。


西北民大赵颖教授介绍搜索引擎的具体做法

[FS:PAGE]
  藏文搜索引擎研发的核心技术进行了演示。教授们以精湛的理论、庞大的数据演示了多年来研究的核心技术及储备资源情况。目前能支持部分藏文搜索的google搜索引擎其所搜索的藏文查询结果在识别词汇和排序上面都有很大的问题,出现不能识别语义、将词汇打乱等问题,它只是使用单纯的算法进行搜索,导致搜索结果时而正确时而错误的现象。分词不仅仅是搜索引擎的一个核心技术,分词还是机器翻译、信息检索、智能输入、文本校对、自动文摘、自动分类、词典编纂的核心技术,所以藏文自动分词是整个藏文信息的核心和瓶颈,多年来这个领域所要攻克的关键也在藏文的自动分词上,很多已经有成果的藏文分词技术存在着很多问题。演示了已收集的词表库10万条词汇,包括词的标记、频率、出现次数、组合频率;训练语料已收集建立分词、词性标注和人工审校20万词字的语料,将来的训练语料能达到100万词字量,筛选出的103840条网络藏文句子组成标注语料库,正确识别率达到95%以上,要做到更加智能、更加快捷的藏文搜索效率。


西北民大多拉教授介绍需要解决的核心技术问题及资源储备情况

  藏文搜索引擎的研发形成了初步共识。通过召开多次座谈会,广泛探讨,深入分析,凝集智慧,达成了共识。 一致认为开发“藏文搜索引擎与自动问答系统”势在必行,要不失时机地启动项目实施;各院校专家均有比较成熟的藏文搜索引擎教学领域的理论研究和基础性储备资源,而且都有智力支持的意愿; 专家们认为藏文搜索引擎的核心技术方面还存在着诸多问题和疑难,建议更多地向各个语言领域的专家咨询。


向专家颁发聘书

  会上,根据《海南州人民政府关于同意聘请王厚峰等9名同志为海南州藏文信息技术研究中心特邀专家的批复》要求,部分海南州藏文信息技术研究中心特邀专家颁发了聘书。

相关推荐