庆云藏搜索开通一周年

作者:本站原创 来源:青海湖网 时间:2017-08-22 09:05:00 点击数:

  编者按:2017年8月22日,全球首个藏文搜索引擎——云藏搜索迎来了开通一周年的日子,手机APP下载量达到21万次,全站访问量也正式突破1亿大关!据统计,习近平、生态保护、民族团结、谚语、萨迦格言、文学、藏医学、佛教、因明学等为网友搜索热词。用户覆盖全国31个省市自治区和直辖市,以及英国、法国、美国、瑞士、印度等66个国家和地区。

 

  才洛寄语云藏搜索开通一周年:回首往昔,一年的辛劳还未逝去。展望未来,云藏的曙光正喷薄而出。今天,在全州上下深入学习贯彻习近平总书记重要讲话精神,全面贯彻落实省第十三次党代会精神,喜迎党的十九大胜利召开之际,我们迎来了全球首个藏文搜索引擎--云藏搜索引擎开通一周年生日。一年来,在州委、州政府的正确领导和大力扶持下,在社会各界的大力支持和积极参与下,在所有云藏人的不懈努力和齐心协力下,云藏从零起步到现在,已进入到一个不断优化、调整、升级的阶段。值此云藏一周岁之际,我谨代表海南州藏文信息技术研究中心向为云藏的开通和不断发展给予高度重视、提出宝贵建议和付出辛勤劳动的各位领导、社会各界人士及同事们表示崇高的敬意和衷心的感谢。

  步步皆心血,一年不寻常。2016年8月22日,我们满怀着不断创新的精神和积极探索的勇气,在世界各大媒体和社会各界朋友的共同见证下,齐聚一堂,领略了云藏开通的喜悦与荣光,记录了振奋人心的伟大时刻。时光荏苒,仿佛昨日还在紧锣密鼓地筹备着云藏的开通,今日已在庆祝云藏一周岁生日。蓦然回首,在云藏的蹒跚脚步里,我们倾注了大量的汗水和心血,在云藏稚嫩的声音中,我们积累了宝贵经验和深刻感悟, 一步一个脚印地从无到有开始迈向从有到优的新的台阶,逐步形成了以荟萃信息时代的发展思想与创新智慧为特点,以少数民族语言文字为载体的搜索引擎,每一位云藏人的点滴付出和持之以恒的毅力都是云藏的难忘记忆和成长步伐,并在展现出蓬勃发展的美好前景和势头。时至今日,云藏新闻、网页、图片、视频、音乐、百科、文库和知道等八大板块全部已建成,系统数据库已录入政治、文化、经济、社会、艺术、宗教、科学、医学、自然、天文、教育、地理、历史、生活、体育和信息技术等30类资料和数据,录入藏文文献经典近1万部。短短一年的时间里,云藏百科已创建2万余词条,云藏文库已上传1万余文档,云藏知道已解答近2万个问题,云藏搜索用户访问量已突破1亿次,系统注册用户达1万余。
[FS:PAGE]


爬虫网页采集图

  云藏藏文分词:

  藏文词性标注的研究是自然语言理解的一项重要工作。它的研究成果不仅为机器翻译、搜索引擎、网络信息安全等诸多领域的研究奠定基础,也是藏文信息处理后续句法分析、语义分析及篇章分析必不可少的前提条件。

  云藏藏文搜索引擎核心技术藏文自动分词及语言智能处理研制方面取得了可喜的成果,根据中华人民共和国国家标准制定的《信息处理用藏语词类标记集》和《信息处理用藏文分词规范》两项规范,建立了藏文自动分词和大规模训练语料库,并与藏文搜索引擎系统框架结构进行了集成,实现了完美对接与融合,解决了核心技术难题。同时,填补了藏文信息技术工程领域多项技术空白,及藏文同义词搜索、藏文拉丁文转写搜索、藏文拼写检查系统、藏文语义检索、藏文不同编码自动转换等功能。今年3月初,云藏团队四名技术骨干前往西北民族大学藏文典籍全文数字化研究所进行藏文分词技术培训学习,至今掌握了语料库深加工理论,并进行反复实践训练,达到了能够胜任标准语料库审校工作,并完成藏文标准语料库60万词次。

  云藏百科:

  云藏百科是集自然、文化、教育、地理、历史、生活、社会、艺术、人物、科技、体育、技术等科学知识为一体的、百科全书式的综合性藏文信息搜索引擎平台,为用户提供了全面、准确、客观的多维信息。目前能搜索到各科知识领域的名词、地名、事件、人物等方面相关词条共20135个。用户在搜索框中输入相关词条便能搜到所有相关信息,具有便捷、实用、高效的特点,能够满足不同层次用户对藏文信息搜索的需求。

  云藏百科为用户提供了一个创造性的藏文网络平台,注重用户的参与和奉献精神,充分调动大众的力量,汇聚网民的头脑智慧,不断累积打造全人类共享的开放式资料库和信息咨询平台,致力于为千万藏文用户提供免费、海量、全面、及时的百科信息,通过平台不断改善用户对信息的创作、获取和共享方式。这是一部由网民与编辑人员共同撰写的联动性网络百科全书,主要以词条为核心,运用图片、文章等其他新媒体产品共同构筑一个完整的知识搜索体系。人人可以自由访问并参与撰写、编辑和分享所有知识。

  云藏百科本着网络面前人人平等的原则,提倡所有网民共同协作,编写一部完整而齐全的百科全书,让知识在一定的技术规则和文化脉络下得以不断组合和拓展。

  云藏文库:

  云藏文库是云藏发布的供网友在线分享各类藏文文档的平台。云藏文库的文档由云藏用户上传,需要经过云藏的审核才能发布,云藏自身不编辑或修改用户上传的文档内容。网友可以在线阅读和下载这些文档。云藏文库的文档包括历史专区、教育专区、文化专区、PPT专区和论文专区等多个领域的资料,其中经典文献的数字化和教育信息化为特色内容。云藏用户上传文档可以得到一定的积分,下载有标价的文档则需要消耗积分。当前平台支持主流的doc(.docx)、.ppt(.pptx)、.xls(.xlsx)、.pot、.pps、.vsd、.rtf、.wps、.et、.dps、.pdf、.txt文件格式。云藏搜索引擎自2016年8月22日上线开通至今云藏文库的文档上传总数为10282份,注册用户为3363人,文档下载量为12828次,文档点击量为725261次。文库频道有在线阅读文档,上传下载文档、分享文档、收藏文档等功能。  

  云藏文库上传功能操作简便,注册用户可直接登录云藏文库,通过“上传我的文档”进入上传页面,填写文档简介,提交本地电脑文档附件,并进行浏览,检查无误即可点击“开始上传”,附件将自动上传。值得注意的是文档标题默认为上传附件名称,也可以进行修改,但是文档标题不能为空,最长可输入20个藏文音节。文档需要填写简介,能够方便其他用户快速了解上传文档的主要内容,最长可以输入500个藏文音节。每一份文档都有其所属的正确分类,建议用户为上传文档选择合适的分类(一、二、三级分类),使得文档得到更多的浏览和下载。用户上传时,可以选择文档被下载时的财富值,即文档的售价,建议用户售价设定为免费,方便文档的快速分享,同时也会获得系统的财富值奖励。
[FS:PAGE]


云藏知道首页截图

  云藏知道:

  知道是以搜索为基础的互动式知识问答分享平台。用户可以根据自身的需求,有针对性的提出问题,其他用户可以进行解答,这些答案又将会作为最终的搜索结果,提供给有类似疑问的用户,以这样一问一答的形式来达到分享知识的效果。知道分教育科技、文化艺术、历史人物、文学翻译、政策法规、医疗保健、网络信息、商业理财、社会民生、生态资源、哲学宗教等11个一级栏目,68个二级栏目。

  用户在提问或解答时需进行注册登录,注册登录后可以在各个栏目中提出自己感兴趣或有疑问的问题,为了精准的提出问题可以进行配图,回答时也可以配图回答问题,每一个问题的解答都有点评功能,且对此话题可以进一步探讨。整个页面分为未解决的问题与已解决的问题、新提出的问题、已采纳或未采纳的问题,使用户在使用过程中简易操作,对提问或解答活跃的用户会被评为回答之星,并有积分馈赠。

  知道定期对社会上的热点话题与新增知识点进行普及。完成每星期三次以上的问题置顶、知道专题、热门问题等页面更新,每天对不同知识点进行上传与审核、回答问题等。自开通以来外界网民在知道栏目中提问与解答、配图提问、问题采纳等日益增多,目前已经上传了两万多条知识问答。

  云藏新闻:

  云藏新闻频道是通过高新技术手段爬虫,收集国内权威性藏文网站中最新、最快信息的一个网络新闻浏览平台,不含任何主观人工编辑成分,没有新闻偏见,真实反映每时每刻的新闻热点,突出新闻的客观性和完整性。

  云藏新闻主要由政务、经济、教育等13个栏目,全面呈现国内外时事新闻,为全球藏文字阅读者提供浏览服务。其中重要新闻分为国际、国内、藏区三大模块。搜索新闻时可以选择新闻全文、新闻标题,按时间排序和按新闻内容相关性排序的新闻搜索结果;根据计算机算法得出的检索结果,保证了客观性和全面性。云藏新闻为广大用户提供最具个性的新闻内容。

  自2016年8月22日云藏搜索引擎开通至今,云藏新闻共收集文字新闻35847条、视频新闻7145篇、图片新闻178934条;其中置顶文字新闻14400条、视频新闻1440篇、图片新闻9720条。云藏新闻最主要的贡献是将分散的藏文网站变为集中式,为国内外藏文字阅读者提供了一个方便快捷、一目了然的最佳新闻阅读平台,并通过热搜词进一步提升了快速、方便、准确的搜索功能。

  云藏新闻正全面提速发力藏文新闻市场,利用独有的“个性化推荐”技术,投用户所好,精准推荐用户最感兴趣的个性化优质内容;云藏新闻市场将会呈现查看世界窗口最好的藏文网站,我们一起拭目以待。

  云藏视频:

  云藏视频频道是云藏搜索引擎的藏文视频聚合平台。面向用户推荐个性化的视频内容。

  云藏视频频道是由新闻和论坛、电影、文艺、电视剧、综合等六大栏目组成。并按安多,卫藏和康巴方言分类,便于广大用户自由切换、学习。论坛栏目由讲堂、论坛、讲座、采访等组成。电影栏目由电影、短片、动漫、纪录片组成。文艺栏目有小品、晚会、歌舞表演组成。连续剧由安多、卫藏、康巴方言分类。综合栏目由各种藏文短片组成。

  从云藏搜索开通为止,上传视频达87066余部。视频按藏语三大方言(安多语、康巴语、卫藏语)进行分类,打造出最具搜索网络视频功能的藏语视频综合平台。除此之外,还有丰富的视频分类搜索和搜索相关视频链接等功能。

  在不久的将来,我们将致力于把云藏视频频道打造成一个聚合上亿条藏文视频,内容更加丰富,功能更加齐全,种类更加多样的视频平台。 
[FS:PAGE]


云藏音乐首页截图

  云藏音乐:

  云藏音乐频道目前是国内外首个以藏文现代歌曲、音频、民歌、弹唱等多个子栏目组成的音乐门户之一。为众多的云藏用户提供了高音质、高质量的最新歌曲。方便快捷地传递给广大喜欢藏族音乐的用户,让用户能切身感受到音乐带来的愉悦。同时也给歌手和音乐人提供了一个展现实力和作品的平台。

  云藏音乐频道设有最新专辑、最新音乐、热门歌曲以及推荐歌手等栏目,方便用户掌握最新歌曲和当红歌手的相关信息。云藏音乐频道是用户最快捷的听歌平台。

  用户可以在频道搜索框中输入歌曲名、专辑名、音乐人姓名来查找所需信息。目前,已上传歌曲5936首和623部音乐专辑。为了满足广大用户的需求,云藏音乐频道还设置了音频栏目,主要包括朗诵、演讲、格萨尔说唱等音频内容,打造一流的音乐分享系统,为广大的云藏用户提供拥有海量正版高品质的藏族音乐,最权威的音乐榜单,最快的新歌速递,最人性化的歌曲搜索,服务网友更深入的了解和学习藏民族博大精深的民间文化。

  云藏图片:

  云藏图片搜索系统从国内200多家藏文网站中提取各类图片,以及通过用户上传图片等方式,建立了全球第一的藏文图片库。自云藏搜索开通一年来,云藏图片搜索检索图片已超过 179万张,并在不断增加中。 

  云藏图片版面包括新闻、景点、艺术、明星、动物、体育6个栏目。云藏新闻图片搜索从藏文新闻网页中实时提取新闻图片,它具有新闻性、实时性、更新快等特点;云藏景点图片涵盖了各藏区的名胜古迹,方便用户搜索查找;云藏艺术图片包含有藏戏表演,藏族舞蹈,艺术唐卡和藏文书法;云藏明星图片更新当红明星、歌手图片,供粉丝下载;云藏动物图片主要有孔雀、盘羊、藏羚羊,天鹅等栏目;云藏体育图片提取最新的、最精彩的体育赛事供广大用户欣赏。

  云藏图片版面的置顶功能和搜索热词功能,以图片和文字的形式,及时为广大用户置顶推荐实时图片,传达各栏目新内容,新动态。云藏图片频道力求为云藏众多用户呈现一个多彩的藏文图片库。 

  云藏舆情系统:

  云藏舆情系统,是一个将云藏搜索引擎中的所有舆情内容监控,分析及整合的一款综合性的软件。其主要含有:

  专题:专题分析可以将所有的舆情信息做一个监管及了解分析的模块,主要针对某个特定网站中的某个关键词所涵盖的内容搜索并整合出来,其中用到了藏文分词系统,对其进行全局扫描并排列显示出来。内容涵盖了热点舆情,最新舆情等需要我们去了解和把握的详细舆情内容。

  数据分析:按照在云藏搜索引擎中的详细监管信息,按照时间轴的排列顺序,对云藏搜索中的大板块做统计和分析,含有用户月增长量、月访问量及所有模块中内容的月增长量等的数据统计,可有效的对我们的工作情况有一个详细的了解。

  报告:其意思是整体报表,对云藏自运营以来所有数据的整体统计及分析,详细的模块监管情况,点击次数、搜索热词、用户增长量等一系列的相关内容。还可以对个别用户做专门的舆情分析,针对用户的访问和浏览记录,分析该用户的行为及需求,在日后的完善工作中定制用户推荐等实用性的功能。

  各模块舆情:针对于云藏搜索引擎的八大模块,分别对应其舆情分析,详细的了解各个模块中用户的需求。更加方便我们完善和开发其中的模块,满足用户在各个层面的需要,让用户能从心底感受到云藏搜索带来的方便之处。

  实用性、精确性、独特性三个特性都能展现出云藏舆情在云藏搜索中的重要性,通过舆情分析系统对其需求做一个精确的了解,更新完善让用户感到其使用性,最后云藏搜索是全球唯一一个以藏文为基础的搜索引擎,具有其独特的地位。舆情系统不仅仅单纯的对所有内容做一个统计,它能为我们提供分析数据,有效的利用手中的资源,完善更好的云藏服务。
[FS:PAGE]


海南州云藏藏文信息技术孵化基地(云藏大数据中心)效果图

  云藏搜索运行一年来,各方面的工作都取得了一定成绩。2017年5月,开展了关于云藏搜索使用情况的问卷调查,向社会各界广泛征求意见和建议。在为期10天的时间里,社会各界人士对调查问卷反响积极,在高校和社会上对云藏搜索的发展深受关注,网民们从不同角度提出了自己的看法和建议,并反映出网民对云藏的使用率和依赖度逐渐趋于上升,获得了广大网民们的高度评价和认可。

  2017年6月8日,云藏藏文搜索引擎系统平台建设项目经评审专家组对《项目验收报告》、《项目审计报告》等相关材料进行详细审查和评议,项目顺利通过验收。目前,云藏藏文搜索引擎系统平台建设项目已取得国家版权局登记的云藏搜索引擎系统、云藏百科系统、云藏图片系统、云藏视频系统、云藏知道系统、云藏文库系统等6项软件著作权,并提交了3项发明专利申请。

  2017年7月24日,云藏藏文信息技术孵化基地(云藏大数据中心)开工仪式顺利举行。该基地总投资7782万人民币,总建筑面积16917平方米,分为云藏数据中心、产品体验中心、孵化培训中心等功能区,计划土建工程将于今年年底完成主体封顶,明年年底全面完成并投入使用。云藏藏文信息技术孵化基地是中国首个藏文信息技术孵化基地,该基地将充分利用云藏搜索引擎的海量数据为平台,与掌控国内优质数据机构达成充分的战略合作,打造一流的数据服务平台,在数据接入、交互、处理、输出等方面发挥重要作用。云藏大数据中心的建设适逢世界走向数据化,迈入大数据时代的重要时刻,对于青海省,乃至整个国家来说,无疑是一个审时度势而又科学有效的重大决策,将会成为海南州未来新的经济增长点。

  万里征途远,秣马再起程。站在云藏上线一周年的新起点上,我们将一如既往地秉承执着、追求、责任、使命的宗旨,坚持以服务公众,满足社会需求为中心,以推动海南州经济文化发展,加快全国藏文信息化事业的发展为导向,以坚定而奋进的姿态,在全球人工智能大数据的发展大潮中续写云藏积极进取、创新发展、光辉灿烂的新篇章。

相关推荐