范文无忧网面试笔试简历简介

“互联网+”时代的古籍数字化新思路

12月19日 编辑 fanwen51.com

[数字化摄影在静脉肾盂造影中的应用]毕业论文是检验在校学习成果的重要文档,如何写好毕业论文也成为每个即将毕业的学子最关心的事情之一,可以参考一些优秀的论文范文 【关键词】 数字化摄影;静脉肾盂造影;应用...+阅读

经历了黑色的六月,顺利考入大学,转眼间美好的四年大学生活就这么过去啦!又是一年的毕业季,毕业成绩单:毕业论文,总是让人头疼。下面文书帮小编为大家带来了一篇文化毕业论文,供大家阅读参考!摘要:本文分析了目前中文古籍数字化过程中遇到的问题,在互联网+的驱动下,通过借鉴成熟的reCAPTCHA技术,构建基于互联网知识网络的古籍数字化平台。关键词:古籍 互联网 大数据 知识网络 验证码 数字化

一、古籍数字化出现的问题

1、古籍数字化研究现状古籍又称典籍、文献,是指没有采用现代印刷技术来印制的书籍。中华文明五千年从甲骨文、简牍、卷轴再到线装,留下了大量宝贵的古籍,作为中华文明文化延续的印证,古籍整理是非常重要的。古籍整理的传统方法,是通过对古籍进行审校释(审定、校勘、注释)等加工整理后形成新版本,便于现代人进行阅读。古籍整理的传统方法主要依赖手工进行,有着操作过程繁杂、效率低的缺点,而且新版本仍然是书本形式,难以再次利用。在计算机技术出现后,古籍整理有了新的工具和方法,即古籍数字化技术。通过利用信息技术将古籍文献进行加工和整理,并使其转化为电子数据,可以通过光盘、网络进行保存和传播,有效解决了传统古籍整理的缺点。中文古籍的数字化最早是二十世纪七十年代,从计算机技术发达的美国开始的。我国在引入相关技术后,产生了大批有价值的成果。国家图书馆的古籍特藏文献数字化计划,完成了甲骨文、数字方志、碑砧菁华、敦煌遗珍、西夏碎金、永乐大典等成果。其他研究机构也推出了大量产品,其中北京大学所著的《中国基本古籍光盘库》,将收录古籍万余种。另外,在CALIS项目和CANAL项目中涉及到的古籍子项目也有很好的成果。国际上,拉丁文体系古籍的数字化工作也进行了大量研究工作。由欧盟二十六家图书馆联合推出的IMPACT(Improving Access to Text)项目,是一个通过研究OCR(Optical Character Recognition,光学字符识别)技术,来推动拉丁体系文字古籍数字化工程。

2、古籍数字化的发展与瓶颈我国古籍数字化的发展经历了联合目录阶段、目录+影像阶段和全文检索三个阶段。第一阶段是20世纪80年代,联合目录为古籍数据库检索系统的开发,以数据库的形式储存。通过利用计算机,对古籍资料进行目录检索、内容整理、储存、数量统计,以及编制索引,极大的改进了古籍文献的检索方式,是古籍研究的辅助工具。最初的古籍数据库主要是书目数据库,很多省市级图书馆都建立了书目数据库,其中南京图书馆建立了40万条中文古籍书目数据。第二阶段是20世纪90年代的目录+影像阶段。这个阶段形成了以光盘为载体,可通过目录进行查询、浏览原文的影像页的古籍文献或古籍数据库,所以又称为光盘版古籍。1997年武汉大学出版社推出的四库全书光盘版共150张光盘,以文渊阁本《四库全书》为底本,将全书两百余万页逐页扫描成电子文件。第三阶段,2000年起古籍数字化进入了全文检索阶段。将古籍的全文录入进数据库系统,通过文本与检索项匹配,实现直接到段落的精确查找。并且配置网络化,以各地区的图书馆为节点、网络为纽带建立了网络上的联合数据库。通过网络共享服务,可以不再依赖个人存储也能得到海量资源。然而古籍数字资源不足,影响了网络化的发展。古籍数字化加工有着很多的问题。2.1机器难以提高对古籍的识别能力整理好的古籍进行数字化的第一步,便是古籍录入。图书数字化录入的方法有两种,分别是人工键盘输入和计算机光学字符识别(OCR)扫描输入。人工键盘输入属于手工作业,需要由录入人员看着图书,逐字录入,有着效率低、成本高的缺点。OCR是一种先进的自动化技术,通过机器来大量识别图像为文本,是大量图书数字化的主要手段。但是,如果图书是古籍的情况下,机器的录入难度就增加了不少。缺字:由于计算机对文字的处理要通过编码来完成,国标字库(GB2312)收录有6763个字,国标扩展汉字字库(GBK)收录有20902个字。而古籍中通用字约有四万,常用的异体字约为两万。相对古籍中的繁体字、通假字、异体字、避讳字而言,计算机的编码库无法满足古籍输入要求。排版:古籍不仅仅是竖排版的问题,有无钤印、句读、栏线,标注分为单行标注和双行标注,写本、刻本、家谱、碑拓等等,甚至出现手写字体,都会让计算机无法识别。所以,要提高古籍识别系统的可用性和可靠性,必须建立一套自我学习系统,让它尽可能接触更多古籍:从中提取新字样来扩充字符集,识别新版式来增强版面分析能力。2.2专业要求强、投入不足现代人能将古文顺利认出,就是一件非常难的事情。句读:古文是没有标点符号的,在阅读古文时要做到正确表达和语气顺畅,必须注意文句间起承转合。不懂句读会造成误读、误解原意,所以古人在《三字经》中要求明句读。唐代文学家韩愈在《师说》中就提到句读之不知,惑之不解,或师焉,或不焉,小学而大遗,吾未见其明也。除非进行专门的学习和研究,现代人很难读懂古文。生僻字:汉字是在不断发展和变化的。中国最早商代甲骨文中的文字有三千多字,汉代《训纂篇》有五千多字,《说文解字》有九千多字,晋代《字林》有一万二千多字,后魏《字统》有一万三千多字,唐代《玉篇》有两万二千多字,宋代《类篇》三万一千多字,清代《康熙字典》四万七千多字。1915年,欧阳博存的《中华大字典》四万八千多字。1970年,由张其昀主编的《中文大辞典》四万九千多字。1990年,由徐仲舒主编的《汉语大字典》五万四千多字。1994年,冷玉龙等的《中华字海》收入大量废弃的字,总字数多达八万五千字。而新课标在义务教育阶段对学生的识字要求仅有三千五百个。异体字:同一个汉字在古今也存在多种写法,比如有部分古书会把嫦娥中的嫦写成常。鲁迅作品中的孔乙己强调茴香豆的茴有四种写法,这些字统称为异体字。古籍整理要求把几个异体字改为一个字,需要有很多古文经验并结合上下文的理解,要求整理者有很深的古文专业知识。所以古籍整理工作只能依赖于专业人员。古籍资源数字化是传统文化学习与现代信息技术的结合,现在的古籍整理专业人员多为文科学生,很少有懂得计算机技术,而懂得计算机技术的人员又缺少古文知识。同时进行两个学科人才的培养,要求教育机构提供跨学科的教育。从目前的情况来看,投入是远远不足的。

二、搭建基于互联网的古籍数字化新平台经过了十几年的飞速发展,互联网从早期的由网站编辑人员主导发布内容,进化为由网络用户主导发布内容的互联网产品模式,也就是web2.0概念。产生了如知识网络(维基百科、百度百科、百度知道)、社交网络(facebook、微博、微信)等等大量依赖用户做内容和推广的成功产品。随着大数据、云计算等新技术的成熟,将互联网转化为数据库、向人工智能进化成为了可能,这些由用户上传、维护的内容,通过数据挖掘,将会产生难以想象的更高的价值。那么古籍数字化这种专业性这么强的东西,如何交给互联网用户呢?互联网最大的特点就是海量数据的汇集,有时作为一个用户提交的看似很少的数据,在千万个互联网用户那里就形成了知识库。我们使用一种知识网络为核心,通过验证码技术做为内容来源,搭建一个基于互联网的古籍数字化平台。图1.知识网络为核心的古籍数字化平台架构

1、互联网验证码的活用我们回到古籍输入。既然古籍OCR那么困难,专业人才又不足。是否有方法避开ORC这个过程,不需要依赖专家,又能完成古籍的输入呢?互联网给了我们一个非常简单、而且每天可能遇到很多次的办法,那就是各大网站系统的验证码。在网络刚诞生的时候,是没有验证码这种东西的,网络上的用户注册,就像进入一个没有门铃、敞开大门的屋子。这造成的结果是,伪装成用户的恶意程序,可以随意在网站注册,将垃圾评论和垃圾邮件肆意传播。互联网时代早期,美国雅虎公司是最重要的免费邮件提供商之一,由于邮箱用户每天会收到大量这样的垃圾邮件,为此雅虎公司耗费了大量资源来阻止这些垃圾邮件。通过工程师的分析,邮件的发出者正是来自于自己的服务器,恶意程序假冒用户申请了免费邮箱,每天有大量的垃圾邮件通过免费邮箱发出。雅虎为此对人机辨识问题进行了研究。最后雅虎选取了Luis Von Ahn提出的,通过验证码识别恶意程序的方案。由于当时计算机辨识技术落后,对于经过扭曲、字迹有污染的文字(图4),计算机是不能辨识的,而人类只要看一眼就可以轻松认出这些文字。计算机先是产生一个随机包含字母和数字的字符串,然后生成图像,用程序将图像上的字符串进行随机的污染、扭曲,再将图像推送到网站注册、登录的入口。凡是能够准确辨识这些字符的视为人类,可以继续下一步服务。图2.扭曲的文字使得机器OCR识别困难仅仅几秒钟,验证码技术带给了计算机网络安全,全世界每天都有数以十亿计的人通过几秒钟的时间辨认这些验证码。卡内基梅隆大学的研究室有一个新的想法,每一次识别都有一次的输入,如何把这么多的输入都利用起来。由于过去落后的印刷技术,歪歪扭扭的古籍文字天生能达到验证码的要求,为此卡内基梅隆大学成立了reCAPTCHA计划,以古籍录入为目标的验证码输入系统。这个计划先将古籍仅做扫描后,由计算机程序切割成小段图像(图5),显示在验证码图像中。网友在看验证码图像后用人脑识别然后输入,输入的结果汇集到服务器中。通过reCAPTCHA计划,整个纽约时报130年的报纸存档的数字化,原本无法估算的时间和成本,由网友用了几个月就完成了。图3.reCAPTCHA计划中数字化文档生成的验证码没有输入过的古籍是没有正确答案的,为了避免用户随意输入,为此卡内基梅隆大学改进了传统的验证码。在新的验证码中,有两个字会被显示出来;一个是未辨别的字,另一个是知道答案的字。如果验证码输入者正确的回答出已知答案的字,那么就假设他所输入的另一个没有答案的字也是经过认真考虑填写的,系统将这个结果作为正常输入而不是随便输入。中国古籍中的汉字识别是非常困难的,要依赖字体、字库、需要学习等等,我们是否跳过这些操作去完成古籍数字化?reCAPTCHA计划给了我们很大的启示。汉字作为图像来分离非常简单,只需要使用最基本的图像灰度扫描技术,便能非常清晰的将汉字所在的区域,一个一个的分离开。然后就将分离开的图像,发送到互联网的一个一个页面中,由网友完成识别。

2、知识网络的建立验证码只能解决从图像到文字这个过程,究竟得到的文字是否正确,reCAPTCHA计划在解决中文古籍数字化时候就束手无策了。英文从古至今,一共就26个字母。而汉字究竟有多少个,至今没有一个统一的说法,光康熙词典中就收录了47035个,而且大量的异体字、生僻字。不仅仅是识别,计算机是否对字库有支持,会给识别出的汉字的录入也带来极大的困难。为了解决这个问题,我们引入互联网的知识网络。图4.知识网络流程用知识网络来进行古籍数字化资料整理:使用简单知识网络的展现方式为超文本页面,可以快速生成、存储、更改,使维护更简单;使用简单的格式标记代替HTML格式标记,并通过简单标记,直接通过关键字名来建立链接;关键字名作为页面名称,并且被置于一个单层的平面空间中。这样,不光是一本古籍,古籍中的一个段落,甚至是古籍中的一个字,都可以作为一个页面,成为一条单独的知识。任何成员都可以建立想建立的古籍条目。有组织不仅仅是页面内容,整个超文本的组织结构也是可以修改、演化的,这就给了知识体系一个组织性。而且内容重复的页面可以通过超文本汇聚于一个,并改变相应的链接结构。解决了同一本古籍资料,由多人以不同名称多次创建的问题。可增长知识网络中可以随时创建新的知识条目,而没有内容。新的知识条目以链接方式存在,通过点击链接,就可以创建页面内容,从而使系统得到增长。页面内容创建和修改的记录也是可以记录的,可以获取每一个修改过的版本。由于古文的释义、句读等,即使是专家也可能有多个意见,这样保证了网友可以看到同一条知识的不同理解。新型古籍数字化平台包含了我们经常使用到的服务,以知识网络为主要代表,一对多和多对多的传播模式并存。知识网络为古籍数字化建立相应的栏目后,以书、册、章节、段落,甚至一个汉字,都可以建立一个条目。包括由验证码系统分拆的每一个图像以及合并后的整页图像。对reCAPTCHA计划的另一项重要改进是,为了保证用户在输入验证码时的正确性,在知识网络中可以实现多机识别,即认为大多数人是正确的这样的一个思路,将同一条验证码,由多人进行识别判断,最后通过百分比来确定最终的识别结果。事情到了这里还没有结束,为了保证更准确的结果,我们利用知识网络有组织的特点,由专家完成对争议内容的最终修改,专家给出批示,又可以再次作为一个知识点,通过网络二次传播。这样就不光完成了对古籍数字化,还解决了古籍研究人才不足的问题,还可以通过网络培养更多的人才。高效、有效的完成了古籍数字化和文化传播的两重重任。“互联网+”时代的古籍数字化新思路

延伸阅读:

数字化设计个人简历数字化设计个人简历范文目前所在: 荔湾区 年 龄: 22 户口所在: 清远 国 籍: 中国 婚姻状况: 未婚 民 族: 汉族 培训认证: 未参加 身 高: 168 cm 诚信徽章: 未申请 体 重: 56 kg 人才类...

浅谈文化馆的数字化建设与服务是不是还在为公共管理毕业论文而烦恼?下面文书帮小编给你带来一篇公共管理毕业论文,希望可以帮你排忧解难! 摘要:信息数字化已经成为当今非常普遍的事情,文化馆建设也需要紧跟潮...

浅谈基于云计算的数字化教育资源共享模式与机制研究云计算(Cloud puting)最早是由美国Google公司提出的,这几年广泛流行的热门词汇,其实现在对于云计算的概念还没有一个统一的标准,云计算最基础的就是计算,而云则是关键性要素,它是...

地测计算机数字化制图摘要:本文以地测计算机数字化制图为研究对象,结合煤矿地质测量实际情况,基于对CAD技术的分析,从地测计算机数字化制图关键技术分析以及地测计算机数字化制图作业流程分析这两个...

浅谈数字化校园网新技术下创新环境建设研究引导语:二数字化校园网的不断发展改变了校园的学习和生活,为学生创新能力的培养提供了一个崭新的环境。今天,小编为大家带来的是关于数字化校园网新技术下创新环境建设研究的...

剖析数字化时代科技纸质期刊在图书馆的存活和发展本论文是一篇关于剖析数字化时代科技纸质期刊在图书馆的存活和发展的优秀论文,对正在写有关于期刊论文的写作者有一定的参考和指导作用。摘 要:本文自从纸质期刊服务面对的危...

计算机数字化教学在大专教育当中的应用计算机数字化教学在大专教育当中的应用,下面带来计算机数字化教学在大专教育当中的应用相关论文范文,欢迎阅读。计算机数字化教学在大专教育当中的应用【1】【摘 要】大专计算...

罗茨转子的数字化加工装备及其工艺罗茨转子的数字化加工装备及其工艺 摘要:海24组(海南24和海南24-1)在长期的工作实践中发现,把普通的丝杠经过加工改造成为滚珠似丝杠的同时,加装一些必要的数字电气控制系统,就...

推荐阅读
图文推荐
栏目列表