美国数字图书馆首倡计划第二阶段研究述评(AMT 孟凡强)

  作者:孟凡强
2002/1/17 11:28:01
美国数字图书馆首倡计划第一阶段(DLI, Digital Library Initiative)所取得的研究成果和对当时数字图书馆研究应用的调查分析的基础上,美国的七个研究机构拉开了数字图书馆首倡计划第二阶段(DLI2, Digital Library

本文关键字: 案例交流

1998年春,在美国数字图书馆首倡计划第一阶段(DLI, Digital Library Initiative)所取得的研究成果和对当时数字图书馆研究应用的调查分析的基础上,美国的七个研究机构拉开了数字图书馆首倡计划第二阶段(DLI2, Digital Library Initiative phase II)研究的序幕。除DLI的三个赞助单位(美国国家科学基金会、美国国防部高级研究计划署、美国航空太空总署)外,赞助单位增加了四个,它们是美国医学图书馆、美国国会图书馆、美国人文学科基金会、美国联邦调查局。

DLI2将持续5年,五年中上述7个单位的赞助将共有4,000到5,000万美元。在此计划中,对单独的研究将资助一到三年,每年不超过20万美元;对多学科研究小组将资助一到五年,每年不超过120万美元。其总研究目标包括四个方面:为数字图书馆界定适当的发展领域,有选择性的开展研究和实验活动;使数字化资源的扩充、管理和存取更加迅速、便利,增强加利用信息的深度;创造新方法、新机会,使数字图书馆更好地为不同教育水平的、现有的和潜在的用户群服务;推动从社会学和经济学角度对人与数字图书馆交互作用的研究。

2. 研究重点

2.1.以人为中心的研究

以人为中心的数字图书馆研究是为了“增进对数字图书馆在推动人类创造、搜寻和利用信息的活动方面的潜力和影响的认识,并推动以此为目的技术研究的发展.”

第一方面是研究对大量信息进行搜寻、获得、加工和表述的算法、思路和软件,如在复杂的信息空间中对信息进行利用所需的导航和浏览软件,根据内容、结构和相互关联对图象和视频信息进行智能搜索、过滤、摘要所需的技术和软件,语义搜寻理论和模型,跨语言信息存取和数据服务等。

第二方面是研究智能化的用户界面,如具有互动特性的用户与系统之间的学习和适应过程,满足人类需求的自动化和智能化的软件机器人,信息的提供和可视化等。

第三方面是包括人机互动和以人为中心的交流在内的系统可用性研究,对有特殊需求的用户群和机构的研究,数字图书馆在教育、学习、提高人的能力方面的应用研究等。

第四方面是研究数字图书馆、经济和社会的关联,如对分布式的网络信息环境中出现的新社会和人文科学问题的研究,社会情报学(Social infomatics)研究,新的信息环境下对图书馆、大学、中小学校和其他研究机构所扮演角色和所提供服务的研究,决定数字图书馆的利用情况、公众接受度和对其投资状况的因素的研究,在推动学术交流方面可资利用的方式和媒体的研究等。

2.2.以收藏及其内容为中心的研究

此方面研究的目的在于增进对新形式的数字藏品及其内容的认识,并推动对其存取方面的研究。现有收藏的常规数字化或转化不是DLI2研究的重点。

第一方面是为有效地获得、整理、保存和表述信息所进行的研究,如文本、非文本信息及其衍生物的新颖的数字化表述方式,对信息进行解释、索引、摘要和编目的智能算法和系统,以内容为基础的图象识别、自然语言分析,智能化的文本处理和文档管理,信息对象和文档间的结构和关联,创造和转换数字对象的有效方法等。

第二方面是对保存和表现数据元素与收藏之间关联的方法、元数据种类和标准进行研究。

第三方面是研究有关的技术、方法和程序,以处理与数字化藏品的创造和使用有关的社会、经济和法律问题,如知识产权管理、保密和安全、数字环境下的出版业、有著作权的文献的收费机制等。

第四方面是研究开辟新的教育资源和教育途径,创造新的学习环境,如开发为各种层次的科学技术教育服务的新资源、适合于不同用户群的交互式的教育工具和界面等。

2.3.以系统为中心的研究

这一方面主要是研究与信息环境各个部分相关的技术,并对其进行整合,这个信息环境应是动态、灵活的,能够按照用户指定的结构和大小,对大量的、无组织的、持续增长的数据进行处理。

其研究内容主要包括新的信息环境下的开放的网络化的结构研究,它应能够支持复杂的信息存取、分析和协同工作:系统的大小可变性、联盟、可扩展性和可组合性等方面的研究,并对系统性能进行评估;研究与数字图书馆相关的网络、通讯和中间设备,与高带宽相适应的协议、元数据服务、服务的可靠性和完整性、服务支付模型的质量等。

3.研究项目简介

DLI2目前共有六个研究项目,还会进一步扩充。下面对其进行简单的介绍。

3.1.专家选择利用信息的轨迹研究及其利用

此项目由俄勒岗健康科学大学的科学技术研究生院负责,对医生在看病时选择和利用病历信息的行为进行研究,以使他在医病时所用知识能为他人所用。病历在时间、空间和内容上都是很复杂的,医生在医病时,对病人病历仔细研究,剔除不相关信息,选出与病症相关的信息,她对病历信息所作的取舍对后来为相同病症利用病历的医生很有帮助。

此项目的研究内容一方面是对医生利用病历解决临床问题的过程进行描述,如在纸张型和数字化的病历中,各有哪些线索或病历属性(如文档形式、外观、清晰度和别的医生利用此文档的历史等)为医生所用;病历的数字化对医生利用病历有何影响;可以为医生利用数字化病历提供何种工具代替其使用纸张型病历时所用的书签、在病历封套上作记录等手段;专家如何判断自己是否已经获得足够信息,这与获得的信息量、信息复杂程度和病历媒质有何关系;专家如何把所得信息进行组织、综合,病历媒质对此有何影响?

另一方面是研究病历信息的过滤技术,以获取对解除病症有用的信息,按易于摘录和处理的原则,对信息进一步过滤选择,对这些可能来自不同医生的病历信息进行语义整合,并研究相关技术,从病历信息中只选择规则的结构化信息,为数据库方式的存取和查询服务。还将研究机器学习技术,从非机构化的文本中抽取规则的结构化信息,对文本内容进行描述。

3.2.图象传播中的安全研究(TID,Trusted Image Dissemination)

本研究项目的负责单位为斯坦福大学计算机科学系,目标是研究图象过滤技术和方法,如为安全或隐私起见,对医学信息包括含有文本的图象信息,进行更彻底的过滤。TID将以图象中的文本信息作为研究重点, 其前身为TIHI和SAW。TIHI设计了称为“安全维护者”的软件工具,允许合法的外部用户远程登录一个医学研究机构获取信息,但同时对一些内容进行保护。TIHI的后续研究为SAW,研究对制造业中数字化信息包括图象信息(如图纸)的保护。

当前的TID研究以数字化的医疗信息为研究对象,但其应用的原理、方法具有普遍意义。斯坦福大学的研究大多基于参数化的微波(parameterized wavelets)技术,其试验结果表明,这种微波转换分析能够满足对图象的索引和搜寻,其过滤功能快速而可靠。

其研究项目的重点是进一步改进以微波技术为基础搜索医学图象数据库的算法,推动从多媒体医学数据库中搜索图象和相关文本信息的技术的发展;从搜索到的图象中抽取文本信息;研究与医学图象的安全保护有关的规则,进一步改进“安全维护者”,并根据规则研究自动编辑医学图象的技术,发展和调试对数字医学图象进行手工编辑的工具;进一步研究安全维护者的网上用户界面。

3.3.棉质藏品的2D/3D重建

本研究项目由肯他基大学的计算机系和英语系负责,将根据人文科学研究人员的要求,研究新颖有效的方法,对英国国家图书馆的棉质藏品中逐渐老化和已损坏的原稿进行修复、数字化和编辑,使其变的完整可用,为这些原稿提供一个电子版,并将其作为图象来进行检索,建立一个新的数字化图书馆。特别地,将涉及如下三个方面的研究.

利用新颖的光照方法和2D/3D数字图象加工算法,对原稿中人工难以识别的部分进行恢复。

研究新的描述方法和结构化的信息,对数字化后的原稿进行检索。这种描述方法应满足对图象本身进行快速有效检索的要求。在对图象进行编辑的过程中,结构化信息如文本、评注、原稿不同部分的关联、对图象特定部分进行修复所遵循的规则等,会被添加到数字化后的原稿收藏中,从而有利于对原稿的理解和检索。

特别地,为人文科学研究人员开发特定的工具,利用它对数字化后的原稿(高分辨率的图象)进行编辑,使人文科学研究人员能够从数字化原稿中有效率地收集复杂的版本。

该项研究作为SUR(Shared University Research)的一部分,已经得到IBM的大力资助。而与英国国家图书馆的合作,使得该项目能接触高价值的藏品和原稿,听取该图书馆专家意见,使用该馆数字化所需设备。

3.4.WWW上自动化参考“图书馆员”

该项研究由华盛顿大学计算机科学系负责,其研究目标是设计网上的“软件机器人”,它作为与传统的参考图书馆员相类似的网上的自动化参考“图书馆员”,并非“流体力学”等专业知识的专家,但对网上的信息源有教深的了解,能帮助用户在网上找到高质量的用户所需专业信息。

如图所示,该小组计划中的“软件机器人”由四部分组成,“用户界面”对用户的查询语句和选项进行规范化;“结果合并”负责搜集信息源返回的回复,去除重复条目,把结果进行整合并返回到“用户界面”部分;“并行的Web界面”部分负责从Web下载HTML页面,向Web发出查询请求,从各信息源搜集结果。“Harness”包含许多称为“Wrapper”的程序,每个“Wrapper”对一个特定的信息源进行了描述。“Harness”收到用户的检索请求后,根据各“wrapper”将其转化为各信息源(如图中的Lycos)所能理解的格式,送到并行的“Web界面”。

此项目的研究包括三个方面。第一方面是自动化的建立“Wrapper”,对各信息源进行描述。首先在在如search.com类的搜索引擎和Search Broker中抽取专业科技信息源,建立信息源数据库。其次是在语义网络基础上,对信息源进行分类, 把信息源与“语意网络”中的一个或几个节点建立关联。另外是提高软件机器人的检索能力,把查询语句的各部分与信息源页面上的不同表格良好的对应,并提高机器人对回复的分析能力。还将建立信息源速度(打开Http链接的时间、数据平均传输速度)、可靠性(拒绝访问或超时的几率)的统计数据。

第二方面是为用户的查询请求选择适当的信息源,以减轻网络负担,减少不相干的回复。查询语句一般包含技术化的单词或短语,它们与查询的主题类别进而与适当的信息源有极为密切的联系,利用大量的在线技术词典和数据库,可把这些单词或短语与其主题类别联系起来,如“Precordial Capnograph”属肺用药物。把语义网络作为贝叶斯网络处理,可在语义网络中找到与上面标注后的查询语句最相关的可搜索主题。

第三方面是在潜在的信息源确定后,对一些信息源推迟访问,以降低信息源和网络的负载、查询费用,目标是以合理的时间和费用来获得所需信息:给定N个信息源,每个信息源都由三个变量(操作时间、费用、提供所需信息的可能性)来描述,根据不同的目标函数,利用运筹学知识对访问各信息源的顺序进行优化。

3.5.为社会科学服务的实验图书馆

此项目的任务是设计进行社会学与经济学实验所需的软件系统,并将其置于互联网上,从而建立基于互联网的实验图书馆,使得研究人员只要与互联网相联就能利用该图书馆进行社会学和经济学的实验工作.

当前的电子实验室的不足表现在四个方面,首先是电子实验室的建设与维护费用高,使得一些实验无人来做或研究人员太少;其次,电子实验室所需软件的开发占用时间长,而且软件常过于专业化,缺乏灵活性;再者,很少有人重做实验对实验结果进行检查;最后,电子实验室大都用在校大学生作为实验对象,抽取的人口样本很狭窄。计划中的实验软件由专业人员开发,尽可能满足多种实验需求,它们将作为共享软件放在网上,使得实验成本大大降低,其实验对象可跨越国界、文化和意识形态,从而较好地解决了上述四方面问题。

该项目的研究由一个中心、两个实验室负责。其中心位于南卡罗莱那大学,负责统筹管理此图书馆的设计和建立工作,并对图书馆的表现进行评估。其任务包括:服务器的维护、实验图书馆的模块结构设计、站点的建立与维护、实验图书馆系统软件与各中心的实验应用软件的相容性研究等。

“交易网络”实验研究小组位于依阿华大学,研究如何用JAVA语言把南卡罗莱那大学研究“交易网络”的基于Windows的电子实验室软件ExNetII进行改进,使之能在网上应用。

经济学实验研究小组位于乔治亚州立大学,进行“环境危害评估”方面的的实验。当前,已经可以与中国、墨西哥、俄罗斯和南非等国家进行联合实验。此实验所需软件放到网上进行后,实验对象的样本将更有普遍意义,结论更有普遍性。

社会-经济学(Socio-Economics)实验研究小组位于南卡罗莱那大学,在“有限理性”假设的基础上,研究市场、交易情形下的理性和利己理论,分四个方面进行实验:有限理性、公平与正义、framing、评估/影响(valuation/influence)。

3.6.高性能的数字图书馆分类系统:从信息搜寻到知识管理

该研究由亚利桑那大学管理信息系统系的研究小组负责,旨在研究相关结构和技术,为大规模的特定领域的文本信息自动化地产生分类系统,并把此分类系统与已经存在的手工分类系统进行比较、合并,以有利于数字化图书馆藏品的搜寻、分析和利用。

本项目着重研究两个方面的问题,一方面是研究各种聚类算法产生的结果能否与人工分类结果相媲美,哪一种算法在何种情形下产生的结果最理想?另一方面是用这些聚类算法为大规模的(上百万)的、数字图书馆藏品产生分类系统,从计算能力方面考虑是否可行?为提高计算能力,将对算法进行何种优化,并采用哪些并行处理技术?

此小组将进行三个方面的不同实验,各实验有自己的专用实验对象。在医学领域,对美国美国国家癌症研究所的癌症文献(其覆盖了200多种医学期刊从1992年1月到1998年6月的癌症摘要,包含714,537份文档)进行并行处理,产生自动分类系统,与美国医学图书馆的联合医学语言系统(UMLS, Unified Medical Language System,它的元分类词表包含476,313个概念和1,051,901个不同的概念名称)的元分类词表的癌症部分相比较。在地球科学领域,利用DLI的亚历山大研究项目的300,000条记录的地理学、地质学资料数据库和藉由美国Tulsa大学的石油文摘服务获得的从1985到1995年的约500,000份文摘自动化地产生地球科学分类系统,与美国地质研究所人工整理的地球资料分类词表(大约有27,000个术语)相比较。在网络页面方面,对该小组已有的由网络软件机器人收集的1.5M的Web页进行聚类,生成自动化分类系统后,此小组将把它同Yahoo!的手工分类进行比较。

4、数字图书馆的发展趋势分析

总的来讲,DLI的研究强调了图书馆藏品(文字、图象、音频和视频等)的存储和组织的数字化、搜索和利用的网络化,DLI2则致力于研究新概念、新技术和新工具,帮助数字图书馆的用户充分地利用数字化藏品所隐含的知识。这种转变是人类改造和利用自然程度的加深,符合利用信息技术改造和利用自然的客观规律。从DLI2的研究内容来看,当前的数字图书馆研究侧重如下三点。

首先是数字化藏品的加工处理的自动化、智能化。当前图书馆藏品和因特网资源的分析、摘要和索引主要是由手工完成的,工作繁重。对它们自动化的聚类分析、以内容为基础的自然语言分析、摘要和索引尚处在初级阶段,这方面的研究将大大提高图书馆自身的工作效率甚至工作质量。

其次,与席卷全球的变革浪潮相回应,DLI2的研究强调创新。数字图书馆存在的意义不仅是传统图书馆服务媒体和方式的转变,它还利用自身数字化和网络化的优势,提供新的思路和工具,增加数字图书馆的功能,研究为教育、学术研究进行服务的新途径,如电子刊物、电子书籍、以虚拟教室、实验室、博物馆、音乐厅和画廊等形式出现的在线教育和文化源、跨语言和全球性的知识库等。

另外,以人为本,极大地关注人在应用数字图书馆时的感受,处处为用户着想,研究人机关系、人机界面,尽量减少在利用数字图书馆过程中用户的干预,并研究伴随数字图书馆出现的社会、经济和法律问题,如知识产权、个体信息安全、文献收费机制等。

参考文献

1 DLI2站点:http://www.dli2.nsf.gov/

2 DLI站点:http://www.dli2.nsf.gov/dlione/

3 肯他基大学的棉质藏品的2D/3D重建项目:

http://www.uky.edu/ArtsSciences/English/Beowulf/eBeowulf/main.htm

4 美国亚利桑那大学管理信息系统系的人工智能实验室:http://ai.bpa.arizona.edu/start.html

5 美国斯坦福大学计算机科学系的TID项目:http://www-db.stanford.edu/pub/gio/TIHI/TID.html

6 华盛顿大学计算机科学系的“网上的智能软件机器人项目”:

http://www.cs.washington.edu/research/projects/softbots/www/softbots.html

责编:fred
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

孟凡强专栏

rss订阅
孟凡强先生,畅享网CEO,于上海大学获得工学学士学位,于上海图书馆和上海科学技术情报研究所获得竞争情报专业的管理学硕士学位。孟凡强先生为AMT创始人,历任AMT咨询服务执行总监、AMT广州公司总经理、AMT CKO。著有《CRM行动手册:策略、技术和实现》、《IT规划:管理和IT的桥梁》两书,先后为包括上海贝尔阿尔卡特、浦东新区政府、广州市国家税务局、万科集团、广州地铁等在内的多家机构提供过咨询建议。
相关文章
    奔跑吧!企业级移动应用

    2013-2014年,资本市场已经开始在企业级移动应用市场发力;BAT纷纷进入,不断拉低移动应用门槛;移动互联网的发展对传统企业产生了巨大的冲击,传统企业已经意识到移动互..

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918