财通福瑞

配资开户 中心 > 股票配资

伦敦大学学院数字人文研究中心档案识别技术研究与启示

——多光谱成像技术和著名羊皮纸书籍研究概况

作者:孙 肖

来源:中国档案报

2020-04-23 星期四

财通福瑞    笔者于2019年在中国人民大学参加了由国家档案局、中国人民大学档案学院和黄金配资 档案理事会东亚分会联合举办的2019档案学深造证书班,有幸听到了伦敦大学学院数字人文研究中心主任西蒙·马奥尼关于数字人文研究中心的一些介绍,对该中心开展的多光谱成像技术和著名羊皮纸书籍研究产生了浓厚兴趣,并找到了两篇相关论文进行了学习了解。身为档案工作者,笔者认为这两种技术对于我国的档案识别、修复、再利用工作有很强的借鉴意义,因此对其中的精华进行了总结,以供更多的档案工作者研究借鉴。

    伦敦大学学院数字人文研究中心成立于2010年,是一个跨学院的研究中心,是一个充满活力的团体,其成员在伦敦大学学院博物馆及特藏馆、人文与艺术、社会与历史、计算机、工程学等多个领域从事教学科研工作。

多光谱成像技术

    光谱成像是一种高分辨率、非侵入性和非破坏性的数字摄影形式,从电磁光谱的红、绿、蓝过渡到紫外线和红外线。通过数字化处理得到的图像集将自然光中肉眼不可见的物体的特征显示出来。该技术可以加重褪色的文字、重现文本和底图等。由于不同墨水的性状不同,多光谱成像技术可有效识别因发霉或磨损而模糊不清的字。多光谱成像技术已成为当今世界上用来恢复手稿中丢失字迹的主流方法。

财通福瑞    以羊皮书(出自英国国家档案馆,书写墨水为鞣酸铁墨水、正反页、横竖对折三次,有红色边缘线等,除了有撕裂和磨损的痕迹外,整体保存较好)为例。首先,工作人员预设了会使羊皮书退化变质的影响因素,包括技术失误、储存(环境、光线、自然灾害)、利用(使用不当、修复、重新装订)等。项目组取样本后,工作人员按照预设的影响因素对羊皮书样本进行退化处理。

财通福瑞    经过退化处理后,工作人员对样本进行多光谱图像拍摄(使用尼康彩色相机和黑白相机)。尼康彩色相机的特点是高像素、可拍摄彩色照片,黑白相机的特点是只能拍摄黑白照片(黑白照片的优势在于,在有滤镜的条件下便于多光谱成像,且对红外线敏感度高),但缺点是像素低。运用这两种拍摄方式,工作人员可探测到样本表面和深层次的特点。运用彩色反射成像、彩色透射成像、单色反射的方法,项目组一共拍摄了2800张照片用于图像分析。通过不同的图像处理算法与未经过处理的图像进行对比来寻找不同点。项目组主要运用了3种图像处理方法,即主成成分分析、独立成分分析、线性光谱混合分析。

 
图一

图二

    在图一中,从上到下4行依次是:未经过处理的图像、经过主成成分分析处理的图像、经过独立成分分析处理的图像、经过线性光谱混合分析处理的图像。

    项目组以在3种损害状态(刮痕、血书、次氯酸钠)下的多光谱图像识别为例,对3种图像处理方法的效果进行了介绍。

财通福瑞    1、刮痕。西方惯用重复利用羊皮纸的方法是将其表面层撕掉后用浮石继续书写,这时多光谱成像技术可以对被擦掉的文本进行识别,经过实验,独立成分分析方法对此类损害最有效。

财通福瑞    2、血书(本实验样品采用的是被血浸染了的羊皮书),由于血的波长和大部分墨水相似,经实验,主成成分分析可以有效加深文本,在对血和墨水的光谱较了解的情况下,线性光谱混合分析也是很有效的方法。

    3、用次氯酸钠处理过的文件上的笔迹已模糊,在此类文件上,多光谱图像识别效果不佳。通过一系列实验,多光谱成像在文件被苯胺染料、油、血浸染的情况下能完全恢复文字。用鞣酸墨水、墨汁书写或受霉菌影响文件字迹在完全模糊的情况下,多光谱成像效果欠佳。

    但是,在多数情况下,图像处理算法可以从多光谱图像中提取更多肉眼看不到的有效股票配资 。虽然没有一种处理方法可以应对所有情况,但是主成成分分析是最精确、稳健的分析法。

著名羊皮纸书籍研究

财通福瑞    著名羊皮纸书籍是伦敦市在爱尔兰阿尔斯特省新教徒殖民和管理中的作用来源的重要文件,但在受到火灾损坏后,其利用受到限制,不可供历史学家接触。

财通福瑞    既有方法无法对脆弱的羊皮纸书籍进行恢复,于是,工作人员制作了羊皮书的3D模型。火灾后,卷曲、脆弱的纸可以在3D模型中展开,纸上的文字得到识别。本方法同样适用于在受到损坏后变得非常脆弱的其他类档案。图二为受到火灾损坏后的羊皮书卷。由于羊皮书的本身性质,加之暴露在热、潮湿等环境下,出现了缩水、隆起、弯曲现象。

    工作人员分以下几步对羊皮书卷进行了修复。

    第一步:档案实体修复。工作人员对羊皮书卷进行了详细的状态评估,以确定在存储和处理过程中可能对文件完整性造成的风险。在了解了损伤类型后设计出条件评定系统,以确定损伤的总体范围。经过评估,普通的物理平面恢复会损伤羊皮书卷。经过系列实验后,工作人员决定采取清洁、湿化、张力干燥的处理方式。将清洁、湿化后的羊皮纸铺在金属作业板上,用磁铁将羊皮纸固定后,进行张力干燥。目的是尽可能少地向羊皮纸引入水分,并考虑到每天工作时间的限制以及在商定的时间框架内使处理过的纸张可用于数字化的需要,工作人员对羊皮纸进行了局部拉伸。

    第二步:引入3D重建方法。在经过多方面斟酌后,工作人员选择了多视图立体方法,它非常适合变形羊皮纸的实际手动采集,因为它允许用户自由选择视点,以得到褶皱表面的所有部分,并捕获一系列二维数字图像,然后可以使用这些图像生成三维模型。在本方法中,使用手持相机采集图像即可,无须使用专用扫描设备。此外,现有的多视图立体计算算法可以满足工作人员的需求。

    第三步:数字重建过程。1、捕获图像。工作人员用手持数码单反相机对羊皮书进行拍摄。羊皮纸摆放在黑色的绒布上,3盏漫反射大灯均匀分布在周围提供均匀的照明,以尽量减少羊皮纸上投射的阴影量。工作人员对每张羊皮纸进行了360°拍摄后,又拉近距离进行特写,对于羊皮纸高度扭曲区域,使用微距镜头获得特写图像。

财通福瑞    2、重建。工作人员运用系列算法对采集的图像完成3D重建,并克服了比例问题。有一些羊皮纸在初步恢复后,原本残缺不全的地方会有一些小洞,工作人员用曲面重建算法实现了羊皮纸的完全复原。之后,工作人员用既有的纹理图谱生成方法建立了三角网络模型。

    3、评估复原质量。平面图像可以用DPI(每英寸点数)来描述其画质,但是该羊皮卷是3D效果,无法用DPI来衡量。工作人员采用“有效DPI”法,通过采集和重建过程对羊皮纸表面细节进行采样的频率度量。通过制作DPI趋势图得出结论,在每件羊皮纸的边缘部分,由于文字残缺等原因,DPI值都较低。

    4、交互式文档开发。工作人员开发了交互系统,允许用户在羊皮纸书的三维重建表面浏览,对感兴趣的部分,可以将特定区域在3D效果下平展。本方法也是通过两种模型完成,即局部仿射模式,以三维形式呈现图像并对其进行变换,以便目标区域朝向对象;局部平坦模式,允许目标区域独立于网格的其余部分展平为二维。为保证文件的真实性,对于给定的三维视图,工作人员通过系统显示原始图像中最能描述当前观察到的羊皮纸状态的部分。

财通福瑞    5、整体平展化。在整体平展化工作开展前,项目组对羊皮书的最初状态进行了评估。羊皮书文档中的文本以统一的字形大小、等距的水平线和严格的垂直页边距书写。通过系列方法,工作人员实现了在读者进行阅读时对文本走向的预测,并且读者可以对此进行修改。针对羊皮纸受损后颜色发生变化的问题,工作人员通过规范化羊皮纸纹理的外观来消除颜色变化。最好的办法是通过用一个空间变化的因素独立地缩放每个颜色通道来实现,这样羊皮纸的所有缺色区域大致都能匹配上相同的颜色。

财通福瑞    工作人员通过上述方法实现了对著名羊皮纸书籍的全文3D重建,研究者不用接触原档案,就可以对其进行研究。在著名羊皮纸书籍遭受如此严重损坏的情况下,工作人员能运用一系列先进技术实现最大程度复原,实现其记述文字的可读性和文件的再利用,这值得我们学习,以进一步提升档案修复工作水平。

    原载于《中国档案报》2020年4月20日 总第3514期 第三版

 
 
责任编辑:张雪
 
版权所有,未经许可,不得转载。