当前位置: > 媒体师大 > 正文

媒体师大

西安发布丨AI技术遇上西夏文,会擦出怎样的火花?

来源:西安发布 发布时间:2025-09-22 浏览:

神秘的西夏文字曾长眠于历史尘埃,清末重现于世后,对其的解读与研究逐渐成为专门学科,在西夏文古籍整理与数字化进程中,文字的基础性识别是最关键的环节,也是最耗费研究者心力与时间的核心步骤,其中尤为烦琐的手工录入环节曾严重制约整体工作进程。

为了突破研究发展的这一关键瓶颈,陕西师范大学历史文化学院张光伟带领团队创新性地运用人工智能技术,成功实现了西夏文字的自动识别。

2017年,他的西夏文AI自动识别系统获得教育部立项,在2018年初,研究团队就已经完成大规模西夏文字标注数据集的开发,这是一项奠基性工作,在此基础上,团队在多个前沿神经网络模型测试基础上开发了专门的西夏字识别模型,实现了94%以上的识别准确率。

西夏文AI自动识别系统

有了高精度的古文字识别模型,面对古籍转录极其耗时的工作,研究者和陕西师范大学相关专业的学生能够在人机协同处理平台,先由AI完成初步识别,再聚焦于校勘修正。

2023年,他与古典文献专业教师团队一起带领学生完成《格致镜原》古籍数字化,用深度学习技术延续文化传承。在百卷《格致镜原》数字化校勘实践中,机器完成85%的基础工作,使学生能专注于关键疑难文字的辨析,大幅提升了效率又切实保障了古籍整理的质量。


《格致镜原》古籍数字化

不仅是古籍,古地图的数字化也使新技术找到另一处大有可为的创新天地。

通过OCR(光学字符识别)技术提取地名信息,使古地图等珍贵史料成为“活”起来的“可检索”“可分析”的文献知识库。例如在《康熙皇舆全览图》中检索“溪”字,福建省内相关地名密集显现,而“堡”字则在陕西、山西的地名中成群分布,这种地名用字的差异,背后蕴含着历史文化特征与自然地理特点。

此外,古地图还实现了古代道路交通网络的可视化呈现。2023年以来,张光伟团队利用大模型技术,将古文献中的地名、道路与古地图精准对齐,为基于古地图的历史学研究提供了重要支撑。


《康熙皇舆全览图》中福建省(含“溪”的地名)

古地图上的路网可视化

陕西师范大学在古籍整理领域有着深厚传承,秉承黄永年先生等学者的学术衣钵,团队将古籍整理的三大支柱——目录学、校勘学、版本学——融入数字化实践。比如,张光伟带领2023级古典文献专业的学生对黄永年先生(黄永年,1925-2007年,出生于江苏江阴,毕业于复旦大学历史系,历史学家,曾任陕西师范大学古籍整理研究所所长)的《陕西师范大学图书馆藏善本书目》进行了数字化,让文献专业学生跟随文献前辈大家的脚步,学习并利用数字技术赋能专业能力的训练。这既是技术创新的成果,也是学术传统的现代化延续。

《陕西师范大学图书馆善本书目》(黄永年编)

最具前瞻性的是团队对AI与历史学融合的探索。他们提出“知识协议工程”概念,旨在将领域专家的方法论形式化,并注入大语言模型,从而构建出遵循学术范式的智能研究助手。这一构想源于对AI发展三阶段的深刻洞察:从算力数据驱动阶段,到上下文增强阶段,最终进入领域方法论内化阶段。这种双向互动预示着AI与历史学共生演进的新图景。

从2022年人工智能革命浪潮兴起,到2024年诺贝尔奖授予AI相关学者,跨学科融合的巨大潜力日益彰显。计算机学会筹建“人文智能”分会,更印证了人文与计算科学交汇的时代趋势。

当神秘的西夏文通过神经网络模型重获新生,当古地图中的地名在数字平台再度苏醒,我们正见证一场深刻的知识革命:人工智能不仅改变我们解读历史的方式,更重新定义人文与科技的关系。在这幅未来图景中,千年文字密码与最前沿的AI技术相遇,共同书写着人类文明传承与创新的新篇章。

报道链接:https://mp.weixin.qq.com/s/dGWif32ohDNKWquyU_E1rg