近年来,人工智能与OCR(光学字符识别)技术的结合愈发紧密,图像文档中涉及的复杂结构如汉字结构、表格结构、文档总体结构的建模问题,逐渐成为研究热点。人工智能未来将走向何方?人工智能未来将走向何方?
新闻晨报
2023-03-23 01:30新闻晨报社官方帐号关注
人工智能未来将走向何方?
图文智能信息技术领域
未来会朝什么方向发展?
日前,中国图象图形学学会(CSIG)、合合信息公司、CSIG文档图像分析与识别专业委员会联合举办以“图文智能处理与多场景应用技术展望”为主题的“CSIG企业行”活动,邀请来自上海交通大学、复旦大学、中国科技大学、厦门大学等知名高等学府的专家学者,来自位于静安的合合信息公司,公司技术团队一起,面向业内研究者分享图像文档处理中的结构建模、底层视觉技术、跨媒体数据协同应用、生成式人工智能及对话式大型语言模型等研究及实践成果。
左右滑动查看更多
生成式人工智能将成为未来十年研究重心
据国际IT研究机构Gartner预测,到2025年,生成式人工智能产生的数据将占据人类全部数据的10%,生成式人工智能技术正加速数字经济的发展。
活动现场,上海交通大学人工智能研究院常务副院长、长江学者杨小康分享了团队在生成式人工智能领域的工作,并表示,目前的生成式人工智能还存在解空间巨大、宏观一致性差、微观清晰度受限等问题,需要通过数学、物理、信息论、脑认知、计算机等学科交叉研究,进一步夯实生成式人工智能的基础理论,通过“物理+数据”联合驱动,“虚拟+现实”深度融合,助力科学发现的加速。
杨小康认为,以“识别——分析”为代表的判别式人工智能推动了人工智能前十年的发展,接下来十年,以“合成——重建”为代表的生成式人工智能将成为主流。
近期频频上“热搜”的ChatGPT是生成式人工智能的典型代表,对此,复旦大学计算机学院教授、上海市计算机学会自然语言处理专委会主任邱锡鹏认为,强大的情景学习能力、思维链能力和自然指令学习能力,是以ChatGPT为代表的对话式大型语言模型的主要特点,将加速通用人工智能的实现。据悉,今年2月,复旦大学自然语言处理实验室发布了国内第一个对话式大型语言模型“MOSS”,引发业内广泛关注,邱锡鹏是主要作者之一。
“文本所承载的知识只是冰山一角,还有很多‘暗知识’并不是以文本形式记录的。在未来的发展里,人工智能还有‘具身学习、跨模态学习’等更多知识领域需要学习。”邱锡鹏说。
复杂场景多模态数据分析与理解进展迅速
人工智能要实现多场景“通用”,需要解决多源数据的问题。
厦门大学科技处处长、人工智能研究院负责人纪荣嵘教授认为,社交媒体等信息渠道包含了海量非合作、异构化、跨模态的数据,既蕴藏了大量的人类知识与高价值信息,也包含了各种自然与人为的噪声,对其分析与处理需要融合类脑计算、计算机视觉、自然语言处理等多个维度的智能技术。
纪荣嵘指出,连接视觉与自然语言的“视觉描述”领域,是最受关注且最具潜力的人工智能研究任务之一 。视觉和语言的研究应是双向的,各自的新发现、新方法可以互相迭代促进。跨空间、跨领域、跨任务知识迁移方面有较大探索空间,易于发现新的科学问题。
图像文档结构分析、底层视觉技术发展受关注
近年来,人工智能与OCR(光学字符识别)技术的结合愈发紧密,图像文档中涉及的复杂结构如汉字结构、表格结构、文档总体结构的建模问题,逐渐成为研究热点。
对此,中国科学技术大学语音及语言信息处理国家工程研究中心副教授杜俊就团队在文档结构层次化重建领域的最新进展进行分享。
“现阶段文档分析任务中,大多数研究是针对单页内的文章要素的解析,但从内容角度看,许多文档页与页之间内容有关联。”杜俊表示,图像文档处理能力要达到“篇章级”,突破手写、自然场景下的汉字建模难点,做好跨页文档的要素分类、文档结构恢复是团队的主要研究目标。
活动现场,合合信息图像算法研发总监郭丰俊博士针对目前底层视觉技术在处理形变、模糊、阴影遮盖、背景杂乱的文档时遇到的典型问题,就公司技术团队在智能图像处理技术模块、融合技术典型应用、图像安全领域等领域的研究成果进行了分享。
据郭丰俊介绍,合合信息智能文档处理技术基于对图像目标区域的精准裁剪,对弯曲、倾斜透视的页面进行形变矫正,在去除阴影、摩尔纹后,通过人工智能技术对文档图像进行增强锐化和清晰度提升,能达到“图像质量增强”的效果,在改善阅读体验的同时,也提升了识别转换、图像分析等文档处理下游任务的质效,相关技术已通过“扫描全能王”等智能文字识别产品,服务全球上百个国家和地区的上亿用户。
来源:上海静安