近年来,随着互联网、大数据、云计算等新兴技术与传统医疗的不断深化融合,我国医疗信息化建设得到了高速发展。与此同时,随着医药行业的不断发展,大量的临床试验数据、研发报告药品注册和监管文件等对数据准确性、安全性、合规性有了更高要求,文档管理变得日益重要。落实高效、快速、安全、稳定的文档管理,提高整体工作效率和业务水平,成为药企提高竞争力并更好地适应市场变化的密钥。
完善文本处理转换系统应用,升级数字化管理
某医药公司为全球生物医药行业提供一体化、端到端的新药研发和生产服务,在亚洲、欧洲、北美等地均设有运营基地,服务范围涵盖化学药研发和生产、生物学研究、临床前测试和临床试验研发、细胞及基因疗法研发、测试和生产等领域。目前,该公司的赋能平台正承载着来自全球 30多个国家的 5900 多家合作伙伴的研发创新项目,致力于将更多新药、好药带给全球病患,早日实现“让天下没有难做的药,难治的病”的愿景。
伴随着企业发展、新业态不断涌现,该医药公司开发文本处理转换系统,用于协助医药写作团队为客户交付医药文件,支撑业务高效发展。然而,客户方提供的资料文档通常为PDF格式,医药写作团队需对相关文档报告进行编辑修改后再交付,如此一来,亟需识别、提取扫描件内容,以及强化文档报告安全管理等相关技术。
甄选福昕版式技术 提效医药写作、赋能文档安全
该医药公司携手版式文档领域领先企业福昕软件,选择具有PDF编辑、内容提取、OCR识别、加密保护等功能的福昕PDF软件开发包,完善文本处理转换系统应用,升级文档数字化管理。
1、PDF 内容结构化提取,无需转为其他文件
医药写作团队需要对大批量PDF格式的医药文件进行提取入库,其中包括PDF文档页面中的表格信息。由于PDF属于版式文档,本身没有表格结构,通常情况下需要将文档转为 HTML 或者 Word、Excel格式,才能提取表格信息。而借助福昕自研的PDF 页面版式识别技术,可无需转换格式、直接解析出 PDF 中的表格内容,包括:表头、行列数、单元格合并、单元格中的文本内容等。这样不仅能节省文档转换所需的耗时,还无需加入解析其他类型文档的技术,将 PDF 文档内容结构化提取的需求,在 PDF 这一层面实现完美解决。
2、密文处理,敏感数据的绝对保密
医药写作团队希望文件在对外分发的时候,只允许指定用户查看文件内容,且隐藏文档内敏感数据(例如溶液配比参数等)。福昕PDF密文功能,支持将指定的敏感文字或敏感区域内的内容,从 PDF 文档结构底层完全删除,不仅仅是外观上不显示。同时支持使用指定的色块或指定的文本对擦除区域做替换,在不影响用户阅读体验的同时,保证文件敏感数据不外泄。
3、高准确率的 OCR 识别技术
对于医药写作团队收集到的文档扫描件,福昕OCR 引擎能够保证高准确率地识别出文档内容,不仅仅是字符的识别,并且能做到字体识别,确保能够将扫描件完美还原。此外,对于扫描过程中出现的倾斜情况,也能实现自动旋转矫正,从而解决医药写作团队对于扫描文档进行内容提取和二次编辑的困难。
4、高保真、高效率的文档转换功能
医药写作团队对医药文件进行大批量修改时,需要将 PDF 转为 Word 进行重新编辑和整理。福昕Toolkit提供高效高性能的文档批量转换服务,支持将 PDF 转为 Word 格式,并保留 PDF 中内容的原始布局和页面尺寸。
加持福昕版式文档技术的医药文本处理转换系统应用,将有效助力企业业务协同更高效、文档管理更安全,为医药企业数字化进程增添助推剂。