渊亭科技申请Web数据智能提取方法及相关装置设备存储介质专利,实现从非结构化Web内容到高质量结构化多语言数据的全自动转换
市场资讯 2025-12-08 17:17:18
10秒看完全文要点
国家知识产权局信息显示,厦门渊亭信息科技有限公司;湖南渊亭智能科技有限公司申请一项名为“一种Web数据的智能提取方法、装置、设备及存储介质”的专利,公开号CN121072478A,申请日期为2025年11月。
专利摘要显示,本发明提供了一种Web数据的智能提取方法、装置、设备及存储介质,通过任务队列机制将海量URL转化为可管理的处理任务,实现了大规模数据的有序调度。选择URL直接模式或内容预处理模式,确保在不同网络环境下都能稳定获取Web内容,然后调用大语言模型的语义理解能力,根据预定义Schema将非结构化网页内容转换为结构化数据,通过数据库聚合管道在数据库层面执行字段映射和结构转换。最后通过质量评分机制自动识别并修正不合格数据,对于质量不达标的数据自动触发重新提取流程,形成了闭环的质量保障体系。整个过程中的API速率控制确保了系统的稳定运行和成本可控,最终实现了从非结构化Web内容到高质量结构化多语言数据的全自动转换。
天眼查资料显示,厦门渊亭信息科技有限公司,成立于2014年,位于厦门市,是一家以从事软件和信息技术服务业为主的企业。企业注册资本2694.4341万人民币。通过天眼查大数据分析,厦门渊亭信息科技有限公司共对外投资了2家企业,参与招投标项目156次,财产线索方面有商标信息62条,专利信息179条,此外企业还拥有行政许可12个。
湖南渊亭智能科技有限公司,成立于2022年,位于长沙市,是一家以从事互联网和相关服务为主的企业。企业注册资本2000万人民币。通过天眼查大数据分析,湖南渊亭智能科技有限公司专利信息14条,此外企业还拥有行政许可2个。
声明:市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。