公司从2012年开始存储网络上面的数据,字段丰富,用户可以通过API接口实时调取我们公司数据仓库中的数据,目前国内很多知名的舆情监测软件厂商、征信类平台、大型数据分析平台都是从我们公司的数据仓库中通过API接口实时传输数据的。
中小企业,甚至一些国际型互联网公司自身去爬网络上面的数据是一个成本高昂,需要花大批人力物力去维护爬虫程序,所以很多公司选择了我们的数据。公司的API接口数据支持免费测试
功能项 | 功能描述 |
数据采集服务 | 1、采集能力 数据总量超2500亿条,每日采集去重原创信息近2亿条 评论日采5000万+ 全媒体覆盖:网媒、微博、微信、论坛、贴吧、APP、网络视频、电视、小视频、自媒体、报刊等 独立域名网站15万+ 微博账号15亿全部采集 微信公众号1500万并在持续增长 贴吧、论坛全量 采集电视频道300+,涉及栏目6000档 APP客户端600+ 平媒电子版2000家 3200万+企业数据(工商信息、商标、专利、招聘、招投标、裁判文书、失信人) 覆盖多语种境外数据(含Facebook,Twitter) 支持100+种语言自动翻译(多于Google翻译),包括少数民族语言翻译(藏语、维语、蒙语、哈萨克语、朝鲜语、壮语、彝语…) 2、采集速度 采集、分类、处理、优化,信息最快可1分钟内展现 5分钟重点网站扫描,发现速度可达分钟级 采集频率10秒自动更新 7×24小时不间断采集 3、处理能力 数据处理时延不到1秒 数据处理峰值200万文章/分钟 设计处理能力1000万文章/分钟 单用户专题逻辑可超过1000个词的逻辑关系 重点网站99%全站信息1分钟内采集并推送,非重点网站30分钟内采集并推送 4、分析能力 全文检索查全率和查准率99% 负面文章识别率97% 自动预警准确率95% 关键词和摘要的准确率大于80% 溯源分析和传播途径分析的正确率大于85% 事件分析演化分析的正确率大于75% 垃圾、小说、广告等识别率超过90% 5、响应速度 支持同时在线人数百万人,每秒能响应 2000个并发请求 原始数据浏览、智能检索、分析结果查看等功能的系统响应时间在 1 秒钟以内 对数据的插入、修改操作的响应时间小于1 秒 |