作者归档

人民网舆情监测系统参展“互联网之光”博览会

2023年11月8日至10日,世界互联网大会乌镇峰会在浙江乌镇成功举办。今年,大会重头戏之一的“互联网之光”博览会也迎来第十年。博览会以展览展示为主体,以新产品新技术发布和人才相亲会为重点,着力打造全球数字经济产业合作交流的重要窗口。

人民网·人民数据受邀参加此次盛会,并通过“线下实景+线上云展”相结合的方式,在“互联网之光”博览会中(B3-12)为观众展现了系列产品及服务,其中人民网舆情监测系统吸引了众多到场观众的目光。

人民网舆情监测系统,做到根据具体应用情景,数据可定制、算法可定制、功能可定制,支持多样的服务形式及灵活的部署方式,实现舆情和数据的有效结合。

汇聚海量数据,日均数据采集量超亿级。人民网舆情监测系统具备信息采集及时、准确、全面、智能的特点,支持7*24小时全时实时采集;报、台、网、微、端全覆盖;日均数据采集量超亿级。凭借全国领先的大数据采集能力,以及多年积累,目前已经形成了业内最大舆情数据库。

人工智能护航,提升算法输出准确性。人民网舆情监测系统可针对客户需求快速进行数据标注,有针对性提供算法模型训练,最大限度提高情感计算、热词提取、事件聚类、垃圾数据识别等算法输出结果的准确性。

业务深度结合,提升客户核心竞争力。人民网舆情监测系统采用了开放架构,具备开放数据接口等技术能力,支持快速接入第三方平台数据。通过舆情数智能力与其他行业数据的结合,进而可以在政务处置、突发公共事件应对、企业生产经营销售等多领域多环节提供全过程、全链条舆情+数据+分析服务,为各行业数字化转型带来崭新机遇。

基于大数据、舆情、智库等领域的丰富经验和成熟技术能力,人民网舆情数据中心提供的舆情数据服务不断升级,从提供舆情报告、解决方案升级为数据与智库紧密结合的智能舆情。覆盖事前机制建设和风险评估、事中监测研判和应对处置建议、事后总结复盘和形象修复咨询等环节在内的全流程舆情管理支持并建立多维度的大数据评估评价指标和模型,服务千余家党政机构、企事业单位和社会团体,为3000多起危机事件提供应对策略支持。

人民数据以打造人民云、人民链、数据要素公共服务平台等项目为契机,争做一流数据服务商,争当一流数据集成平台,积极做好数据交易的经纪人、数据产业的运营方、数据应用场景的创新者,领跑大数据发展潮流。2023年,人民数据推出了首家全国性数据要素公共服务平台和“数据资源持有权证书”“数据加工使用权证书”“数据产品经营权证书”(三证)向全国发放,助力数据确权、数据交易等业务开展。

admin

中国冶金报社冶金行业舆情监测预警平台获奖啦

9月13日—16日,由中国报业协会主办的2023中国报业技术年会在重庆召开。会上公布了2021—2022年度全国媒体融合技术应用“创新”案例、全国媒体融合技术应用“十佳”案例,颁发了中国报业媒体融合技术支撑特别奖等。其中,中国冶金报社冶金行业舆情预警平台获评为2021—2022年度全国媒体融合技术应用“优秀”案例。

会上,中国报业协会表彰了2023年全国报业优秀技术工作者、中国报业技术创新企业、中国报业技术优秀企业及中国报业技术论文一等奖、二等奖等。此次年会还同步发布了2023年全国副省级和地市级百家党报报纸出版质量评测报告,以推进党媒出版质量不断提升。

冶金行业舆情监测预警平台是中国冶金报社和拓尔思信息技术股份有限公司联合打造的冶金行业第一家专门为行业提供舆情服务的平台,于2017年5月份正式上线,主要面向冶金行业上下游提供舆情服务,也服务于国家部委、行业协会组织等,可提供日报、周报、月报、季报、半年报、年报、专报等多种类型的舆情报告,并定期制作行业舆情报告,还可以开展定制信息服务。截至2022年底,该平台入库监测的网站数量达14893个,监测重点微博账号20460个、微信公众号14820个、App客户端1564个、国内论坛平台2005个、自媒体平台16个、短视频平台10个,入库信息已超过13亿条,共累积新闻信息数据1.3亿多条,专门配置的客户服务账户达60余个。该平台上线后,可以同时监测小视频,大力促进了行业舆情监测效率快速提升,行业关注度日益提升,各企业使用情况反馈良好。

据悉,此次年会以“创新技术赋能,深化‘新闻+服务’”为主题,来自全国各地报业领域的“大咖”、行业领袖、专家学者、知名企业代表等参会,并分享了媒体深度融合经验,共同探讨报业媒体技术应用的发展之路。

admin

全新升级!海晏舆情监测系统V6.0将全面接入大众网教育舆情体系

日前,由山东省互联网传媒集团自主研发的大众舆情监测系统V6.0发布,并正式更名为大众网“海晏舆情监测系统”。这是继“大众全媒体舆情监测与分析软件”“大众情报工作平台”“大众舆情协同工作平台”“掌上舆情APP”之后,大众舆情产品家族再添新成员。

山东省互联网传媒集团作为省内主流舆情服务商,大众网教育舆情系统已服务省内80余所高校及省教育厅、局等单位。本次舆情监测系统升级工作将首先接入山东省教育厅舆情监测系统和已签约院校用户,从而更系统科学的将山东教育舆情做到统一管理和分发,2023年9月将全部部署升级完毕。

系统新增的全新应用和实用功能,将“一站式”解决舆情监测的难点、痛点、堵点,让舆情监测更快、更准、更全、更早、更智能、更便捷。为各高校的网络舆论场保驾护航。

六大功能模块全面助力舆情工作

海晏舆情监测系统主要包含舆情监测、舆情预警、全网事件分析、舆情自动报告、舆情大屏、全文检索等在内的六大功能模块,致力于帮助客户全面、准确、快速地掌握自身舆情态势,提高舆情应对和危机处理能力。

此外,全新升级的海晏舆情监测系统V6.0版新增了热榜预警、自定义大屏、定制化自动报告、竞品分析报告等功能。通过热榜预警,方便用户及时查看百度、微博、抖音、头条等热榜信息,并及时对自身相关的热搜内容进行预警;通过自定义大屏,可实现自定义数据模块和图表样式,提供更灵活更直观的可视化数据大屏;通过设置自定义信息属性,生成定制化报告,提高用户制作报告的灵活性;通过设置竞品关键词,系统自动生成竞品分析报告,方便用户了解自己和竞品在行业中的舆情趋势;并同步对电脑端、APP端、微信端产品进行新版UI升级,提高了系统的易用性和美观度。

三大产品优势实现数据全覆盖、全智能化

系统通过7*24小时不间断的信息监控服务,实现秒级自动发现相关信息,快速掌握全网舆情态势。数据覆盖新闻、微博、微信、APP、贴吧、论坛、视频、短视频、网民评论、图片OCR识别等类型,保障数据全面、快速。同时应用大数据、自然语言处理、图像识别等技术,在千万级数据标注训练数据的基础上,开发多个场景应用模型,使数据更精准。

接入大众舆情智库系统,提供外脑支撑

目前,海晏舆情监测系统已成功为政府、企业、教育、金融、文旅、医疗等行业提供专业舆情监测解决方案,下一步,系统还将接入大众舆情智库系统,充分发挥系统+人工服务优势,为客户提供专业的舆情案例分析、舆情研判、引导处置等服务。

除教育舆情系统升级外,大众网后续还同时开展了教育系统舆情治理工作优秀案例征集活动,征集山东高校在舆情治理、舆论引导方面的经验做法,评选优秀案例,择机刊发于《大众舆情参考》杂志,并于年底集册发布。

admin

大河网舆情监测系统入选2023年河南省大数据产业优秀标杆

“太方便了!用这个系统,两小时内就能完成舆情报告的编辑任务,极大减少了人工作业时间,提升了舆情工作效率。”舆情分析师小李在使用大河网舆情监测系统后说。

8月31日,河南省工业和信息化厅公布2023年大数据产业优秀标杆名单,大河网舆情监测系统入选大数据优秀产品(服务)。

30余万信息源,提供千人千面的定制化服务

互联网是思想文化信息的集散地和社会舆论的放大器。在“人人都是自媒体,个个都有麦克风”的时代,网络舆情错综复杂前所未有。

如何有效监测网络舆情?如何科学回应舆论关切、防范化解舆情风险?2016年,大河网舆情监测系统建立。2022年,大河网与中国科学院软件研究所共建新闻数据与政务数据联合实验室运用新技术,对系统进行升级再造。

自上线以来,大河网舆情系统已服务120多家党政机关、企事业单位,通过分布式智能调度采集系统,对网站、微信、微博、报刊、论坛、新媒体、App等全平台30余万信息源实时数据监测,已形成智能预警、舆情简报、数据定制、大河舆情研究院等多种特色服务。

大河网总工程师、技术发展中心主任陈臣介绍,用户可以根据自己的业务需求,建立相应的数据定制方案,把所关注的网站栏目、微博账号、微信公众号、新媒体账号、论坛以及报刊栏目添加到该方案下。当系统采集到最新数据时,将数据推送到用户的方案下。通过自定义方案,用户可以快速查看相应数据,提高检索效率的同时也能保证数据的质量。

7×24小时实时监测,多种方式智能预警

大河网舆情系统依托大河网党媒机关信息资源优势,通过对敏感信息进行7×24小时实时研判,建立实时预警机制。目前,大河网舆情监测系统提供了基础版、专业版、五星版、智能版等多个版本,根据用户的定制方案,结合系统实时研判的敏感信息,进行相似新闻过滤、敏感程度排名,筛选出敏感程度排名比较高的信息,通过用户设置的预警方式进行推送,保障敏感信息及时准确送达用户手中,为下一步的决策提供依据。

大河网舆情系统提供短信、微信、App等多种智能预警方式,覆盖渠道广,保证预警及时有效,接收查阅方便。用户可灵活设置预警时间、预警频次、周末是否预警以及预警信息来源。

舆情简报一键生成,专家团队协助分析

“只要点击系统中的‘导出’按钮,由人工智能分析快速生成的日、周、月、季度舆情报告就生成了。平台自带的行业舆情案例库,能够为舆情应对提供参考。”大河舆情研究院副院长徐静瑶介绍,舆情简报功能以用户比较关注的信息作为简报素材,从情感分析、传播趋势、主流媒体报道、负面舆情4个维度以图文结合的方式全面分析,以Word文档方式导出结果,满足用户舆情信息存档、上报需求。

徐静瑶说:“重大舆情应对和处置期间,我们会及时发布舆情引导信息。根据监测情况,我们会制作日报、周报、月报、专报等舆情报告,并提供专业舆情引导与处置培训,提升用户舆情素养和舆情应对能力。”

作为河南省首家重点新闻网站,大河网坚持“互联网+新闻”、“互联网+技术”双强发展战略,积极构建“新闻+技术+政务+服务+商务”运营生态,凭借强大的自主研发能力及优质的运维服务能力,开发建设和运维着省人大、省政府、省政协和省委宣传部、省文明办、省委党史研究室、省发展改革委、省财政厅、省大数据局、省住建厅、省交通运输厅、省乡村振兴局、省文物局等500多个政务服务项目,实现了党委、政府、人大、政协“四大班子”政务服务业务全覆盖,是河南省最大的政务服务供应商。大河舆情研究院先后获得中宣部舆情报送先进单位/先进个人,河南省舆情报送先进单位等荣誉称号。(文/杨露露)

admin

对话舆情监测公司Meltwater大中华区总裁:人是创业的第一要素

舆情监测在中国还是一个朝阳产业,而且由于面向的是企业客户,这个概念还没有走入寻常百姓家。Meltwater就是这个行业的一家领先的“软件即服务(SaaS)”公司,它能够利用软件技术搜集37种不同语言的线上媒体和社交媒体,帮助企业客户监测并且管理商业信息,既能帮助企业管理品牌形象,也能基于充分的商业讯息做出合理的商业决策,比如发现潜在市场、开展营销活动。

  Meltwater中文名融文咨询,2001年成立于挪威,短短几年时间就从一个只有1.5万美金、名不见经传的欧洲创业公司,发展到全球媒体智能领域的领头品牌。现在Meltwater总部坐落于旧金山,在全球已经拥有了50多个办公室,征服了23,000多家企业客户。虽然业务范围很广,但是在每一个办公室,Meltwater都有非常浓的企业家精神和创新意识。“我们从本质上说,还是一家创业型公司,每个人都是企业的主人翁”,Meltwater中国区市场经理Teresa非常直截了当地定位企业文化。

  目前Meltwater在大中华区有北京、上海、香港三个办公室,Meltwater大中华区负责人Ewan Ross对公司的发展功不可没,不管是创建办公室、业务开拓,还是客户管理、跨区域合作方面。现在Meltwater的客户不仅包括万科、华为这样的知名企业,而且服务的续约率能达到90%以上。作为一个外国企业,如何能在短短几年时间内占领中国的舆情监测市场,创业邦作者与Meltwater大中华区负责人进行了以下对话:

  舆情监测在中国

  Q:中国的舆情分析市场现在处于怎样的阶段,为什么Meltwater会选择开辟中国市场?

  Ewan Ross:中国的舆情监测市场正在迅速扩张中,而且中国的网络舆情与很多国家相比数量更多,对于企业来说需要处理更多的信息才能找到对自己有用的信息,也就是我们所说的找到“outside insight”。与其他舆情监测机构不同的是,Meltwater的产品基于软件技术,和传统的剪报公司相比,更加便捷和高效,不会出现人工的误差,同时也大大减低了客户的成本。

  Q:作为一个国外企业,如何适应中国土壤?又存在怎样的挑战?

  Ewan Ross:Meltwater现在的总部在美国旧金山,但是在世界50多个城市设有办公室,我本人就先后在Meltwater的英国、南非、印度和中国这些国家工作过。为了能够很好地在各个分部开展业务,Meltwater做的最多的就是“本土化”。因地制宜地对当地的舆情市场制定个性化的服务,是Meltwater开设分部的第一步。比如在中国,首先要能收集到本土的舆情信息,为此Meltwater还与现在中国市场上非常受欢迎的社交媒体建立了合作关系,比如新浪微博。Meltwater能得到的舆情信息是其他中国市场竞争者的3到4倍,这就决定了它能在中国市场上站稳脚跟。

  而且由于总公司成立的时间比较长,积累了大量的数据和成功经验,开设分部可以利用总部的资源。为了能够给中国客户提供更精准的服务,Meltwater还提供人工报告和人工翻译,将国内外的舆情分析提供给客户。为了进行本地化服务,Meltwater在中国的员工全部都是在当地招聘的,并且所有事情都是由公司内部员工来做,不做外包。

  Q:舆情分析会不会对公关行业产生影响?

  Ewan Ross:为了能够在中国市场做好,Meltwater现在还在做市场的引导工作。因为大众对舆情监测并不了解。其实舆情监测与公关公司的业务并不冲突,Meltwater的用户有一部分也是公关公司,因为他们需要Meltwater来帮他们分析自己的工作,研究舆论影响的效果。而且Meltwater只提供分析数据,并不参与品牌和公司的推广工作,并不能取代公关公司的执行作用。

  Q: 可以举几个典型的客户案例吗?

  Ewan Ross:当然可以,我们在大中华区已经有近千家客户,并且几乎都是非常知名的公司。

  比如水井坊,作为一家酒业公司,他们对负面信息非常敏感,因为这对他们品牌的影响力非常大。所以他们需要对所有与其品牌有关的信息做到及时监测,这种及时甚至不是按天,而是按小时、分钟来算的。并且他们也需要把收集到的信息按重要性向管理层进行传递。这种要求光靠人力,很难做到全面、及时,所以他们的公关负责人袁女士和我们说过,“使用Meltwater让我有一种安全感”。

  宁波诺丁汉大学使用我们的角度又不同了。作为一所中外合办大学,除了对国内国外发布的关于自身品牌和相关大学信息的了解之外,他们还需要了解中国教育业的趋势,就是在繁杂的信息中发现一些规律,再把相关分析图表和核心信息翻译成英语向英国总部汇报。这种对信息处理的高效、精准也是Meltwater这样的软件服务独有的优势。

  所以我们的理念是,帮助客户从外界筛选出最相关的核心信息,比如关于自身品牌与同行的客观比较,比如对中国区这么多不同区域信息的整合,我们同时要做到智能和定制化。

  人是创业的第一要素

  Q:Meltwater中国的每个办公室只有10-30个员工,是怎样将这样大规模的业务运转起来的?

  Ewan Ross:Meltwater有一个十分特殊的地方,我们的员工几乎全部是从Sales(销售)做起的,包括我自己和其他职能的同事。而且我们非常“以从事销售为自豪”。Meltwater从创业初期就是用这种办法培养员工,并打下牢靠的市场基础。在销售的过程中,我们的员工能与客户公司的高管通过电话、视频与面对面交流,练习销售技巧和管理技巧。这样的成长路径会非常快。拿我本人来说吧,我在Meltwater6年时间,我通过从基础的销售工作做起,迅速地锻炼了自己的公开演讲能力、团队合作能力,这些在从事管理的岗位上也同样适用,作为职业的开始,从事销售职能真的是非常好,它本质上是一种企业家精神,一种对工作和事业的热情。

  Q: Meltwater 对中国市场发展的战略构思?

  Ewan Ross:其实主要是两个方面。一个方面是教育市场,虽然说很多专业的公关市场人士已经发现了舆情监测的需求,但很多人还不知道我们的存在,我们需要告诉他们我们真的可以帮助到他们。另外一方面,就是继续扩张我们的团队,但不是盲目扩张,我们一定要找到与我们的文化相匹配的人才,一旦找到,我们会全力以赴不计回报地培养他们。我们希望员工数量很快翻倍。在这两个基础上,我们还会不断升级、完善我们的产品,与时俱进,保持行业领先地位。

  对创业公司的建议

  Q:在开拓新市场的过程中,对初创公司有什么建议吗?

  Ewan Ross:我认为对一个公司来说最重要的是人,虽然产品是公司的关键,但是也只有好的员工才能将产品做好。不管在任何地方开设公司,只要能找到合适的人,才能让这个团队发展得更快。比如,Meltwater中国的团队,来自各种不同的专业,有学新闻的,有学法律的,有学商业管理的,但是大家都能在公司里找到自己的价值并对公司做出贡献。可能初期大家都是在做销售,但是等到公司发展到一定的规模,大家都有机会发挥自己的长处。

  如果你真的非常关心你的团队成员,你们的目标又是非常一致的,其实很多问题都不难解决,但你一定要从心底期望帮助他,保证他每天工作起来很开心,这是我对领导一个团队的理解。

  当然,你也需要是你所从事行业的专家,对于一个创业者来说,这往往不会被轻视。但是对应该多么重视找到正确的人才这一点,会有不少人在一开始忽视,然后吃了大亏。

  对于计划进行国际化的公司,首先一定要了解国外市场,必须对将要进军的市场进行充分的了解。Meltwater有一个客户在进军海外之前,进行了几年时间的舆情考察,分析当地市场所喜欢的产品类型,包括对各种论坛和媒体的分析,之后才决定向这个市场做出动作。这对于想要进军海外的创业公司来说同样适用。

admin

舆情监测公司Meltwater收购香港初创公司Klarity,进一步锁定中国庞大的舆情市场

eltwater收购香港初创公司Klarity,希望借此增强对社交媒体监控和分析的能力。

号称媒体界情报局的网络舆情监测公司Meltwater正在完成其一系列的收购计划,在买下一家名为Oxford Uni spin-out Wrapidity的公司之后,Meltwater又收购了香港初创公司Klarity,希望借此增强对社交媒体监控和分析的能力。

Meltwater于2001年成立于挪威,公司中文名为融文咨询,短短几年Meltwater就成为了全球网络舆情监测领域的领导者,通过为客户提供SaaS产品,Meltwater可以帮助企业客户监测覆盖37种不同语言的网络舆情信息,并基于舆情来管理品牌形象、开展营销活动。

这次被收购的Klarity公司将为Meltwater在大中华区开展业务提供很大的帮助,Klarity的客户遍及香港和中国内地,并且主要由大型机构和跨国消费品公司组成。

Klarity的社交媒体监控服务使客户可以在微博、微信、Line、优酷等亚洲地区12个主流社交媒体上,监控与公司相关的一系列关键词。另外,Klarity还可以通过追踪企业在社交网络中营销内容的参与度、互动度、粉丝增长情况以及热门内容,从而为客户提供与竞争对手的对比分析。

通过使用NLP自然语言处理技术,Klarity现在已经可以对包括英语、中文、日文在内的不同平台进行监控,并自动生成社交媒体舆情报告。Meltwater创始人兼首席执行官Jorn Lyseggen在一份声明中说:“Meltwater在香港市场已有11年多的时间,在过去24个月里我们一直在寻找机会加强在亚洲的业务。“ 因此收购Klarity可以看做是Meltwater进军中国市场的重要一步。

admin

军犬舆情监测软件公司简介

军犬舆情是中科点击(北京)科技有限公司旗下核心业务,公司成立于2007年,由国家信息中心下属企业国信优易数据控股,是国家级专精特新企业、国家高新技术企业、国家规划布局内重点软件企业。公司定位于中国行业大数据应用专家,专注于行业大数据应用场景的开发。是国内率先从事舆情监测、分析研究与服务的专业机构之一,旗下军犬舆情系列产品一直处于领先优势。15年来为超过3000多家政府机关、事业单位以及大型企业,稳、准、狠、快地提供舆情监测、分析研判、舆情预警、报告制作、舆情导控等综合服务,赢得客户信赖与高度评价,成为网络舆情行业领军品牌。

网络舆情定义:网络舆情是以网络为载体,以事件为核心,广大网民情感、态度、意见、观点的表达、传播与互动,以及后续影响力的集合。

admin

百分点大数据技术团队:舆情平台架构实践与演进

现代社会每天都有大量信息产生, 抖音、小红书等自媒体的普及,不断丰富着人们表达看法、传播诉求、分享信息的渠道和形式。如何完成多源异构数据的 收集和处理,挖掘海量信息中的价值,洞察事件背后的观点和情绪,是 做好 政府和企业 舆情监测工作不可忽视的问题。
百分点舆情洞察系统(Mediaforce)是一款面向政企客户的舆情监测SaaS 产品,自2014年上线至今,已累计服务客户近万家,积累了逾20 PB的全网数据, 通过 构建 丰富的上层应用, 为 客户提供精准、实时、全面、多维度的洞察服务 。
本文从底层数据治理、上层应用架构,以及数据个性化和智能化角度,分享了 大数据平台架构、AI平台架构和微服务架构在舆情产品上的实践。
一、平台架构简介
伴随着互联网内容形态的蓬勃发展,Mediaforce 平台数据量增长迅速,在产品创新和迭代过程中,自身平台架构也在不断的演进。
互联网舆情本质上是对互联网公开信息的采集、分析、研判,并产生业务价值,是一个价值数据挖掘的过程,我们覆盖了90%以上的网络公开数据,包含但不限于以下信源:
在线新闻、报刊、贴吧、博客、论坛、微博、微信、APP客户端;
电视、广播等;
社交自媒体:抖音、快手、小红书等。
百分点科技通过对以上数据进行存储、挖掘、可视化分析等一系列处理,最终为用户呈现多终端触达、一站式的舆情监测和价值分析平台。
到目前为止,大体分为如下三个平台架构,对应职责如下:
大数据平台架构
数据共享:统一业务数据存储,结合业务实际场景对数据进行关联使用,避免数据重复存储,降低沟通成本;
服务共享:统一服务架构,避免服务孤岛,统一服务的访问入口和访问规则;
易于使用:通过平台服务和工具的形式暴露平台能力,屏蔽平台底层细节。
AI平台架构
数据层:以平台化能力应对数据收集、数据准备等繁重工作,同时结合业务,构建数据流转闭环;
深度学习平台层:实现多租户及弹性的资源分配、模型库扩展、可视化训练和调整、滚动更新等能力;
应用和工具层:借助Rest\Grpc模型开放能力,对接金融领域舆情、定制化行业标签、离线数据预测等场景。
微服务架构
拆分:按照业务垂直拆分和功能水平拆分的总原则,以及从业务侧尽量规避分布式事务等考虑;
云原生:减少微服务架构的运维成本,借助容器化技术,实现资源动态感知、扩缩容等特性。
二、大数据平台架构
百分点舆情洞察系统最初是通过自主构建IDC来支撑,IaaS层由单独的运维团队来进行维护。
大数据平台(IaaS层除外)分层如下:

舆情的数据应用场景不同于海量日志、海量商品检索等的侧重于简单标签聚合,舆情应用完全基于自然语言全文检索,同时结合内存复杂聚合计算。为了保证检索准确率,往往会配置复杂的关键词和距离限定,因此对于检索引擎的内存优化策略要求很高。可以说,数据存储和检索架构的升级,是舆情业务的核心之一。在百分点科技大数据平台架构演进历程中,大致可以分为三个阶段:业务共享数据仓库阶段、业务自建数据集市阶段、湖仓一体阶段。

  1. 共享数据仓库阶段
    在业务规模初期,大部分精力集中于业务系统的迭代和开发,采用共享数据仓库的解决方案。流程如下:

可以看到,随着客户规模和数据量的增大,以及业务复杂度的提升,仅仅依靠共享的数据仓库,已经无法满足需求。产生的主要问题如下:
业务侧查询响应时长无法保证;
复杂查询以及聚合操作,加重Elasticsearch Cluster负担,甚至引起节点OOM;
冷热数据未分离。
随着客户量及数据量的增多,百分点科技对数据仓库进行了冷热数据隔离,并通过自主构建数据集市来满足业务的快速响应。

下面将从数据仓库层、数据集市层进行介绍。
ES Cluster从2.3.4升级到6.0.0(当时最新版本);
数据仓库核心做了冷热数据分离,热数据使用SSD硬盘存储,且只存储近一周数据,冷数据使用HDD硬盘,存储近两年数据,互联网数据具有良好的时序性,按天拆分,在保证集群运维便利的同时,满足数据变更\删除的业务需求;
数据集市以业务最小查询单位-话题为粒度进行拆分和构建,可以认为是将上层业务需要的结果,预计算存储至数据集市层,这样业务查询只需查询自己独有的库便可以进行分析和响应,其中需要相对复杂的机制保障数据一致性,这里不做介绍。
调整后,业务查询响应延迟基本可控,并且具有良好的隔离性。但同时也面临着下述挑战:
离线数据(2年以上历史数据)以HDFS为存储介质,不支持更新、无法查询复用;
在目前数据集市层的拆分力度下,由于业务逻辑复杂性,需要借助内存计算,在以年为跨度查询周期,显得力不从心;
数据集市层实时数据的计算具有一定的延迟,需要保留热数据集群来支持实时数据的查询,架构不够优雅。
随着舆情在客户群中深入使用,在保证查询低延迟的情况下,需要能支撑3~5年的长跨度数据检索。同时为应对SaaS产品矩阵的扩充,需要易用、可扩展的数据平台支撑。本次架构优化的核心目标为:
低响应延迟下,大跨度查询可扩展至3~5年(秒级);
灵活的为其他业务应用做好平台支撑,加强ODS、DW建设;
减少ES Cluster数据冗余;
简化数据集市层计算链路,提高数据时效性。
3.1 数据集市层
对客户和线上日志进分析,得到如下结果:
(1)客户数据量级

对线上客户数据量进行采样,统计一年数据量,千万级数据量的客户群体占1%。所以我们将目标定义为千万级数据量下的,复杂聚合查询分析响应时长在3~5秒内。
(2)查询类型统计
借助数据集市,将大量的依据全文检索聚合统计分析场景转化为OLAP场景。对线上日志进行分析,二次全文检索查询流量占比不到20%。

依据上述结论,将数据集市层要解决的问题进行汇总如下:
80%查询是OLAP场景,20%查询是全文检索;
需要支持实时更新;
数据规模支持千万级别,并支持扩展;
查询响应时长在3~5秒。
通常来说,面对海量数据的低成本存储+高效检索的需求,业界通常使用HBase+ Elasticsearch的组合方案,但该方案除了开发维护复杂、数据一致性弱等常见问题,通常还要由Elasticsearch来承担OLAP,以及全文检索的功能职责。对于重OLAP查询场景,使用MPP查询引擎往往能获得较低的查询延迟,如:Clickhouse、DorisDB等。在考虑支持实时更新等多种条件下,我们将方案集中于Elasticsearch、TiDB+ Elasticsearch、DorisDB+Elasticsearch三种技术进行尝试:
Elasticsearch
ES是一款面向OLAP场景的全文检索分析引擎,下面是在Elasticsearch 7.8.0环境中的测试:
(1)集群环境

(2)测试索引
使用单shard、无副本、百万级别索引32个,十万级别索引18个。
(3)测试结论
将客户端并发数等价于索引数目,持续20轮进行压测。对业务进行抽象,选取如下测试用例:
{“size”:0,”query”:{“bool”:{“filter”:[{“bool”:{“adjust_pure_negative”:true,”boost”:1}},{“range”:{“pubTime”:{“from”:1551430186000,”to”:1615366186000,”include_lower”:true,”include_upper”:true,”boost”:1}}},{“bool”:{“adjust_pure_negative”:true,”boost”:1}}],”must_not”:[{“term”:{“mask”:{“value”:true,”boost”:1}}}],”adjust_pure_negative”:true,”boost”:1}},”track_total_hits”:2147483647,”aggregations”:{“termsAgg”:{“terms”:{“field”:”titleSimHash”,”size”:2000,”min_doc_count”:1,”shard_min_doc_count”:0,”show_term_doc_count_error”:false,”order”:[{“_count”:”desc”},{“_key”:”asc”}]}},”carAgg”:{“cardinality”:{“field”:”titleSimHash”,”precision_threshold”:10000}}}}

测试中发现集群相对稳定,相对于单线程,多线程下的平均延迟高于1s也较少。在Elasticsearch6.0.0上进行相同的测试,其中平均延迟延迟高于1s占80%。
TiDB+Elasticsearch
TiDB 4.0版本已经是一款HTAP混合型分析引擎,将测试数据集限定为千万级,在测试中设置:tidb_hashagg_final_concurrency=20和tidb_hashagg_partial_concurrency = 20,平均耗时稳定在 8s~9s。由于聚合后的基数较大,压力都集中在TiDB侧,未能达到去ES的OLAP的场景。更多信息请参照AskTUG:千万级数据group by性能调优[1]。随着TiDB 5.0发布,TiFlash已经不仅仅是一个列式存储引擎这么简单。TiFlash引入了MPP模式,使得整个TiFlash从单纯的存储节点升级成为一个全功能的分析引擎。
DorisDB+Elasticsearch
Mpp引擎列式存储设计对于数据更新是极其不友好的。借助DorisDB的更新模型引擎,内部通过版本号,可以支持大规模的数据实时更新,当然在查询时需要完成多版合并。同时Doris-On-ES将Doris的分布式查询规划能力和ES(Elasticsearch)的全文检索能力相结合,提供更完善的OLAP分析场景解决方案。目前Doris On ES不支持聚合操作如sum,avg, min/max 等下推,计算方式是批量流式的从ES获取所有满足条件的文档,然后在Doris中进行计算。在测试场场景下,性能是可以满足OLAP场景。实践中发现,由于自建IDC机器较为老旧,无法支持SIMD指令,致使无法安装DorisDB。
在目前的业务场景下,百分点科技最终选择单一的Elasticsearch来作为数据集市层的存储和计算引擎。后续如果数据集市有更大的数据量以及业务低延迟的OLAP查询场景,还是会考虑结合MPP查询引擎来满足业务的扩展。
3.2 数据仓库层
在之前的很长一段时间内,Elasticsearch Cluster承担了大量数仓的职能。通过多集群进行冷热数据隔离。在本次调整中,百分点科技借助索引生命周期管理(ILM)和Hot\Warm架构来实现在一个集群中进行数据的管理。在实践中,我们将Elasticsearch率先升级到7.12.0,以满足向量化检索等更多场景。
3.3 源数据层
之前会将采集的数据存储至kafka,作为数据传输中转。但kafka一般存储的时间周期较短,且功能单一。因此需要一套统一的存储计算平台,需要满足如下要求:
全量的离线数据是通过ES-Hadoop进行按天备份,后续的变更就无法做到同步,复用性、灵活性较差;
图片、音视频等非结构化数据的接入,需要方便与上层机器学习应用深度融合;
辅助数据仓库,构建数据集市,保证实时性。
在最新的架构中,百分点科技将数据先入湖,构建ODS,辅助构建上层DW和DM。关于Data Lake,最终选取Hudi作为源数据层存储计算方案,并做了以下尝试:
Iceberg
Iceberg工程架构具有极高的抽象,可以与各种引擎无缝融合。字符串模糊匹配是一种重要场景,测试中遇到以下问题:如果某个字段存储为空字符串,在匹配中就会出现异常:java.lang.IllegalArgumentException: Truncate length should be positive[2]。另外就是查询对Stream相关支持还处于开发阶段,对于增量数据处理只能以Java Api方式实现。
Hudi
Hudi显得尤为成熟,但是与 Spark 引擎绑定的较为紧密。在Hudi 0.6中对底层代码进行抽象,以适配Flink等主流计算引擎。同时其完善的增量查询机制非常适合实时数据集市的构建。另外Hudi Table并不需要提前创建,可以在写入数据时自动创建,这也是区别于Iceberg的一个点。
Hudi的引入,为底层数据平台带来了ACID能力,并且提供较好实时性。特别是为数据集市实时数据构建带来便捷,提供可扩展性。目前的简易数据架构如下:

三、AI平台架构
在海量的文本数据上,利用丰富的数据挖掘、深度学习、人工智能算法,训练在线和离线语义模型,一站式挖掘满足客户需要的舆情分析需求。在这一历程中,大致分为两个阶段:
文本分析平台:将通用文本能力服务化;
深度学习建模平台:高效、易用、低门槛的模型定制开发平台。
在上述演进中,最主要的变化在于各行各业都已经积累了较多的高价值数据,并且越来越需要定制满足自己场景的个性化模型。下面主要从这两个阶段分别展开对应的工作。
文本分析平台
在舆情分析场景中,依赖于分词、词性、新词发现、命名实体、主体分类、文本聚类、关键词提取、自动摘要、文本去重、情感分析、内容转换(简繁、拼音)、自动纠错、自动补全、文档解析等各种功能。产品架构和数据流程如下:

深度学习建模平台
随着深度迁移学习成熟和行业应用,带来最大的益处在于可以依据少量的训练数据便可以得到较好的训练结果。从下述对比中:可以看到Bert在少训练集下就能达到较好的结果,也为后续的定制化模型奠定了基础。

舆情系统本身可以看作为信息工程架构,客户可以容忍数据精准度,但是不允许相同的数据持续犯错。可学习、可持续、可定制已经变的尤为重要。这也是深度学习建模平台的由来。
下面是整体的业务架构和流程分析,具体技术细节可参照:。

四、微服务架构
下面对互联网架构演进之路进行总结如下,其中带颜色标记的为实践中的产物。

舆情业务应用系统从最核心几个业务功能,目前已经扩展至几十个业务模块。同时借助成熟的底层模块,快速沉淀出金融舆情、行业版等众多项目。大致经过以下三个阶段。

  1. 单体架构
    在业务初期,使用SpringBoot作为单体应用开发程序,可极大加快业务推进速度,简易架构如下:

单体架构的优点在于其易开发、易测试、易部署、易扩展,但是业务耦合严重,也为业务扩展、服务治理带来了新的挑战。例如:登录服务和查询服务在一个单体应用中,因为查询服务是一个耗内存的操作,高峰时会引起FullGC,致使登录功能异常。

  1. 微服务架构
    微服务可以定义如下:
    ⼀种架构⻛格,将单体应⽤划分成⼀组⼩的服务,服务之间相互协作,实现业务功能。每个服务运⾏在独⽴的进程中,服务间采⽤轻量级的通信机制协作(通常是HTTP/JSON);
    每个服务围绕业务能⼒进⾏构建,并且能够通过⾃动化机制独⽴地部署;
    很少有集中式的服务管理,每个服务可以使⽤不同的语⾔开发,使⽤不同的存储技术;
    参考:https://www.martinfowler.com/articles/microservices.html。
    随着业务扩展,业务耦合严重,开发效率低下、排查问题困难等。秉承业务维度垂直拆分和功能维度水平拆分的原则,同时尽量避免分布式事务等复杂度问题。拆分后架构图如下:

微服务拆分功效:
业务逻辑层:拆分后服务模块30+;
监控体系建立:日志监控、Metrics监控、调用链监控、告警系统、健康检查;
配置中心:灵活可视化的配置管理中心;
开发效率、团队协作能力提升。
云原生包含了一组应用的模式,用于帮助企业快速,持续,可靠,规模化的交付业务软件。其特点如下:
容器化封装:以容器为基础,提高整体开发水平,形成代码和组件重用,简化云原生应用程序的维护,在容器中运行应用程序和进程,并作为应用程序部署的独立单元,实现高水平资源隔离;
动态管理:通过集中式的编排调度系统来动态的管理和调度;
面向微服务:明确服务间的依赖,互相解耦。
借助百分点科技内部云平台,将微服务结构容器化封装,极大的降低了部署、运维的成本,也为服务的稳定性增加了保证机制。下面主要介绍一下云平台的基础概念和应用成效。
平台基础概念:
命名空间
管理常规用户的资源访问权限的中央载体,让一组用户组织和管理他们的内容,并与其它群体区隔开来。是用户账号的唯一公共URL访问地址。
容器
Docker容器为资源分割和调度的基本单位,封装整个软件运行时的环境,为开发者和管理员设计的,用于构建、发布和运行分布式应用平台。
镜像
含有启动Docker容器所需的文件系统结构及其内容,因此是启动一个Docker容器的基础。采用分层的结构构建。
项目
通过标签标识的多个版本的镜像组成。
构建
将输入参数转换为结果对象的过程;通常用于将输入参数或源代码转换为可运行的镜像从构建镜像创建Docker容器并将它们推送到集成的容器镜像仓库(Harbor)
S2I构建:通过注入应用源代码到Docker镜像并且组建新的Docker镜像来生成可运行的镜像新镜像中融合基础镜像和构建的源代码,并可搭配docker run命令使用。S2I支持递增构建,可重复利用以前的下载依赖项和过去构建的构件等。
服务
平台部署应用的最小单位,一个服务为一个功能单元,如mysql数据库服务。是定义容器实例的逻辑集合以及访问它们的策略,一个服务至少包含一个容器实例,服务通常用于为一组相似的容器提供永久IP。在内部,服务在被访问时实行负载均衡并代理到相应的支持容器实例,可以在服务中任意添加或者删除支持容器,而一直保持服务可用。
配额
在同一个命名空间内可以创建的最大对象资源数量,以及每个容器请求的计算/内存/存储资源。
高级编排
编排模板:描述可以参数化和处理一系列对象,生成的服务、构建配置和部署配置。可以为开发人员即时创建可部署的应用。
平台资源对象层级关系:

目前平台代码构建支持三种模式:

智能构建基于平台所提供的Builder镜像,自动下载应用源码进行编译。在基础镜像之上,自动编译代码。
Dockerfile构建
用户自己编写Dockerfile,指定代码库、Dockerfile位置及代码分支后可以构建项目镜像。
自定义的Dockerfile,可以指定自定义基础镜像以及编译环境变量、配置信息等构建出更复杂的编译或运行环境,构建灵活性相比前者更高。
Push构建
通过平台提供的push构建流程,将本地定制化镜像上传到镜像仓库,导入后的镜像可以在平台中进行部署、调试、使用。
平台Scale功能包含水平伸缩和垂直伸缩,以下是水平伸缩的例子:

平台提供容器实例监控,可以按照时间区间图形化展示容器的CPU、内存和网络的使用情况:

总结
企业SaaS一般是围绕获客、转化、留存这三个阶段展开,平台的易用性、数据的准确性和实时性等都是客户留存的核心要素。在多年的实践中,大数据架构以数据湖为ODS层,来保证对原始数据高效、灵活的处理,同时为其他业务线开放数据处理能力。AI平台架构提供一套端到端的闭环流水线,打造个性化、智能化的业务。微服务架构通过容器化,极大的降低维护成本,同时保证线上稳定性。随着SaaS产品矩阵的扩充,百分点科技在金融舆情、企业品牌监测等多个方向进行积极尝试,底层平台架构在业务的快速落地中起到了重要作用。

admin

百分点舆情:一站式智能监测 助力企业全局掌控舆情态势

百分点舆情洞察系统(Mediaforce),是百分点科技一款智能化数据洞察与分析产品,依托大数据和人工智能技术,实时采集、处理、分析海量互联网公开信息,实现全媒体网络舆情监测与定制化精准分析,能够帮助企业全面、准确、快速、专业地掌握自身舆情态势,提高舆情应对和危机处理能力。
百分点舆情洞察系统适用于政府、零售快消、媒体出版、金融、汽车、电商等多个行业领域,目前累计服务客户量已达数千家。从功能角度来说,系统具备舆情监测、智能分析、智能预警、自动化报告等核心功能,同时拥有视频OCR+语音旁白识别、事件定向监测复盘等特色功能。
全网舆情信息自动监测可自动监测全网信息,实时提供相关信息列表,帮助政府和企业及时掌握舆情动态,发现负面信息或重大突发事件,实现快速研判和应对。
多维度智能分析,结合行业业务规则定制专属模型,实现负面情感识别、相关性判断、文本相似度计算等智能分析,从而提供舆情走势、媒体分布、热词云图、事件传播分析等可视化图表,帮助客户实时追踪舆情传播态势。
及时灵活预警,对于系统发现的重要舆情信息,第一时间通过邮件、微信等渠道进行及时预警,预警规则可灵活设置,包括全量预警、负面预警、关键词预警等,满足不同需求场景。
自动化舆情报告,基于精准的智能排序算法、可视化的报告模板和灵活的上报方式,为客户自动化生成日报、周报、月报,同时支持人工报告定制化服务,为客户提供便捷的使用体验。
视频OCR+语音旁白识别,基于业界领先的深度迁移学习技术,结合NLP、音视频识别、语音识别、机器翻译等前沿技术能力,精准识别舆情内容,快速洞察舆情态势。
事件定向监测复盘,结合行业特性定制专属模型,实现负面情感识别、相关性判断、文本相似度计算等智能分析,从而提供舆情走势、媒体分布、热词云图等可视化图表,全网事件传播分析以及微博单贴分析,帮助客户实时追踪舆情传播态势。
在功能基础上,百分点舆情洞察系统具备全、准、快、专四大产品优势。“全”是指产品覆盖境内外1500万信源点,包括新闻、平媒、微博、微信、论坛、APP、视频等全媒体渠道,提供全面的舆情监测和预警服务。“准”是指产品基于深度迁移学习技术,针对不同行业的特点,为客户打造专属智能分析模型,负面识别准确率达98% ,语义相关性判别准确性达95%,大幅提高信息筛选的准确性和效率。“快”是指产品7*24小时实时监测,最快秒级自动发现相关信息,保证信息及时呈现,快速掌握全网舆情态势。“专”是指产品针对不用领域的客户,配备资深舆情分析师,提供一对一深度定制报告、事件分析、舆情处置方案建议等专业舆情服务,为客户的舆情研判和应对处理提供决策支持。

admin

红麦舆情:十年积淀,凝练经典

随着移动互联网、物联网等新技术的迅速发展,人类进入数据时代。大数据带来的信息风暴正深刻改变我们的生活、工作和思维方式,对网络舆情管理也带来深刻影响。根据中国互联网络信息中心(CNNIC)第41次《中国互联网络发展状况统计报告》显示,截至2017年12月,我国网民规模达7.72亿,普及率达到55.8%,超过全球平均水平4.1个百分点,超过亚洲平均水平9.1个百分点。伴随着高歌猛进地互联网化,以微博、微信为代表的网络社区成为了新的最重要的舆论场。2018年1月份,微信月活跃人数为9.04亿人次,微博也实现了月活用户3.7亿人次。

面对错综复杂的舆论阵地,红麦舆情监测产业是信息服务行业在大数据时代的又一轮升级产业。迭代优化后的版本具有更强大的网页内容抓取与语义分析能力,对互联网上相关舆情的实时监控和深度分析, 为舆情分析者全面掌握舆情动态、助力更良性的社会化营销与公关管理。红麦自2008年成立至今,经过10年时间的技术、监测资源、分析经验积淀,凝练成为行业经典,主要体现在一下三个方面:

在技术方面,舆情监测系统成功迭代4个大版本,产品在长期的不断试错和实战中不断完善,确保产品上至整体架构、下至每个功能细节的设计均经过认真推敲,并以最佳的解决方案予以实现。

监测资源方面,监测站点已涵盖20余万个。同时,抓取解析规则也在主流网站历年的改版中不断完善,确保兼容性的同时,抓取信息的乱码率、抓取边角信息概率以及得到显著控制。通过对主流站点反爬虫规则的多年测试,目前系统可以规避绝大多数主流站点的反爬虫规则,全年主流站点禁止访问概率几乎为0%。此外,通过长周期的数据量统计,红麦将各类媒体进行了科学的分级机制,根据各自媒体的不同权重和不同活跃时段,进行合理的抓取频次管理,确保在相同硬件配置情况下,最大程度提高抓取信息量,避免系统资源浪费和数据遗漏。

在语义分析方面,利用10年的存量数据,通过词频统计、拟合检验等技术的反复演算,红麦拥有较为完备、结构合理的正负面情感词判断体系,词库分为公共、行业、客户专属3个等级。每个词语的正负面情感得分、前缀否定词等都经过反复的验算和资深关键词工程师的校验,确保新客户初步磨合后,判断准确率平均达到80%以上,在无人工干预的情况下仍处于业内较高水平。此外,经过对10年历史数据的海量验算,红麦可以实现基于自然句语义的情感分析判断,系统可以通过解析句子主语及其前后修饰成分,理解该篇文章相对于指定主题对象的情感倾向。

首家具有完善的舆情管理体系的舆情一体化解决方案的供应商–红麦公司借助大数据得到了更为准确可视化的测量和呈现。为政府、大型国企、知名互联网公司以及公关公司等百余客户提供优质的舆情监测服务,反馈良好,验证了红麦舆情监测系统的可靠性、易用性。在未来,红麦将更好的利用大数据拓宽和加深舆情引导和研究的广度和深度,为企业提供更优质的服务。

admin