“标签体系”建设的复盘与思考（上）以“城市治理_jinnianhui金年会·(中国)官网登录入口

　　许多业务都需要涉及到标签体系的建设，尤其伴随着业务的扩大，标签体系需要趋向精细化，以支撑最终的精细化运营。那么，标签体系该如何建设并应用至业务场景中？本文作者结合案例做了梳理和解读，一起来看。

　　以城市治理业务下的舆情监测分析业务场景为例，介绍和分享舆情监测分析场景下，舆情业务标签体系的设计方法和成果。

　　各行各业在实现其自身业务目标时，都逃不脱的一个工作环节就是：标签体系的建设和优化迭代。在业务开展初期，标签体系往往无需过于庞大，满足业务使用即可；但随着业务的发展壮大，标签体系势必会持续迭代、甚至越来越精细化，以支撑精细化运营，而精细化运营的最终目的是提高营收，即让更多的消费者 / 客户，持续性的选择你的商品 / 你的服务（更多的用户、更多的消费频次）。

　　所以，我们看：不论是卖商品的电商平台，卖酒店服务的 O2O 平台，卖房子 / 租房子的链家平台，卖火锅的海底捞餐饮店，还是家门口的物美超市，还是提供内容服务的平台（如音乐 App、小说（网络文学）平台（七猫、微信读书）、今日头条等新闻咨讯类平台，小红书），其产品逻辑内部，一定会有一个模块是【标签体系 / 标签管理】。

　　——标签，是用来给你所分析的业务对象分类、打标签用的，需要包含标签名称、标签别名（可能需要有）、标签定义、标签数据样例。比如你对你未来另一半的期待，你可以用标签化的形式来提需求，比如身高要大于 180cm、学历不能低于本科、性别男、年收入 50 万以上等等，这里面的身高、学历、年收入、性别，都是人（未来男朋友）这个对象的基本属性标签；

　　此外还可以有行为习惯、兴趣爱好的一些标签，比如喜爱摄影、喜欢读书等等；我们个人简历中的每一项内容，实际也都是基于标签体系来展开的。

　　对于内容提供平台：需要打标的对象有：提供的内容本身（如提供的是音乐内容，音乐分为哪些维度？按国家、按音乐风格、按歌手、按流行度…？），以及户和老用户；

　　对于卖火锅的海底捞：需要打标的对象有：火锅本身的治理（包括：火锅底料：是番茄味的还是菌菇味的？火锅套餐有哪几种？（单人餐、双人餐、三 - 四人餐？）不同选择下，火锅价格如何定价？），以及其消费者标签又如何。

　　——而标签体系，顾名思义就是形成体系的一个标签集合，比如知识体系、课程体系，不是随便的一个集合就能称之为体系，这个集合（体系）要科学、合理，即遵循 MECE 原则，且要便于管理维护和迭代。

　　——也就是说建设标签体系，第一步是找到需要贴标签的业务对象；第二步在建立标签体系时，要满足科学合理（满足 MECE 原则）、可管理维护和可持续迭代，这几点要求。

　　在后续章节中，我会结合个人自身实际工作内容以及学习调研成果，以【城市治理业务】中的标签体系建设为命题任务，试图探讨如何设计【城市治理】这个复杂场景下的标签体系，包括如下两部分内容：

　　多点业务场景融合的数据中台（数据融合治理平台）的产品设计及其核心功能（含标签体系）设计思路。

　　由于篇幅过长，上述【数据融合治理平台】部分内容，将在另一篇文章中进行详述。本篇文章，以舆情分析单点业务场景为例，介绍城市治理业务中 / 舆情分析细分业务场景的标签体系建设案例。

　　比如在公安业务中，公安体系下有不同的警种，包括：刑侦、技侦、经侦、禁毒、治安维稳、网安等等，不同警种其负责的业务侧重点不同，刑侦侧重于刑事案件类线索发现、刑事案件处置等；而网安部门，属于公安体系的支撑部门，即他们负责境内外网络上全部涉政类和违法犯罪线索类的收集、发现与上报（报给刑侦、经侦、禁毒 .. 等具体的业务部门）；

　　那对于厂商来说，要想设计一套可以解决全公安警种业务问题（网络涉政类和违法犯罪类线索发现和侦查研判）的产品来说，势必需要对客户的类型、业务进行分类，也要对系统生产出的数据进行分类，以使得禁毒的客户能够享用到禁毒相关的线索，而不是治安维稳相关的线索；

　　——给你的商品 / 服务打标签，给你的用户打标签，让你的商品和用户能够建立密切且准确的链接。

　　上述公安业务 - 产品解决方案的案例中，给系统生产的服务（商品）分类打标，就属于从产品中收集标签需求，需要打哪些维度的标签，每个标签下需要几个层级，如何给服务（商品）（数据）打标？（机器打标还是人工打标？）打标周期如何？标签是不是要升级迭代？。

　　——数据中台，一般发生于有着非常庞杂业务的大公司内部，该公司内部由于服务的业务方众多，全部由每个业务方去单独搞一套系统（从数据生产获取 ->

　　数据处理 ->

　　数据查询应用），与建设数据中台相比，大公司都会在业务发展中后期，选择后者。一来可以节省重复造轮子的成本，二来可以更大的发挥数据价值。

　　——而建设数据中台，数据中台的产品经理，就势必需要向各个业务方收集 / 调研标签相关的、数据治理相关的需求了。

　　传统舆情系统，一般需要解决的是网上已经发酵的且积累到一定热度的且存在社会舆情风险的热点话题或热点事件的自动识别发现；以及潜在风险的发现（现阶段还没爆发为热点，但存在引发社会风险的可能），并标记好分类，然后预警推送给相关客户（如网信办、高校、企业），以辅助客户能基于推送的舆情数据，分文别类的查看和进行舆情处置、分析和决策。

　　对于娱乐领域的一些日常的瓜，政府 / 高校并不关注；如果是文化娱乐经济公司，可能会关注其竞对公司的一些明星的瓜；

　　政府客户关注的更多的是：容易引起社会风险和动荡的一些舆情话题或舆情事件或敏感有害内容的传播——境内全网治理、境外侧重在涉我的敏感 / 有害内容的发现及阻断；

　　而高校、企业客户舆情需求关注更多的是：与其组织相关的正负面舆情，包括其组织内部以及竞对或所处行业的网络信息的监测与分析与告警报送。

　　通过分析不同客户的业务需求，以及对竞品（智慧星光 - 舆情产品、百分点 - 舆情产品等）产品功能进行调研分析，我们可以抽象提炼出【舆情产品】应该具备如下功能：

　　上层的一些核心舆情业务应用模块：舆情监测、预警及分析。其中舆情自动监测分析及预警功能，是最重要的业务功能，也是考验各个舆情供应商能力的地方，数据采集和数据加工治理的成果基本就在【舆情预警】模块得以展现。

　　舆情监测分析，业务功能又包括：舆情事件与分析、人物监测与分析、话题监测与分析、账号监测与分析等，以及基于这些分析维度 - 提供报告编写和导出功能等等。

　　舆情事件分析功能包括：舆情事件概览、舆情事件脉络分析、事件传播分析、事件热度趋势分析、舆情事件下贴文 / 报道、网民和媒体关于该事件的观点及印象分析、网民地域分布等；

　　在前面介绍到了，一个舆情产品的竞争力，在于：够不够快、够不够准、够不够全。也就是在舆情采集和舆情数据加工治理层面，各个厂商到底是骡子还是马。

　　第一类：有强大的舆情运营团队，运营团队对标签拆的足够科学，且积攒了非常多的关键词词包，和一系列的规则策略经验配置——这往往是没有什么 AI 技术实力的厂商的常见做法。——以智慧星光为代表，且在舆情领域，智慧星光品牌算是比较知名；

　　第一类，是没有那么多运营人员，但有非常强的算法和数据处理能力，以百度为代表，百度舆情 SaaS 产品为代表。

　　还有一类，既没有很强的 AI 算法，也没有人，这些厂商可能因为某种客户关系也会做一些舆情产品，但其终局无疑是被 kick off。

　　——开源的舆情数据，你能不能采，你能采多少？只能做境内的，还是境内外都能做？数据模态上，只能采文本分析文本的，还是文本 + 图片 + 视频都能采集、都能处理分析？

　　成本和技术储备。视频存储的成本是巨大的，以及视频分析能力不是随便一家小厂商就能做到的——首先这家公司要具备视觉 AI 能力，或是可以用一些开源的视觉 AI 能力。

　　法务风险。开源数据采集，涉不涉及风控，会不会被告？明显的竞对，比如百度，其采抖音数据，基本上若被发现，就会是要狠狠告你的地步。因此一般的做法通常都是：通过采买或租用第三方厂商采集的抖、快、B 站等平台的数据（小厂商采集数据去应用，虽然也会触发风控，但是可能没大厂之前那么严重）。

　　——你的舆情产品业务功能易不易用，你的标签够不够业务使用，还是需要舆情人员自己配置一大堆关键词和策略？你的产品出厂时，带不带预置标签，带不带自动监测预警功能？

　　但现实往往是，要么缺乏业务经验，要么缺乏 AI 能力。如果舆情系统都能又快、又准、又全，就不会有那么多领导黑料、各类负面舆情事件被扒出来了不是？

　　舆情 - 标签体系设计的是否科学合理，以及是否可持续管理和迭代，正是舆情厂商 - 在业务层面优劣势的体现。

　　一个好的舆情标签体系，一般标签分类较全（因为现在舆情市场几近红海），且积累了非常多的关键词词包和语料数据，且有配套的标签管理工具供标签可管理、可迭代。

　　① 首先明确需要贴标签的业务对象有：人、地、事、物、组织。并明确每个业务对象，其建立舆情标签体系建设的必要性和优先级，以及建好后预期带来的业务收益；——建立时，按优先级顺序：事>

　　组织>

　　物逐步建立。

　　舆情事件涉及的范畴非常广，文化领域的娱乐明星的瓜，政法领域的领导班子的瓜，典型社会人物的一些行为，均有可能成为网络上的舆情热点。

　　为了使舆情事件（话题）分类科学，我采用如下分类纲领来进行设计参照，即、经济、文化、社会、生态五大一级分类，可保证标签完全穷尽。

　　在一级类目下，运用 MECE 原则，尽可能根据历史舆情案例情况，列举出领域的相关舆情风险。比如、国际关系、执政形象；在问题下，又包含：意识形态、领土安全、恐怖活动、民族宗教等典型问题，同时为满足 MECE 原则，每个标签下补以，使得标签完全穷尽。

　　一级分类向下拓展标签仍如此，需要对业务深刻理解（调研客户需求 + 调研竞品 + 搜集书籍相关资料），才能据此拆分出相互独立、又完全穷尽，又满足业务使用需要的标签体系。

　　——一个辅助人工定义标签的好用方法是关键词法（这篇文本内容中反复出现的词语，思考是否可以直接作为标签？）。

　　最终按上述方法，我构建了一套具有四个层级，共 600+ 标签的舆情事件分类体系，这里列出部分：

　　上述标签体系，运用在给系统的采集到的单条消息、热点话题、舆情事件（多条具有语义相似的消息组成的消息簇）打分类标签。

　　人物标签（画像）的构建思路：可以从基本属性、行为习惯两个维度来拆分；而关于人的基本属性标签和行为习惯标签，还均可以按事实标签（即真实情况）、机器预测标签来拆分；根据数据的获取渠道，还可以按现实空间和网络空间来构建。

　　行为习惯，一般则由动态统计标签来构成，比如最近 3 个月访问 xx 网站次数这样来定义，也可以定义一个标签：活跃，其含义代表：最近 x 时间网络有发言且发言量大于 n 条（x，n 支持配置）；

　　目标检索场景【搜】：如通过人脸、人物声音、步态视频、社交账号、某个舆情事件，均可以检索到一个人；通过人 / 事件名称 / 地点 / 图片等，均可检索到舆情事件；

　　监测分析场景【推】：如系统发现某布控区域中，出现了车牌号为 xxx 的红色跑。