基于内容推荐算法和余弦相似度算法的领导决策辅助信息系统

引用本文

骆亮. 基于内容推荐算法和余弦相似度算法的领导决策辅助信息系统[J]. 广西科学院学报, 2018, 34(2): 143-150.

LUO Liang. A Leader Decision Assistant Information System based on Content Recommendation and Cosine Similarity Algorithm[J]. Journal of Guangxi Academy of Sciences, 2018, 34(2): 143-150 .

基于内容推荐算法和余弦相似度算法的领导决策辅助信息系统

骆亮

广西壮族自治区经济信息中心，广西南宁 530022

收稿日期: 2018-01-10

作者简介: 骆亮(1984—)，男，高级工程师，主要从事信息系统设计开发、数据库、计算机网络及系统集成等研究，E-mail:2015812@qq.com

** 通信作者: 骆亮

摘要: 【目的】为研究符合党政机关辅助决策特点的决策辅助系统，帮助领导快速、准确收集查找决策辅助信息，提高党政机关领导决策效率和准确性。【方法】基于内容推荐和余弦相似度算法设计了决策信息检索引擎，并结合决策信息库、用户决策特征库、决策信息采集子系统、决策信息推送子系统设计研发了领导决策辅助系统。【结果】系统在党政机关的决策辅助系统中进行了应用验证。系统可根据领导输入的关键字及领导的关注偏好进行决策辅助信息推送，推送结果准确率较高，符合辅助领导决策预期。【结论】基于内容推荐和余弦相似度算法的领导决策辅助信息系统根据用户偏好和特征进行决策辅助信息推荐，具有较好的准确性和针对性，开辟了党政机关决策辅助系统设计建设的新思路。

关键词: 基于内容推荐余弦相似度决策辅助

A Leader Decision Assistant Information System based on Content Recommendation and Cosine Similarity Algorithm

LUO Liang

Guangxi Economic Information Center, Nanning, Guangxi, 530022, China

Abstract: 【Objective】 In order to help the leaders to collect and find the information quickly and accurately, improving the efficiency and accuracy of the decision-making of leader of the government, the decision support system that meets the decision-making characteristics of the party and government agencies is studied. 【Methods】 We design a leadership decision support system which is based on the content recommendation and cosine similarity algorithm.The system includes decision information database, user decision feature database, decision information collection subsystem and decision information push subsystem. 【Results】 The system is applied in the government decision support system, which can push information according to the key words and the preference of the leader. The accuracy of the pushing results is high, which is consistent with the expectation of the leader. 【Conclusion】 The system has better accuracy and pertinence according to the user preferences and characteristics, which has opened up a new idea for the design and construction of the decision-making assistant system of the party and government agencies.

Key words: content-based recommendation cosine similarity decision-making assistance

0 引言

【研究意义】党政机关领导政策制定、项目审批等决策研判往往比较复杂，无法通过传统的决策支持系统进行问题结果推导，更多地是通过查阅资讯信息、法律法规、政策文件等各类材料，结合领导所分管工作、关注重点和决策偏好进行辅助决策，研发适合党政机关的辅助决策信息系统显得尤为重要。【前人研究进展】通过查阅文献，已有许多决策系统的研究和设计，其中，张伟^[1]、白玥^[2]、许海玲等^[3]的研究支持系统利用推理机以自动推理的方式进行问题求解或通过使用数量化方法将问题模型化，利用对数值模型的计算结果来进行决策支持。常玲慧^[4]通过建立决策知识模型辅助卫生应急决策。赵旭东等^[5]侧重对文本信息挖掘和分析辅助不良信息过滤。蒙杰等^[6]侧重通过对文本信息分析和比较辅助科研项目申报查重管理。朱青等^[7]通过对历史案件文本信息分析和辅助法院判决。这些研究都侧重于利用学习样本和历史数据进行问题求解而辅助决策，很少从用户决策偏好或特点进行辅助决策系统进行研究。【本研究切入点】通过研究党政机关领导决策特点，基于内容推荐和余弦相似度算法设计了由决策信息库、用户特征库、决策信息检索引擎、信息采集子系统、信息推送子系统组成的决策系统辅助领导决策，并在党政机关中进行了应用和验证。【拟解决的关键问题】在党政机关决策系统中应用基于内容推荐算法，构建信息特征矩阵和用户决策特征矩阵并设定权重，利用余弦相似度算法计算并推荐符合领导决策偏好的辅助决策信息。

1 基于内容的推荐算法

基于内容的推荐是指根据用户选择的对象，推荐其他类似属性的对象。这类算法源于一般的信息检索方法，不需要依据用户对对象的评价意见，常用于电子商务中商品推荐。对象使用通过特征提取方法得到的对象内容特征来表示，系统基于用户所选择对象的特征，学习用户的兴趣，从而考察用户资料与待预测对象相匹配的程度^[8-9]。原理上分为3个步骤：(1)为每个待推荐对象构建一个对象的属性资料; (2)为每个用户构建一个用户的偏好资料; (3)计算用户偏好资料与待推荐对象属性资料的相似度，相似度高意味着用户可能喜欢这个对象，相似度低往往意味着用户不喜欢这个对象。

2 余弦相似度算法

余弦相似度算法主要用于计算空间中两个向量的夹角的余弦值来度量它们之间的相似性。在空间中可把两向量(a和b)想象成空间中的两条线段(图 1)，都是从原点出发，指向不同的方向。两条向量间形成夹角，如果夹角为0°，意味着方向相同、线段重合；如果夹角为90°，意味着形成直角，方向完全不相似；如果夹角为180°，意味着方向正好相反。因此，我们可以通过夹角的大小，来判断向量的相似程度。夹角越小，就代表越相似^[10-11]。

图 1 余弦相似度算法向量示意图 Fig.1 Cosine similarity algorithm vector diagram

在二维空间中，根据向量点积公式，有如下公式:

$ \cos \theta = \frac{{a \cdot b}}{{\left\| a \right\|\left\| b \right\|}}。$

若向量a、b的坐标分别为(x₁，y₁)、(x₂，y₂), 则有：

$ \cos \theta = \frac{{{x_1}{x_2}{\rm{+}}{y_1}{y_2}}}{{\sqrt {x_1^2 + y_1^2} \times \sqrt {x_2^2 + y_2^2}}}。$

进一步的，对于向量A=(A₁，A₂，…，A_n)，B=(B₁，B₂，…，B_n)，推广到多维，有：

$ \cos \theta = \frac{{\sum\nolimits_1^n {\left( {{A_i} \times {B_i}} \right)}}}{{\sqrt {\sum\nolimits_1^n {A_i^2}} \times \sqrt {\sum\nolimits_1^n {B_i^2}}}}。$

余弦相似度常结合TF-IDF算法在文本分类、计算文本相似度等通过计算两向量夹角来判断两对象相似度的场景中应用。在本研究中，基于内容推荐算法构建了待推荐对象特征向量和用户偏好向量，可通过余弦相似度算法计算两向量相似性，并根据相似程度(余弦值大小)由高到低进行信息推荐。

3 领导决策辅助系统中的应用

本研究以广西党政机关的领导辅助信息系统为例。领导辅助信息系统包括2库1引擎2子系统，即决策信息库(信息特征矩阵)、用户特征库(用户特征矩阵)、决策信息检索引擎、决策信息采集子系统和决策信息推送子系统。

系统根据内容推荐算法构建信息特征矩阵和用户特征矩阵，利用检索引擎进行两矩阵相似度计算并推荐决策信息。系统运行过程如下(数据流图见图 2)：

图 2 系统数据流图 Fig.2 System data flow diagram

(1) 辅助决策工作人员根据领导决策偏好，利用决策信息采集子系统进行决策信息采集(信息来源一般为工作中撰写或从国家、地方参考资料中引用)。工作人员根据信息内容手工标注关键字并将信息录入决策信息库中。

(2) 领导在决策信息检索引擎中输入关键字进行辅助信息检索。

(3) 检索引擎记录领导操作记录和检索信息的特征，调整领导的用户决策特征矩阵，并将用户特征信息推送至信息采集子系统帮助工作人员了解领导决策偏好。

(4) 信息检索引擎利用余弦相似度算法计算每条信息特征与用户决策特征的相似度，并在信息推送子系统中按照相似度由高到低向领导推送辅助信息。

3.1 决策信息库(特征信息矩阵)

决策信息库包含特征信息矩阵，收集各类辅助决策信息，包括公文、项目管理信息、产业政策、经济分析报告、法律法规、业务管理、重大项目进展、专题报刊、宏观决策信息、参考资料等内容，各条信息通过人工方式标注关键字，并选取了“信息关键字、信息原创性、信息所属主题、信息涉及所属地”等作为信息特征进行量化、索引和存储，分别表示为s₁、s₂、s₃、s₄，信息特征矩阵表示为I=[s₁，s₂，s₃，s₄]，表结构见表 1。为更准确地反映各特征在检索过程中重要性的不同，为各特征值设定权值q，并可根据决策推荐偏好调整。在本研究系统案例中，关键字特征常数1，权值设定为1，其他特征权重根据决策偏好重要性进行设定，其中信息涉及所属地最高，主题次之，原创性最低。为此，系统设定各特征权重分别为1，1，2，3。

表 1 决策信息库表结构 Table 1 Structure of decision information database table

关键字特征值s₁：用于初步筛选和索引，其特征s₁值为常数1。

原创性特征值s₂：信息为原创时特征值为1，非原创时特征值为0。

信息所属主题特征值s₃：本研究中应用的党政机关系统中包含15个主题(权威信息、委内简介、规章制度、重要文件、产业政策、行政审批、业务管理、区情数据、经济运行、重大项目进展、发展规划、发改要报、桂经专报、能源发展、PPP专栏)，分别赋值1至15。主题特征可以根据业务需要随时增减。为避免特征分项过多，特征分项赋值过大时影响决策特征权重，需对特征分项值进行min-max标准化处理。min-max标准化处理后，对应特征分项值分别为0，0.07，0.14，0.21，0.29，0.36，0.43，0.5，0.57，0.64，0.71，0.79，0.86，0.93，1。

信息涉及所属地s₄：包含14个地市(南宁、柳州、桂林、梧州、北海、钦州、防城港、贵港、河池、玉林、贺州、来宾、百色、崇左)及自治区层面、国家层面、其他省市等17个分项，分别赋值1至17。min-max标准化处理后，对应特征分项值分别为0，0.08，0.15，0.23，0.31，0.38，0.46，0.54，0.62，0.69，0.77，0.85，0.92，1。

如原创信息“2017年南宁市国民经济运行分析报告”包含关键字“南宁”“经济运行”，信息涉及所属地为“南宁”，所属主题为“经济运行”，则其信息特征矩阵可表示为I=[1，1×1，0.57×2, 0×3]=[1，1，1.14，0]。

3.2 用户决策特征库(用户特征矩阵)

用户决策特征库(用户特征矩阵表)存储各用户检索偏好特征信息，表结构见表 2。系统中用户特征矩阵和信息特征矩阵具有同样维度，矩阵表示U=[s₁^′，s₂^′，s₃^′，s₄^′]，其中s₁^′为用户关键字特征值，s₂^′为用户原创性特征值，s₃^′为用户主题特征值，s₄^′为用户地区特征值。

表 2 用户特征表结构 Table 2 Structure of user feature table

用户关键字特征值s₁^′按照关键字字数匹配度和关键字权重的乘积计算，如关键字“南宁”与“南宁”“经济运行”匹配了1组关键字，相似程度为匹配关键字数/信息关键字总数=1/2=0.5，此时s₁^′为0.5。

其他特征值(s₂^′，s₃^′，s₄^′)以对应特征中用户日常检索次数最多的分项值与对应特征权值乘积计算。公式如下：

$ \begin{array}{l} \max P\left( {{s_{ji}}} \right) = \max \frac{{{n_{ji}}}}{m}, \\ {{s'}_j} = {s_{ji}} \times {q_j}。\end{array} $

其中j为第j个特征，i为第j个特征中的第i个分项值，m为用户的检索次数，n_ji表示第j个特征第i个分项的检索次数，q_j为第j个特征的权值，s_ji表示第j个特征值的第i个分项值，P(s_ji)表示第j个特征的第i个分项值检索概率。如用户在以往检索中查阅原创性信息3次，非原创性信息1次，s₂^′=1；查阅“经济运行”主题4次，s₃^′=0.57；查阅“南宁”地区信息3次，“北海”地区信息1次，s₄^′=0；则矩阵表示为U=[1，1×1, 0.57×2, 0×3]=[1，1，1.14，0]。

3.3 决策信息检索引擎

提供领导提问接口，基于内容推荐算法和余弦相似度函数，按信息特征和决策偏好特征优先向领导推送符合其关注重点和决策习惯的辅助决策信息，记录、统计和分析领导关注的重点和决策习惯。

3.3.1 基于余弦相似度的决策信息推荐过程

用户以关键字k进行决策信息检索时，先在数据库中匹配所有包含关键字k的信息，获得信息集合K。利用余弦相似度公式来计算用户U和集合K中各信息I之间的距离。遍历计算待推荐信息和用户特征相似性，并按照相似性由高到低进行排序向用户推荐。余弦相似度的值越大说明U越有可能喜欢I，该信息越优先推荐。

余弦相似度的具体计算方法如下：

$ \cos \left( {U, I} \right) = \frac{{\sum\nolimits_i^n {\left( {{U_a} \times {I_a}} \right)}}}{{\sqrt {\sum\nolimits_1^n {U_a^2}} \times \sqrt {\sum\nolimits_1^n {I_a^2}}}}, $

U_a表示用户第a项特征值，I_a表示信息第a项特征值。

推荐过程算法如下：

Class Vector {float S1, S2, S3, S4;} //定义特征向量，包括S1, S2, S3, S4向量

Class Info {//定义信息

Vector vector; //信息特征向量

float cosValue; //特征余弦相似度(余弦值)

}

List＜Info＞K=Search(k); //在数据库中匹配所有包含关键字k的信息，获得信息集合K

Foreach(info in K)

info.cosValue=cos(user.vector, info.vector); //计算集合K中user特征向量和信息info特征向量的余弦相似度

Sort(K, Info.cosValue); //按照余弦相似度对集合K排序

3.3.2 信息检索操作记录

用户在进行关键字检索或点击主题模块查阅决策信息时，系统自动将领导的操作记录在检索操作日志表中，包括关键字、检索时间、查阅信息特征等信息，表结构见表 3。领导的操作信息在系统后台自动进行重新计算，调整用户特征矩阵，并将领导的操作特征信息推送至信息采集子系统。辅助决策工作人员可及时获知领导用户操作习惯和所关心的决策信息，并开展信息采集补充工作。

表 3 检索操作日志表结构 Table 3 Structure of search log table

3.4 决策信息采集子系统

实现决策信息录入、编辑、更新、删除等管理功能(图 3)。提供领导关注点分析控制台，自动向信息采集员推送各领导近期所关心的问题和操作统计信息。网络爬虫以领导的问题为导向，自动从各信息库和网络上爬取相关信息，信息采集员对收集的信息二次加工，并将信息标注关键字、划分主题和归类补充进入决策信息库^[12]。

图 3 决策信息采集子系统界面 Fig.3 Interface of decision information collection subsystem

3.5 决策信息推送子系统

将决策信息库内的决策信息按主题推送至领导操作查阅界面，同时提供决策信息搜索界面，供领导模糊查询和检索(图 4)。领导用户输入关键字进行检索时，推送子系统利用检索引擎对决策信息库进行检索查询，并向领导推送决策辅助信息。领导用户也可以根据已分类的主题点击查看已整理好的决策信息(图 5)。

图 4 信息搜索、推送界面 Fig.4 Information search and push interface

图 5 信息分类查询界面 Fig.5 Interface of information classification query

4 实例验证 4.1 辅助决策信息数据来源

本研究进行实例研究的数据来自于广西某党政机关辅助决策系统，除去敏感文件，信息数据共754条。这些信息由机关工作人员在工作中撰写或引用国家、地市有关工作资料整理而成，部分数据见表 4。

表 4 辅助决策信息表(部分) Table 4 Assisting decision information table (part)

4.2 领导决策偏好特征构建

系统自动将领导每次检索或查阅信息的特征信息记录在检索操作日志表中，根据信息特征自动计算和调整用户特征矩阵。假设领导进行了15次检索和查阅，其中检索和查阅的信息原创性特征中原创9次、非原创性6次，主题特征中发改要报8次、经济运行4次，地区特征中自治区层面10次、南宁3次、北海2次，本研究所述方法，计算出决策偏好为“原创、发改要报、自治区层面”。系统中的浏览和检索次数记录为：用户编号1，用原创性特征值s₂^′=1，用户主题特征值s₃^′=0.79×2=1.58，用户地区特征值=0.875×3=2.625。

4.3 余弦相似度计算结果和排序推荐

假设领导以“十三五”为关键字进行检索。系统结合信息特征值和余弦相似度计算，在754条辅助信息中筛选出了30条包含“十三五”关键字的信息。系统根据关键字、信息原创性、主题、地区等属性自动标注特征值s₁、s₂、s₃、s₄，并通过余弦相似度算法计算用户决策特征矩阵和各信息特征矩阵的相似度，按从大到小排列。推荐结果前6条信息结果见表 5。

表 5 推荐信息表(部分) Table 5 Recommended information table(part)

4.4 结果分析

通过对结果信息观察，ID为64, 65的余弦相似度为1，原创性：原创, 主题：发改要报, 地区：自治区层面，对应s₁、s₂、s₃、s₄, 特征值分别为0.33, 1, 0.79, 0.875 0，与假设的领导用户决策偏好完全一致，优先推荐。

ID为93、112的信息，s₁、s₂、s₃、s₄特征值及余弦相似度结果分别为0.33, 1, 0.79, 0.937 5, 0.999 5和0.33, 1, 0.71, 0.875 0, 0.999 0，与ID64, 65的信息在主题和地区上有差异，且ID112相较ID93的信息偏差更大。按照余弦相似度计算，ID112排在ID93之后，符合优先推荐与领导用户决策偏好相近的原则。

5 结论

与前人研究^[1-7]的决策辅助过程关注点不同，本研究基于内容推荐和余弦推荐算法，注重根据领导决策偏好和特点进行辅助信息检索和推荐，将算法结合党政机关决策辅助信息检索应用场景，把辅助信息进行特征量化，以用户检索的关键字及其他信息为用户特征，基于余弦相似度算法对辅助信息进行检索、排序和推荐，创新地研发了符合党政机关决策特点的决策辅助系统。经过实例检验，验证了基于用户决策偏好特点的计算机辅助决策方法。辅助决策结果具有较高的准确性。同时，系统帮助辅助决策人和信息采集员及时了解领导需求，迅速收集整理决策辅助信息供领导查阅和参考，增强了用户体验，开辟了党政机关决策辅助系统设计建设的新思路。

由于本研究研究实践应用深度有限，系统还在许多方面可进一步完善。如在信息关键词方面可应用TF-IDF算法进行分词和特征词提取并辅助关键词标注^[13-14]；在用户特征矩阵建立过程中，用户存在第一偏好和第二偏好，甚至是并列偏好的可能性，本研究只考虑了第一偏好的辅助决策。同时由于提供研究数据的粗糙性，余弦相似度算法会因信息特征值设定的不同而导致推荐结果的不同，以上的不足可在今后的研发过程中可进一步改进。

参考文献

[1]	张伟. 智能决策支持系统(IDSS)研究综述[J]. 现代商贸工业, 2009, 21(14): 252-253. ZHANG W. An overview of the research on intelligent decision support system(IDSS)[J]. Modern Business Trade Industry, 2009, 21(14): 252-253. DOI:10.3969/j.issn.1672-3198.2009.14.135

[2]	白玥. 云计算条件下IDSS的发展现状及发展趋势[J]. 大科技, 2015, 18: 208. BAI Y. Development status and development trend of IDSS under cloud computing[J]. Super Science, 2015, 18: 208.

[3]	许海玲, 吴潇, 李晓东, 等. 互联网推荐系统比较研究[J]. 软件学报, 2009, 20(2): 350-362. XU H L, WU X, LI X D, et al. Comparison study of internet recommednation system[J]. Journal of Software, 2009, 20(2): 350-362.

[4]	常玲慧. 知识管理在突发公共卫生事件应急决策系统中的应用研究——以山西省为例[D]. 太原: 太原理工大学, 2013. CHANG L H. Application research on knowledge management in public health emergency decision support system taking Shanxi Province as an example[D]. Taiyuan: Taiyuan University of Technology, 2013. http://cdmd.cnki.com.cn/Article/CDMD-10112-1013355311.htm

[5]	赵旭东, 亚森·艾则孜. 基于互信息和余弦相似度的维吾尔文不良文档信息过滤方案[J]. 电子设计工程, 2016, 24(16): 109-112. ZHAO X D, YASEN A. A uyghur bad text information filtering scheme based on mutual information and cosine similarity[J]. Electronic Design Engineering, 2016, 24(16): 109-112. DOI:10.3969/j.issn.1674-6236.2016.16.034

[6]	蒙杰, 杨生举, 施韶亭. 基于文本挖掘的科研项目管理辅助决策系统研究与实现[J]. 计算机应用与软件, 2016, 33(9): 24-26, 55. MENG J, YANG S J, SHI S T. Study and implementation of text mining-based asistant decision support system for scientific research project management[J]. Computer Applications and Software, 2016, 33(9): 24-26, 55.

[7]	朱青, 卫柯臻, 丁兰琳, 等. 基于文本挖掘和自动分类的法院裁判决策支持系统设计[J]. 中国管理科学, 2018, 26(1): 170-178. ZHU Q, WEI K Z, DING L L, et al. Design of court decision support system based on text mining and automatic classification[J]. Chinese Journal of Management Science, 2018, 26(1): 170-178.

[8]	刘明昌. 基于内容的推荐技术研究[J]. 现代营销, 2016, 6: 243. LIU M C. Research on content based recommendation technology[J]. Marketing Management Review, 2016, 6: 243. DOI:10.3969/j.issn.1009-2994.2016.06.186

[9]	杨武, 唐瑞, 卢玲. 基于内容的推荐与协同过滤融合的新闻推荐方法[J]. 计算机应用, 2016, 36(2): 414-418. YANG W, TANG R, LU L. News recommendation method by fusion of content-based recommendation and collaborative filtering[J]. Journal of Computer Applications, 2016, 36(2): 414-418. DOI:10.11772/j.issn.1001-9081.2016.02.0414

[10]	刘冰, 李文书. 基于余弦相似度的指纹匹配算法的室内定位方法[J]. 科技通报, 2017, 33(3): 198-202. LIU B, LI W S. Indoor positioning method based on cosine similarity of fingerprint matching algorithm[J]. Bulletin of Science and Technology, 2017, 33(3): 198-202.

[11]	李梦洁, 邵曦. 基于文本属性的微博用户相似度研究[J]. 计算机技术与发展, 2018, 5. http://kns.cnki.net/kcms/detail/61.1450.TP.20180207.1917.082.html LI M J, SHAO X. Research of micro-blog user similarity based on text similarity[J]. Computer Technology and Development, 2018, 05. http://kns.cnki.net/kcms/detail/61.1450.TP.20180207.1917.082.html

[12]	乔峰. 基于模板化网络爬虫技术的Web网页信息抽取[D]. 成都: 电子科技大学, 2012. QIAO F. Web page information extraction based on formwork web crawler technology[D]. Chengdu: University of Electronic Science and Technology of China, 2012. http://www.wanfangdata.com.cn/details/detail.do?_type=degree&id=D764029

[13]	武永亮, 赵书良, 李长镜, 等. 基于TF-IDF和余弦相似度的文本分类方法[J]. 中文信息学报, 2017, 31(5): 138-145. WU Y L, ZHAO S L, LI C J, et al. Text classification method based on TF-IDF and cosine similarity[J]. Journal of Chinese Information Processing, 2017, 31(5): 138-145.

[14]	董洋溢, 李伟华, 于会. 基于混合余弦相似度的中文文本层次关系挖掘[J]. 计算机应用研究, 2017, 34(5): 1406-1409. DONG Y Y, LI W H, YU H. Hierarchical relation mining of Chinese text based on mixed cosine similarity[J]. Application Research of Computers, 2017, 34(5): 1406-1409.


广西科学院学报 2018, Vol. 34 Issue (2): 143-150	PDF