- ISBN:9787030689603
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:114
- 出版时间:2021-08-01
- 条形码:9787030689603 ; 978-7-03-068960-3
本书特色
本期《信息系统学报》为总第25辑,共收录7篇研究论文和2篇领域综述。
内容简介
《信息系统学报》是我国信息系统科学研究领域内专享的专门学术出版物,被信息系统协会中国分会指定为会刊。《信息系统学报》倡导学术研究的科学精神和规范方法,鼓励对信息系统与信息管理领域中的理论和应用问题进行原创性探讨和研究,旨在发表信息系统研究领域中应用科学严谨的方法论、具有思想性与创新性的研究成果。本书内容包括相关的理论、方法、应用经验等方面,涵盖信息系统各个研究领域,注重结合我国国情进行探讨,从而对我国和世界信息系统的研究与应用做出贡献。 《信息系统学报》主要面向信息系统领域的研究人员,其作为我国信息系统领域学术研究探索与发展的重要主流平台,为相关研究工作创造了一个友好而广阔的交流空间,推动着我国信息系统研究、应用及学科建设不断前进。 本期是《信息系统学报》第25辑,共收录9篇论文。
目录
(第25辑)
目录
主编的话 XI
研究论文
基于HNC理论的问答社区中答案摘要生成研究/王宇,王芳 1
基于用户评论信息抽取的电商问答研究/胡志强,钱宇,袁华,汪子牧 13
用户知识付费参与决策的三类信息作用机制研究/苗虹,赵冰洁,王念新,葛世伦 26
共享时代地域已无足轻重?技能共享地域门槛机制研究/洪志娟,董坤祥,陈阳阳 39
母婴论坛中备孕女性信息需求研究/姚志臻,张斌,钱宇星 56
在线健康社区中慢性病用户知识采纳行为研究/杨雪洁,顾东晓,梁昌勇,马一鸣 67
基于命名实体识别和图嵌入技术的脑血管疾病相似病历研究/秦秋莉,郭煜,赵爽,姜勇 77
契合类型对善因营销信息分享意愿的影响研究——基于相似性双渠道加工模型/霍佳乐,颜清,蒋玉石,王钰灵 94
学科建设
数字化转型背景下的信息管理与信息系统类学科建设/程絮森,颜志军,左美云 108
审稿专家 112
China Journal of Information Systems
(Issue 25)
CONTENTS
EDITORS’ NOTES XI
ARTICLES
Research on Answer Summary Generation in Q&A Community Based on the HNC Theory/WANG Yu,WANG Fang 1
Research on E-Commerce Q&A Based on User Comment Information Extraction/HU Zhiqiang,QIAN Yu,YUAN Hua,WANG Zimu 13
Study on the Action Mechanism Among the Three Types of Information for Users’ Knowledge Payment Decision/MIAO Hong,ZHAO Bingjie,WANG Nianxin,GE Shilun 26
Does Location Still Matter in the Era of Sharing Economy? Study on Location Threshold Mechanism in Skill Sharing Markets/HONG Zhijuan,DONG Kunxiang,CHEN Yangyang 39
Research on the Information Needs Expressed on Maternal-Fetal Forum by Women Who Plan for Pregnancy/YAO Zhizhen,ZHANG Bin,QIAN Yuxing 56
Exploring Factors Affecting Knowledge Adoption of Chronic Disease Users in Online Health Community/YANG Xuejie,GU Dongxiao,LIANG Changyong,MA Yiming 67
Research on Similar Medical Records of Cerebrovascular Diseases with Named Entity Recognition and Graph Embedding Technology/QIN Qiuli,GUO Yu,ZHAO Shuang,JIANG Yong 77
The Influences of Type of Fit on Information Sharing Intention in Cause-Related Marketing:Based on the Dual-Process of Similarity/HUO Jiale,YAN Qing,JIANG Yushi,WANG Yuling 94
DISCIPLINE
The Construction of Information Management and Information System and Related Discipline in the Context of Digital Transformation/CHENG Xusen,YAN Zhijun,ZUO Meiyun 108
PEER REVIEWERS 112
节选
基于HNC理论的问答社区中答案摘要生成研究 王宇,王芳 (大连理工大学经济管理学院,辽宁大连116024) 摘要针对问答社区中意见型问题答案文本情感突出的情况,首先提出一种补全未收录词HNC符号的方式,然后利用HNC理论的相关规律进行情感词的定位和情感值计算,进而利用情感值对答案句子进行聚类,生成积极、消极和中性三类情感句子类簇,*后提出基于*佳答案模板的相似度排序算法,抽取出3类情感答案摘要。实验证明,本文提出的方法在实例中的应用与人工生成的*佳摘要更为接近,尤其在摘要可读性、逻辑性方面比其他方法更具优势。 关键词问答社区,答案摘要,HNC理论,情感值计算,*佳答案模板 中图分类号 G203 1 引言 随着Web技术的推广,普通网民成为博客、微博、论坛、问答等在线社区的用户,以外文社区的Quora、Yahoo! Answers和中文社区的百度、知乎为代表的在线问答社区已拥有大量用户和海量问答对,在线问答社区可以帮助用户解决相关问题或获取专业知识。问答社区中提问与回答的文本数据属于用户生成内容(user-generated content,UGC),大量的用户自定义提问与回答导致社区中存在着文本冗余、噪声多、可信度低等问题[1,2]。针对热门问题,用户给出的答案数很多,但在“短文本”时代,用户在一个问题和答案界面的停留时间越来越短,没有时间和耐心阅读完所有答案。Liu等通过统计发现国外Yahoo!Answers社区中大部分类别下开放、意见型问题占比在56%以上[3]。这类问题的用户讨论热度高,看法、评论角度多样,用户在有限时间内对一个意见型问题的所有答案形成全面清晰的认知十分困难,提炼出这类问题的情感摘要可以方便社区用户查看,便捷地了解其他用户针对某个话题的看法,同时对把握社区用户群体的情感属性与掌握网络舆情也具有重要意义。 为此,学者们提出生成答案情感摘要的解决方案。Liu等提出对答案文本进行自下而上的聚类,然后利用情感词典判断问题和答案句子的情感极性,利用互信息获得每个类簇中的关键句子并排序,*终获得答案摘要[3]。徐振将一个问题下的多个答案文本分别生成情感为支持、反对和中立的三类答案摘要,然后构建主题词打分函数,*后利用组合优化算法抽取高质量的句子形成摘要[4]。而S. Li和Z. Li构建词语层次结构,建立图模型,根据随机游走算法获得的顶点权重大小抽取答案中的句子构成摘要[5]。 传统的方法主要通过大量的特征(包括情感词典、词性特征等)[6]进行情感分析,近年来基于深度学习的方法也被广泛应用到情感摘要分析中。H. Nguyen和M. L. Nguyen提出了一种基于词典的深度学习方法,通过构建语义规则,利用深度卷积网络提取词语的情感信息,*后通过双向长短时记忆(Bi-LSTM)网络学习句子的情感特征[7]。Wang等通过建立评论与特征词间的联系,提出利用基于注意力机制的LSTM(long short-term memory,长短时记忆)神经网络方法进行分析,提升了情感分类的性能[8]。Tang等提出了一种基于记忆网络的深度神经网络,通过多层基于注意力机制的计算层强化属性与评论之间的语义关系,为每一个词语的上下文相关词语学习到一个权重,极大地提升了对词语进行情感判断的性能[9]。但是针对问答社区没有标准语料且未收录词较多的特点,基于深度学习的方法并不适合,故本文提出基于HNC知识库对答案文本的情感倾向进行计算的方式。 问答社区的答案摘要工作除抽取摘要句子外,还要对抽取出的答案句子进行排序,以保证生成摘要的可读性。Lapata提出一种非监督的概率排序方法[10]。Bollegala等利用有监督的机器学习方法,从已有的人工句子排序中学习特征,用贪婪算法得到*佳排序方法[11]。康世泽等通过时间、概率、主题相似性等文本特征定义摘要句子之间的连接强度,在此基础上提出利用马尔科夫随机游走模型对句子进行排序的方法[12]。但以上方法没有考虑文本句子中*重要的深层次语义及情感信息,且机器学习方法是针对不同领域的文本,训练语料库所需的人工工作量很大。 针对问答社区中广泛存在的文本简短、稀疏、语义模糊以及网络新词未收录等问题,已经有许多通过引入外部语料库的方式来解决相关问题的研究。文献[13]从维基百科文章中选出排名*靠前的三篇文章中*中心的句子,对一个问题下的每一个答案句子进行扩充。文献[14]借助标签传播算法生成HNC词语知识库[15]中新词的HNC符号,进而利用HNC词语相似度计算方法[16]和云模型构建了语义和情感的句子相似度计算方法,实现了对问答社区的答案排序,但该文在计算答案文本语义情感相似度时,所使用的标签传播算法只适用于一个问题下存在大量回答文本的情形,在实际问题中这一点很难保证。文献[17]从已有的HNC知识库和符号的生成规律入手,提出一种新词情感值计算的方法,但该方法还未实现对新词的自动识别和处理,新词的加入需采用人工标注的方式。 问答社区中有许多意见型问题答案文本,这类文本的特点是用词不规范,内含许多新兴词语未被收录,且具有比较明显的情感倾向。HNC理论可以利用概念符号体系对新词进行有效的补充,并且根据概念符号迅速进行情感词定位及情感值计算,不需要借助大量语料库进行训练,这是HNC理论的优势所在。因此,为了让用户更迅速全面地对问答社区中意见型问题进行了解,本文针对意见型问题答案文本的特点提出一种答案摘要生成方法。首先在文献[17]的基础上,借助中文近义词包,提出一种解决HNC知识库中未收录词的处理方法,并利用HNC符号的生成规律进行答案句子情感词的定位和情感值计算;然后利用情感值对答案句子进行聚类,生成积极、消极和中性三类情感句子类簇;*后根据摘要字数限制,利用*佳答案模板根据相似度大小对类簇句子进行内部的重新排序,生成三个情感倾向不同的摘要。 2 基于HNC理论的答案情感词定位及情感值计算 为了从答案文本中准确识别出情感词并进行情感值的计算,首先根据中文中表示句子末尾的标点符号及空格将答案文本分句,然后对答案句子进行过滤。由于问答社区中收获关注度较高的答案大都具有格式规范、描述详尽等特点,一般字数低于5的答案句子所含有用信息较少,且本文通过提取答案句子的方式生成摘要,为了保证答案摘要的质量及可读性,这里将字数低于5的句子过滤掉。*后再利用ICTCLAS分词系统对答案句子进行分词及未收录词处理。 2.1 HNC库中未收录词处理 HNC由中国科学院黄曾阳先生创立,是面向整个自然语言的理论体系[18]。词汇概念是HNC理论的局部联想脉络体系,该体系把词汇概念分为抽象概念和具体概念,其中抽象概念从外部特征五元组和内涵语义网络两方面描述[19]。HNC知识库[15,20]从词语本身的语义出发,对每个词语赋予一个HNC符号。HNC符号由概念基元(即概念内涵)、概念类别符号(即语义网络层次符号)、概念外部特征符号(即五元组符号)和组合符号等四部分组成,把词义之间的概念关联显式地表达出来,为计算机提供了理解处理的基本依托。 在处理实际问题时,并不是所有的词语都能与HNC知识库中已收录的词语进行顺利匹配,这是因为在当前复杂的网络环境下,网络新词出现的速度远远高于人工进行词典收录的速度。 文献[17]提出了一种人工补全未收录词HNC符号的方式,但是问答社区中无法直接映射到HNC字词库的网络新词数量非常多,使用人工补全方法效率较低,故本节提出一种利用中文近义词包Synonyms自动补全未收录词HNC符号的方式,给定一个未收录词,可以利用该近义词包输出与未收录词语义相似的词语及其对应的相似程度,目前该近义词包已经收录了125792个词语及其相似词语。下面介绍利用该近义词包补全未收录词HNC符号的具体操作。 Step1:给定一个未收录词w,利用Synonyms输出该词对应的相似度排名前十的词语及其相似度值; Step2:对于w对应的排名前十的近义词,按照相似度由高到低的顺序查找词语是否被收录在HNC字词库中,若被收录,则返回该词对应的HNC符号,若未被收录,则返回空值; Step3:重复前两个步骤,直至未收录词集合中的所有词语被遍历一次; Step4:输出通过查找近义词对应HNC符号对未收录词补全后的词表,通过人工判定确定相似度阈值,对于大于阈值的符号进行保留,小于阈值的符号则舍去。 邀请三位同学为上述方法设置合理的相似度阈值,通过求平均值的方式设定阈值为0.62。在包含691137个问答对的知乎数据集上使用该方法找到了21784个未收录词对应的HNC符号,通过阈值的设定,*终保留了10730个词语的映射符号,随机抽取三组未收录词的HNC符号验证该方法的准确率,每组中包含50个未收录词,各组准确率如表1所示。 表1 补全未收录词HNC符号的准确率 三组实验准确率的平均值为0.76,其中,被判定为未正确进行近义词符号映射的主要为以下两种情况。 (1)将未收录词映射为HNC词库中的反义词,如将“未成年”映射为“成年”,“成年”对应的符号为“g10bc54”,“未成年”所包含的“幼年”“少年”“青年”对应的符号分别为“g10bc51”“g10bc52”“g10bc53”,虽然词义相反却含有相同的概念节点,可以迅速将未收录词映射为正确的HNC符号。 (2)将未收录词映射为HNC词库中的相关词,如将“乔布斯”映射为“苹果电脑”,将“湖南卫视”映射为“央视”,这种情况可以将原本不在词库中的词语映射为含义相近的词语。 以上两种情况对未收录词的HNC符号补全及后续语义情感值计算均会起到积极的作用。将本文提出的方法与文献[17]提出的利用人工补全的方法进行对比,如“神器”这个未收录词,百度汉语将其解释为“帝王的印玺,借指帝位、国家权力”,而百度百科下面该词条则有21个义项,人工补全符号将耗费很大精力,依据本文方法给出的近义词是“宝物”,放在原来的语境里也解释得通,形容某一个软件好用,可以说该软件是个神器(宝物)。综上,本文提出的方法可以在保证准确率的同时节省大量人力成本,效率较以往完全依赖人工补全未收录词HNC符号的方法有了一定提高。 2.2 情感词的定位 情感词的定位可以利用HNC符号的相关规律进行。在HNC理论中,情感的概念层次符号为“713”,可以直接通过检索HNC知识库,判断其概念类别是否属于“情感”大类“713”。在五元组的v、g、u、z、r符号类别中,符号“u”表述“属性”,可以先通过判别某一词语的五元组符号是否包含“u”来预估该词语是否可能为情感词。对于这类情感词,还需进行对偶型概念的检验。 对偶型概念的HNC符号在编码结构上有如下规律[21]:如果结尾数字m在1~3范围内,则1、2、3分别表示褒义、贬义、中性三种含义;如果结尾数字m在5~7范围内,则5、6、7分别表示褒义、贬义、中性三种含义。 情感词定位的具体流程:依次遍历每个词语的HNC符号,首先判断HNC符号是否包含“713”这个“情感”大类的类别符号,若包含则属于**类情感词;若不包含则需再判断该词的五元组符号中是否包含字母“u”,如果不包含,则直接判定该词不属于任何一类情感词;如果包含,还需再判断该词是否具有对偶性,如果有则判定该词属于第二类情感词,否则不纳入情感词集合。 在对答案句子进行情感分析的过程中,情感词仅仅决定了答案句子的情感基调,在情感基调的基础上,*终的情感倾向性将如何变化取决于修饰情感词的情感极性词。 情感极性词主要分为以下两类。 (1)表达情感强弱的程度副词。在HNC知识库中,概念节点“j60”表示“度的基本内涵”,即与程度表达有关的词语全部与该概念节点相关联。该节点下有三组概念:**组概念“j60c4m
-
内向者的沟通课
¥20.6¥42.0 -
富爸爸穷爸爸
¥31.2¥89.0 -
学理:像理科大师一样思考
¥28.2¥48.0 -
底层逻辑:看清这个世界的底牌
¥61.4¥69.0 -
畅销的原理:为什么好观念、好产品会一炮而红?(八品)
¥13.5¥45.0 -
以利为利:财政关系与地方政府行为
¥60.1¥78.0 -
投资人和你想的不一样
¥20.8¥65.0 -
文案高手
¥18.7¥36.0 -
麦肯锡高效工作法(八品)
¥19.2¥52.0 -
逆势突围
¥18.4¥68.0 -
麦肯锡底层领导力/(英)克劳迪奥·费泽,(英)迈克尔·伦尼,(英)尼古莱·陈·尼尔森
¥37.4¥68.0 -
麦肯锡逻辑思考法
¥32.8¥49.8 -
鹤老师说经济:揭开财富自由的底层逻辑
¥26.7¥65.0 -
学会提问
¥46.9¥69.0 -
事实
¥38.0¥69.0 -
领导学全书柯维领导培训中心
¥18.4¥68.0 -
沃顿商学院最受欢迎的谈判课
¥18.6¥69.0 -
央企真相
¥23.8¥58.0 -
故事力法则
¥14.4¥48.0 -
黑天鹅:如何应对不可预知的未来
¥41.4¥69.0