“知识组织” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部

Please wait a minute...
  • 全选
    |
  • 知识组织
    王巍洁, 任慧玲, 李晓瑛, 王勖, 张颖
    图书情报工作. 2024, 68(6): 119-128. https://doi.org/10.13266/j.issn.0252-3116.2024.06.011
    [目的/意义] 为提高机器理解医学文本的能力,提高医学自然语言处理等上层任务效果,保障医学知识内容更新及时性、覆盖完整性,提出一种融合汉字多语义信息与文本统计特征的医学新词发现方法。[方法/过程] 以规范用词的医学文献摘要数据为新词发现来源,基于N-gram模型获取N元词串,将词串存入字典树,从词的内部凝固度、词的自由程度、词的语义相似度3个角度同时计算每个N-gram词串的关联置信度、左右邻接熵、多语义相似度(包括汉字细粒度字符语义信息、BERT词向量信息),遍历上述各指标阈值评估N-gram词串为医学新词的可能。[结果/结论] 从中华医学会收录的截至2022年10月20日的最新1 000篇文摘中发现医学新词3 263个,去除重复项后,共获得764个医学新词。提出的融合汉字多语义与文本统计特征的医学新词发现方法对比现有方法具有一定提升,且在应用上可以有效提高医学分词任务效果,使医学分词后的名词类别更清晰、概念更明确、内涵更丰富。结合汉字内在多语义信息与字词外部统计特征的医学新词发现方法,不仅可以提高计算机的新词发现能力,还可提高计算机面对专业且复杂的医学文本自然语言处理效果,对及时更新领域知识内容等具有重要帮助。
  • 知识组织
    孟旭阳, 陈阳, 白海燕
    图书情报工作. 2024, 68(6): 129-141. https://doi.org/10.13266/j.issn.0252-3116.2024.06.012
    [目的/意义] 在学术文献检索与阅读场景下,当前学术信息量已远超用户信息处理能力,造成信息堆积。为应对用户阅读效率与知识吸收难题,面向学术文献检索结果集开展内容的综合挖掘揭示。[方法/过程] 一方面从阅读体验出发,针对文献检索场景的特点,进行结构化综述表达设计;另一方面从技术方法与内容质量提升出发,利用基于深度学习的文本自动生成技术,构建科技文献数据集,训练并优化文本摘要模型,在此基础上利用大语言模型技术实现结构化的综述文本生成。[结果/结论] 训练优化后的摘要模型在各指标的召回率和F1值上平均增长2.07%。基于大模型的结构化综述生成,在实际测评中能够有效地提炼、总结和归纳内容要点,验证本文技术路线和应用实践的可行性,为进一步提升学术文献的知识化服务水平、智能辅助阅读与语义内容综合挖掘揭示等方面提供应用实践指南。
  • 知识组织
    林立涛, 吴梦成, 刘畅, 胡蝶, 王东波, 黄水清
    图书情报工作. 2024, 68(5): 121-131. https://doi.org/10.13266/j.issn.0252-3116.2024.05.012
    [目的/意义]网络学术社区中的用户生成答案质量良莠不齐,难以为用户提供高效的决策支持,筛选高可用性答案能够促进网络学术社区问答知识的高效利用。[方法/过程]从文本主题语义视角出发,提出一种基于深度预训练语言模型和多标签分类技术的问答相关性计算方法,用于实现对网络学术社区用户答案的有用性排序。该方法首先提取问题文本和答案文本的语义向量,然后进一步将其映射到领域化的主题向量空间,从而实现对问题和答案主题相似度的计算。[结果/结论]以“小木虫”学术社区论文投稿板块“求助完结”栏目下的所有提问及每条提问下的全部答案为实验数据,以NDCG、Q-Measure为评测指标,将本文方法与Cross-Encoder和Bi-Encoder两种基于语义的常规排序方法进行比较,发现本文方法与常规方法性能相当,但是对标注数据的需求更少。
  • 知识组织
    张卫, 王昊, 王东波, 裘靖文, 李晓敏, 邓三鸿
    图书情报工作. 2024, 68(4): 109-123. https://doi.org/10.13266/j.issn.0252-3116.2024.04.009
    [目的/意义]古诗是我国古典文学的宝贵遗产,从语义关联的视角对领域信息资源中显性知识(人物、时间、地点等)、隐喻知识(物象、情感等)以及用于解释隐喻文化背景的文化图式进行语义组织,对于新时代下我国文脉的内涵式传承与认知服务具有重要意义。[方法/过程]提出基于知识本体的隐喻知识及其文化图式组织模型。从古诗的物象与情感概念切入,剖析物象与意象隐喻知识的概念内涵与作用机制;对古诗文本进行特征解析以归纳核心的元数据,以构建融合显性与隐喻概念的古诗知识本体;获取领域显性与隐喻知识构建古诗知识图谱进而开展图谱解析。采取语义推理逻辑从图谱三元组数据中发掘古诗隐喻文化图式;将文化图式的图谱数据作为古诗表示特征进行计算,从族性和特性的角度探索古诗分类编目和个性化推荐等知识服务应用。[结果/结论]所构建的古诗知识本体能够从语言层面和诗人心理层面对隐喻知识及其文化图式进行有效知识组织,真正实现从语言、语义、情感及隐喻等层面对古诗进行知识挖掘与数据关联,以提升读者对古诗文化的感知、理解与认知能力。
  • 知识组织
    席运江, 李曼, 邓雨珊, 廖晓, 邝云英
    图书情报工作. 2024, 68(4): 124-136. https://doi.org/10.13266/j.issn.0252-3116.2024.04.010
    [目的/意义]为有效抽取在线医疗社区问答文本中包含的医疗知识,综合利用多种深度学习方法,有针对性地设计一套知识图谱构建方法,以应对其口语化、噪声多、规范性差的文本特性给知识抽取带来的巨大挑战。[方法/过程]以寻医问药网糖尿病相关问答文本为数据源,结合对社区用户健康需求的分析,定义适合社区文本的实体和关系类型。使用BERT-wwm进行词嵌入以解决一词多义问题,通过BiLSTM-CRF模型进行实体识别。在关系标注时,设计一种实体遮蔽(entity mask)方式以解决关系重叠问题,而后使用CNN-Attention模型进行关系抽取。最后综合使用词典匹配和实体名称相似度进行实体对齐,并使用Neo4j图数据库存储和可视化得到的糖尿病知识图谱。[结果/结论]实验结果显示上述方法能够大幅提升对在线医疗社区问答文本的知识抽取效果,有效将非结构化的社区医疗问答文本转化为结构化的数据,对于社区知识发现、在线智能健康服务等方面具有推动作用。
  • 知识组织
    王娟, 曹树金, 王志红, 彭碧涛
    图书情报工作. 2024, 68(3): 105-116. https://doi.org/10.13266/j.issn.0252-3116.2024.03.010
    [目的/意义] 特定领域中的信息检索系统,往往因为用户自身领域知识不足存在检索效率低下的问题。现有的面向特定领域的知识组织工具,如领域知识图谱,可以有效缓解这一问题,但是如何将其更好地嵌入到现有信息检索系统中是目前尚未解决的问题。因此,提出一套基于领域知识图谱的探索式搜索系统的全流程解决方案,包括从实体及关系的联合抽取、领域知识图谱构建到探索式搜索系统的实现。[方法/过程] 以图情领域学术文献为研究对象,对图情领域的实体及其间关系的形式化定义进行深入的探索、提出基于Paddle UIE实现实体及关系的联合抽取任务方法,并构建一个基于可交互图情领域知识图谱的原型检索系统。[结果/结论] 通过比较不同实体及关系联合抽取方法的效果,包括Paddle UIE、CasRel、SpERT和CORE,发现基于提示学习的预训练大语言模型Paddle UIE具有更好的抽取效果,特别是在样本量较少的情况下。此外,从进一步设计的两个搜索实验任务结果中可以发现,与通用搜索引擎相比,本文系统可以显著提高用户满意度,有效解决用户领域知识不足(如跨学科场景)下检索性能低下的问题,表明本文提出的全流程解决方案可以为学术文献服务提供方开发用户支持工具提供流程指导和建议。
  • 知识组织
    张鑫, 许海云, 杨宁, 方肖, 赵爽
    图书情报工作. 2024, 68(3): 117-129. https://doi.org/10.13266/j.issn.0252-3116.2024.03.011
    [目的/意义] 科技文献语步识别是从非结构化的文献中抽取出研究目的、对象、方法、结果、结论等语义片段,针对摘要语步识别实际应用中常出现的高质量标注样本数量较有限、深度识别模型可解释性差等问题开展研究。[方法/过程] 在语步识别中引入提示学习范式,设计对应提示模板和同义词表达器,采用局部线性代理方式生成模型解释,构建可解释的深度学习识别模型,并在生物领域和计算机领域两个数据集随机抽取部分数据中进行模拟实证研究。[结果/结论] 基于大模型提示学习的范式在语步识别任务上以较少训练代价的取得比精调小模型更高的精度,在PubMed三个子数据集上训练后,预测精度分别提高2.5%,4.1%和3.9%。结合准确率和解释结果来看,“方法”“结果”语步识别效果较好(F1值约90%),“背景”“对象”语步相对差些(F1值不到70%)。基于提示学习的方式能够以更快捷高效的方式使用预训练语言模型,获得准确性高、可解释性好的识别模型。
  • 知识组织
    许明珠, 王克平, 孙华伟, 范颜铄, 何祚艺
    图书情报工作. 2024, 68(2): 88-99. https://doi.org/10.13266/j.issn.0252-3116.2024.02.008
    [目的/意义] 大数据给企业情报工作带来极大的挑战,如何整合海量、多源、异构且动态变化的市场活动事件大数据,并从中挖掘有价值的情报,实现企业竞争情报和态势理解的序化,是企业情报管理工作的关键。[方法/过程] 尝试从企业情报事件的角度出发,提出一种新的企业竞争情报及态势大数据组织模型——企业竞争情报态势关联图谱。在此基础上,探究企业竞争情报态势关联图谱的构建流程及具体应用。[结果/结论] 所提出的企业竞争情报态势关联图谱能够实现事件、实体及其相互关系的知识表示、结构化组织与有效管理,可以丰富情报学中信息组织的理论和方法体系。同时,能够服务于企业竞争情报态势的全面监控与感知,为企业管理决策提供情报支撑。
  • 知识组织
    杨鑫, 陈涛, 夏焱
    图书情报工作. 2024, 68(2): 100-109. https://doi.org/10.13266/j.issn.0252-3116.2024.02.009
    [目的/意义] 文化遗产是赓续中华文脉的重要载体,其语义化组织是国家文化数字化战略的应有之义。构建文化遗产一体化本体模型,有利于促进文化遗产之间的知识互联互通,为文化遗产知识内容与概念提供形式化表达方案。[方法/过程] 系统调研文化遗产元数据与本体方案,立足文化遗产整体和内部联系,复用并扩展Schema.org 词表,从文化遗产共同特性(内涵角度)、一般特性(特性角度)和独特个性(分类角度) 3 个维度,构建契合文化遗产和特定资源类型的一体化知识模型。[结果/结论] 以福建土楼和客家土楼营造技艺为实例,验证该本体的可用性和可靠性,以期为文化遗产语义化描述提供思路借鉴。
  • 知识组织
    朝乐门, 刘慧, 张天怡, 李泽仑
    图书情报工作. 2023, 67(24): 99-110. https://doi.org/10.13266/j.issn.0252-3116.2023.24.009
    [目的/意义]人物和情节是数据故事的两大支柱。数据故事的情节通过人物特征、行为、所期待目标、所面对现实和所认为偏见来展开,实现数据故事人物的自动化生成是数据故事化领域科学研究的核心主题之一,对于数据故事的理论研究、自动生成和工程化研发具有重要意义。[方法/过程]首先,探讨数据故事人物的类型、特征及操作。其次,提出基于反事实解释的人物生成方法,分别对数据故事中的主人公、同类人物、异类人物、正面人物和反面人物给出自动生成方法。接着,分析其技术实现,探讨实验设计、数据来源、方法选择及结果讨论。最后,总结论文的主要研究发现,并对未来研究提出建议。[结果/结论]在数据故事化领域首次较为系统研究数据故事人物的组成要素、基本类型、主要特征及核心操作,并提出基于反事实的数据故事人物自动生成方法。
  • 知识组织
    李彦霖, 王乐
    图书情报工作. 2023, 67(24): 111-121. https://doi.org/10.13266/j.issn.0252-3116.2023.24.010
    [目的/意义]随着文献形式日趋多样化,数字人文技术要求的不断提高,对文献标引的深度和标引标准化需求也越来越高,迫切需要更利于数据交流和复用的标引方案以满足当前数据需求,形成顺畅的工作流及数据交换方式。[方法/过程]提出以多种XML嵌套或配合使用的特藏标引方案,统一数据格式,实行树形结构管理,进行高度控制语言的深度著录,从而实现较为通用的文献信息数据化。同时结合复旦大学图书馆的实际应用对实践的成效和局限加以讨论。[结果/结论]该特藏标引方案成效显著:采用开源软件进行标引项目管理,降低了标引成本和难度;标引方案具有开放性,生成符合数字人文需求的数据。但在实践过程中也暴露出国内数据基础建设薄弱、关联数据应用受限等问题。
  • 知识组织
    王宗水, 刘苇, 赵红, 孙倬
    图书情报工作. 2023, 67(23): 111-123. https://doi.org/10.13266/j.issn.0252-3116.2023.23.010
    [目的/意义]文献分析与社会网络分析是知识发现的重要方式,根据知识演化的动态性和层次性,提出一种基于动态多层网络的知识解构和迁移路径识别方法。[方法/过程]首先,通过等时间段划分、知识要素提取、知识网络构建与分层,确定分层网络结构;然后采用单层共有节点占比和Jaccard系数计算知识迁移跨度,采用辛普森多样性指数确定知识要素的重要性,并筛选出知识迁移的主要路径;在此基础上,对知识网络予以重构,明确知识要素间的内在逻辑。以2001—2021年信息管理领域的24种期刊的22 049篇文献为样本,以3年为间距划分为4个阶段,并采用CiteSpace软件进行关键词提取和初步统计,运用Pajek软件进行网络分层和基于重要路径的重构。[结果/结论]结果显示:近些年来,信息管理领域形成了以企业为核心的知识结构、以电子商务与用户行为为核心的知识结构和以信息技术与创新为核心的知识结构,信息技术是企业和用户间的重要连接。较聚类分析、时间拓展网络分析而言,所提出的方法不仅能够展示知识要素在知识迁移过程中的重要性,而且重构的网络所展示的知识要素模块及其内在关系逻辑更为具体明确。
  • 知识组织
    赵洁, 岳好
    图书情报工作. 2023, 67(22): 128-139. https://doi.org/10.13266/j.issn.0252-3116.2023.22.013
    [目的/意义] 利用FAIR原则评估网络叙词表的开放情况,有利于理清叙词表开放的优势和不足,提高叙词表FAIR化水平。[方法/过程] 借鉴现有基于FAIR原则构建的评价框架,结合叙词表特点,制定适用于网络叙词表开放度评估的三级指标体系。依据该指标体系,对选取的17个样本平台开展具体指标调研和分析,并从可发现、可访问、可互操作和可重用4个维度分别分析叙词表FAIR化水平。最后针对这4个方面分别提出促进叙词表FAIR化的建议。[结果/结论] 所构建的网络叙词表开放度评估指标体系包含三级指标,一级、二级、三级指标分别有4、11、17个。经评估,发现多数网络叙词表的开放程度仍待提升,开放的薄弱环节集中在可互操作性和可重用性上,FAIR原则应用有待进一步发展,尤其是在元数据的丰富度和数据互操作、重用方面。
  • 知识组织
    张晨, 朝乐门, 靳庆文
    图书情报工作. 2023, 67(20): 142-150. https://doi.org/10.13266/j.issn.0252-3116.2023.20.013
    [目的/意义] 基于数据故事本体模型提出一种语义描述及推理方法,旨在生成机器可理解的数据故事语义脚本,完整的数据故事产品能够利用此脚本生成。[方法/过程] 首先,基于OWL本体的建模和知识表示方法设计数据故事的XML格式和RDF (S)格式的描述脚本。然后,基于SWRL定义数据故事的语义描述规则,论述数据故事化的语义描述及推理流程与关键任务。最后,以UCI breast-cancer数据集为数据来源,将存储在MySQL数据库中的数据故事内容转换为XML数据故事描述脚本和RDF (S)数据故事语义描述脚本,并使用推理方法标记数据故事的要素及关系。[结果/结论] 定义包含故事要素、故事要素关联以及故事实例的数据故事脚本,划分出数据故事语义描述与推理的流程以及形式化表示活动中的关键任务,并提出可操作的面向数据故事化的语义描述和推理方法。
  • 知识组织
    陈翀, 王嘉怡, 高欣妍, 宣羽菲
    图书情报工作. 2023, 67(17): 118-128. https://doi.org/10.13266/j.issn.0252-3116.2023.17.010
    [目的/意义] 对科研人员学术专长的细粒度描述,有助于精准地利用他们的知识解决特定问题,改进科研人员画像、专家发现等应用。[方法/过程] 首先提出专长描述的维度、标识词粒度和属性度量问题,将学术专长描述建模为构建个体知识图谱;其次探讨学术专长描述和领域知识图谱之间的关系;最后选取特定领域的代表性个体,在知识实体层面进行细粒度定性定量描述,测试模型的可行性。[结果/结论] 科研人员的学术专长并不等同于研究兴趣,而是包括熟悉的问题域、擅长的方法等多个维度。应当选择有适当概念粒度的知识实体作专长标识词。各专长维度可以在个体内部及群体范畴进行属性的度量。在此提出的学术专长描述模型兼顾定性定量特征,具有结构上的灵活性;在专长维度和属性上细化以往学术画像研究中对科研人员学术特征的表达;从个体知识和领域知识互补的角度有助于扩展知识组织理论研究。
  • 知识组织
    周树斌, 高劲松, 张强, 施雨
    图书情报工作. 2023, 67(16): 111-123. https://doi.org/10.13266/j.issn.0252-3116.2023.16.011
    [目的/意义] 以文化基因视角解构中国传统诗词文化,对诗词资源进行文化内涵的细粒度挖掘,实现诗词资源的知识重组与形式再造,有助于促进诗词资源在数智化时代的创造性转化与创新性发展。[方法/过程] 设计文化基因视域下诗词资源知识重组研究框架,首先基于茶文化维度,在分析文化基因谱系的基础上构建本体模型完成诗词资源的多维语义知识描述。其次,以苏轼茶诗为具体案例,基于知识图谱分别从微观角度和宏观层面提供诗词资源知识的关联展示。[结果/结论] 通过将诗词文化解构提取其文化基因,将其与诗词资源相融合完成知识重组,利用知识图谱技术可视化分析传统诗词资源微观至基因、宏观到时空的知识特征,为人文学者研究诗词提供新的研究方式与研究视角。
  • 知识组织
    高靖超, 彭丽徽, 张艳丰, 蒋欣, 洪闯
    图书情报工作. 2023, 67(16): 124-134. https://doi.org/10.13266/j.issn.0252-3116.2023.16.012
    [目的/意义] 通过构建在线医疗社区健康焦虑用户画像,以探究健康焦虑用户情感及其他特征表现,为在线医疗平台管理健康焦虑用户及加强在线医疗社区建设提供指导。[方法/过程] 首先,依据现有研究成果并结合在线医疗社区健康焦虑用户实际数据特征建立用户画像标签体系。其次,根据标签体系对情感、主题、信息行为标签进行技术加工,得到标签属性并建立用户画像概念模型。最后,通过K-means聚类方法得到4个具有显著差异性的用户画像群体结构进行实证分析。[结果/结论] 根据用户画像标签特征,将在线医疗社区健康焦虑用户依据情感划分为恐惧型、愤怒型、抑郁型、厌恶型4类,针对每个类型用户画像的显著特征进行具体分析,为在线医疗社区中健康焦虑现象提供一个较为全面的用户画像标签类型解释。
  • 知识组织
    曾桢, 陈蓝, 赵浩宇, 王晓光
    图书情报工作. 2023, 67(15): 138-150. https://doi.org/10.13266/j.issn.0252-3116.2023.15.013
    [目的/意义] 设计面向高校图书馆思政信息服务需求、体现思政类编年史文献结构与修辞特征的语义模型及知识图谱应用。包括以历史文献为主线,通过数字人文建设,响应二十大提出抓好思政历史教育,引导知史爱党,知史爱国的指导方针。[方法/过程] 以《中华人民共和国学校德育编年史》为资源建设主线,针对其结构内容特征,面向高校图书馆思政信息服务不同用户需求,基于语义出版、事件本体以及知识图谱技术,构建思政编年史本体,并设计部署信息服务平台向高校广大师生推广应用。[结果/结论] 实现图书馆对高校思政教育信息服务支撑,建设高校图书馆思政信息资源元数据标准,并为以历史文献为主线的信息资源建设路线提供参考。
  • 知识组织
    杨海平, 齐小英, 符鹏, 陈月梅
    图书情报工作. 2023, 67(14): 85-93. https://doi.org/10.13266/j.issn.0252-3116.2023.14.009
    [目的/意义] 立足信息资源管理学科,深入剖析南海维权领域的知识内涵与特征,探索南海维权信息资源管理知识体系的建构路径。[方法/过程] 从知识输入、知识搭建、知识对比、知识延伸、知识实践5个环节阐述并剖析南海维权信息资源管理知识体系建构路径。其中,知识输入的目标知识包括南海维权的诉讼标的、法律争点、事实争点、证据争点;知识搭建方法包括知识分类、知识抽取、知识融合、知识关联、知识发现、知识评估;知识对比主要解决南海维权多模态知识的语义融合与关联问题;知识延伸以证据链法理分析、历史证据识别、南海空间分析、智能证据链构建为学科交叉知识边界;知识实践包括证据知识元框架与知识元标引、证据知识元抽取与表示、证据知识元融合与关联以及证据链智库建设。[结果/结论] 南海维权信息资源管理知识体系是信息资源管理“服务国家战略”自主性与“南海维权”功能性的有机统一,有规则地串联起南海维权信息资源,深入地塑造理解南海维权的思维模式,可为信息资源管理学科服务国家重大战略积累宝贵理论知识体系与实践经验。
  • 知识组织
    张敬, 朱相丽
    图书情报工作. 2023, 67(14): 94-108. https://doi.org/10.13266/j.issn.0252-3116.2023.14.010
    [目的/意义] 为全面、客观、高效、直观地掌握科技领域主题的发展规律和演变趋势,提出一种基于多源数据的领域主题演化路径识别和分析框架。[方法/过程] 获取不同来源的科技文献数据,利用多维样本有序聚类方法辅助时间切片,基于改进的词袋构建方法,提升LDA模型主题识别效果,借助Louvain社区发现算法在主题层进行多源数据的融合,分析领域主题演化路径。[结果/结论] 利用美国太赫兹研究领域基金项目、论文和专利3种来源的数据进行实证研究,结果表明,3种数据源能够清晰划分出4个时间窗口,改进的词袋构建方法能够表征更准确的领域信息内涵,主题社区有助于从多源数据复杂的演化网络中厘清主题演化脉络。