图书情报数据挖掘处理平台设计(3)-中国中医药图书情报杂志杂志社投稿

栏目导航

期刊信息

刊名：中国中医药图书情报杂志
曾用名：中国医学文摘·中医
主办：中国中医科学院中医药信息研究所
主管：国家中医药管理局
ISSN：2095-5707
CN：10-1113/R
语言：中文
周期：双月刊
影响因子：0
被引频次：1335
期刊分类：图书情报
期刊热词：
图书馆,中医药,中医,大数据,中医药院校,文献计量学,数字图书馆,文献计量分析,投稿须知,互联网,

现在的位置：主页 > 期刊导读 >

图书情报数据挖掘处理平台设计(3)

来源：中国中医药图书情报杂志 【在线投稿】栏目：期刊导读时间：2020-08-11 17:46

【作者】网站采编

【关键词】

【摘要】[7]贾君枝，冯婕.基于关联规则的Wikidata人物名称数据分析:以诺贝尔文学奖得主为主题[J].图书情报工作，2017，61（12）: Junzhi，FENG Jie.Data analysis of Wikidata

[7]贾君枝，冯婕.基于关联规则的Wikidata人物名称数据分析:以诺贝尔文学奖得主为主题[J].图书情报工作，2017，61（12）: Junzhi，FENG Jie.Data analysis of Wikidata person names based on association rules mining:a case study of the theme of the Nobel prize winner[J].Library and information service，2017，61（12）:122-128.

[8]彭茂祥，李浩.基于大数据及TRIZ理论的专利技术智能化开发运营模式研究[J].图书情报知识，2016（6）: Maoxiang，LI Hao.The model of intelligent patent technology development and operation based on big data and TRIZ theory[J].Document，information & knowledge，2016（6）:80-87.

[9]吴丹，程磊.信息组织与检索的研究热点与动向:语义、交互与社群[J].图书情报知识，2017（4）:4-12.WU Dan，CHENG focus and trends of information organization and retrieval:semantic，interactive and social[J].Document，informaiton & knowledge，2017（4）:4-12.

[10]陶漪.基于E-Learning的数据挖掘系统的改进设计与实现[J].现代电子技术，2017，40（2）: design and implementation of data mining system based on E-learning[J].Modern electronics technique，2017，40（2）:133-136.

[11]刘成山，李玉，王洁良.大数据在图书情报领域的研究现状及趋势分析[J].情报理论与实践，2016，39（4）: Chengshan，LI Yu，WANG status and trend analysis of big data in library and information field[J].Information studies:theory & application，2016，39（4）:20-26.

0 引言图书情报学科每年都会有成千上万的论文发表刊登，图书情报工作人员则需要掌握比较详细的、准确的所有图书情报学科的数据，如涉及的专业范畴、内部构架和发展趋势等[1]。面对如此大量的论文，想要获取全面的信息，单纯地依赖于个人的阅读时间是不可取的[2]。近年来，根据共词分析和网络分析，提出一种新的解析方法，即定量分析。目前我国图书情报领域的服务主要还停留在基于数量规模的信息服务层面上。毫无疑问，借助先进的理念与技术，升华传统图书情报领域数据挖掘方法，转变传统挖掘模式，重构挖掘体系，提高挖掘精度，以更好的方法对所需图书情报数据进行挖掘。利用读者在数字图书馆的各种行为为基础，通过收集读者的浏览、定制、检索、下载等记录来进行研究，从而建立图书情报数据库；同时根据图书情报数据的开发，以数据库的形式将图书检索信息进行存储[3]。该平台采用元搜索技术对图书馆各种图书情报数据库、网络资源等进行搜索，再通过信息关注机制，对满足需求的数据进行选择。并用设定的方式方法将图书情报数据进行传输，建立反馈机制，允许相关人员进行人工选择和评价；然后将读者所需信息储存在数据库中，供数据挖掘所用。1 图书情报数据挖掘处理平台设计图书情报数据挖掘处理平台主要由7大模块组成，分别是数据解析模块、数据采集模块、接口模块、图书情报数据过滤模块、图书情报搜索引擎、图书情报数据推送模块和数据挖掘模块。数据解析模块重点是对通过需求规约工具得到的图书情报数据挖掘对象进行描述和挖掘策略相关文件[4]。数据采集模块与预处理模块主要是依据有关挖掘需求来对图书情报数据进行采集，并把采集到的图书情报数据转变为能够处理的模式。图书情报数据挖掘模块主要采用相关挖掘算法，排除掉不同算法间的差异，让挖掘算法在敏捷状态下进行挖掘工作[5]。整体平台可通过附加任务调度监控模块对挖掘任务的执行阶段进行仔细划分，保证在进行图书情报数据挖掘时可以及时得到反馈。涉及到的数据库为图书相关情报资源，根据以上分析确定平台结构如图1所示。图1 平台整体结构Fig.1 Overall structure of 数据挖掘模块数据挖掘模块主要功能是依据所选择的挖掘算法以及相关的技术参数，调用算法完成数据挖掘任务。因为整个挖掘算法的处理过程[6]都是通过数据集群运算完成的，期间不需要进行过多的操作和关注。因此，在本模块中，引入K-means算法，挖掘图书情报数据，并对挖掘结果直观有效的进行应用。图2 数据挖掘模块Fig.2 Data mining 数据存储模块为了解决海量数据存储、检索和在线阅读的容量和性能问题，在有限的条件下建立高效存储平台是图书情报挖掘平台建设的重点。本平台采用分级存储的方式设计图书情报数据存储模块。第一级面向交互频繁，但I/O流量相对较小、随机存取负担较重的元数据库，采用服务器内置的SAS高速磁盘阵列平台存储和管理[7]；第二级面向I/O流量较大、传输数据块较大，但访问频次较少的对象数据，采用的是基于ISCSI的IP-SAN网络接入的SATA磁盘阵列实现。存储区域网络作为存储架构，其连接方式是采用高传输速率的光通道进行连接。在SAN中的任意节点之间提供多个备选图书情报数据转换[8]，把数据保存在单独的存储活动范围内。由于采用的是独立网络，SAN可以更好地将存储设备和服务器之间频繁的数据传送与网络信息服务的信息包分割开来。不使用与IP网络冲突的网络资源[9]，从而有效地消除网络瓶颈，并且能够尽量对数据共享、数据的优化管理和平台的无缝扩充进行支持。在进行图书情报数据存储时，将获取的数据存储在平台上。该平台的存储层是一个由4个计算节点组成的集群，其利用了HDFS数据存储体系结构，将预处理后的数据或平台分析的数据以文本形式读入平台中[10]。平台为数据存储提供了强大的保护措施，平均每个情报数据都进行三次备份，能够很好地防止遇到突发事件而出现丢失图书情报数据，并且图书情报数据有附加性能，在平台发生意外故障时，能够保证后续图书情报数?数据解析模块数据解析模块是此平台第二主要的功能模块，它包括用户聚类模块和用户行为分析模块两大类。本平台利用用户兴趣对用户进行分类汇总。当用户频繁访问图书情报数据的某个页面或在某个页面上停留较长时间时，表明用户对此类图书情报数据兴趣度很高[11]。在本文中，会使用这种兴趣度来对图书情报数据进行聚类解析。在同一时间，利用序列化模式挖掘算法和图书情报数据经常被访问的途径，针对该途径获取的图书情报数据进行解析工作。2 软件设计从功能的简易运行和设计的开拓性能角度出发，采用的挖掘算法延伸性应用具备两个特性:1）挖掘算法的一些性能是比较卓越的，应用上更是灵便突出，但是灵便的后果就是操作相当麻烦。所以本文必须整理出多个演变算法，才能给外界够提供出简便的对恰接口，使操作的运用既能活灵活现又尽可能的简单便捷。2）改良可插播式应用的挖掘算法，既能在原始算法上增加新的运算公式也能在已有公式的基础上进行算法改动或者撤销，还不会对原始模块产生相对明显的影响。这种算法不仅落实了对最初算法的改进，还跟进了应用改进算法。具体的图书情报数据挖掘流程如图3所示。图3 数据挖掘流程图Fig.3 Flow chart of data mining在进行图书情报数据挖掘时，用户可以依据需求，对挖掘策略模板文件事先进行挖掘算法的设置，来确定某些参数的值和在未来的时间里需要设置的参数。在这类文件中，为了完成特定的策略文件，需要为平台中的属性指定所需要的算法，确定哪些已经有明确值的挖掘参数，哪些参数是用户对此策略模板的解释说明，指导用户定义策略文件。3 实验结果分析3.1 测试环境功能测试工具为Microsoft Visual Studio 2015 for software tester；性能测试工具为Loadrunner 10；测试管理工具为Mercury Quslity center 9. 平台运行环境服务器，HP ML-370 G5；操作平台，Windows 2013 Server，TRS DB Server V6；CPU，Inter Pentium Ⅲ 1 GHz以上；内存，4 GB以上；硬盘，1 TB；网络，支持TCP/IP协议；数据库，SQL 实验结果分析为了验证本文平台在数据挖掘方面的性能，将文献[5]平台作为对比，进行量化测试。测试将负载均衡离差值作为衡量指标。负载均衡离差值是负载均衡性的体现，计算公式为:式中:n用于描述图书情报数据总量；ηv用于描述数据量为v时数据挖掘的负载；ηavg用于描述数据挖掘时的平均负载。依据上式描述，将采用本文平台及文献[5]平台做比较，进行数据挖掘负载均衡离差值对比，结果见图4。图4 不同平台挖掘负载均衡离差结果对比Fig.4 Comparison for load balance deviation results mined by different platforms分析图4可知，在数据挖掘量和响应速度一定时，采用本文平台进行数据挖掘，其负载均衡离差值较为稳定，只有一处出现忽然增加的现象，均衡性较好的同时，稳定性较高，具有一定的优势；反之，采用文献[5]平台时，多处出现负载均衡离差值突然增高的现象，虽然均衡性较好，但稳定性较差，影响因素增多，需要进一步进行处理。4 结论针对传统平台一直存在数据挖掘中负载均衡差的问题，提出并设计了基于K-means算法的图书情报数据挖掘处理平台，并通过硬件及软件两部分进行分析，以负载均衡离差值为对比指标进行实验分析。结果表明，改进平台负载均衡较好，具有一定的优势。参考文献[1]李艳，吕鹏，李珑.基于大数据挖掘与决策分析体系的高校图书馆个性化服务研究[J].图书情报知识，2016（2）:60-68.LI Yan，Lü Peng，LI on personalized services of university library based on the big data mining and decision analysis system[J].Document，information & knowledge，2016（2）:60-68.[2]何胜，冯新翎，武群辉，等.基于用户行为建模和大数据挖掘的图书馆个性化服务研究[J].图书情报工作，2017，61（1）:40-46.HE Sheng，FENG Xinling，WU Qunhui，et on personalized services of library based on user behavior modeling and big data mining[J].Library and information service，2017，61（1）:40-46.[3]洪亮，李雪思，周莉娜.领域跨越:数据挖掘的应用和发展趋势[J].图书情报知识，2017（4）: Liang，LI Xuesi，ZHOU applications and development trend of data mining[J].Document，information & knowledge，2017（4）:22-32.[4]李信，李旭晖，陆伟，等.大数据驱动下的图书情报学科热点领域挖掘:面向WOS题录数据的实证视角[J].图书馆论坛，2017，37（4）:49-57.LI Xin，LI Xuhui，LU Wei，et of progresses and frontiers of big data-driven library and information science[J].Library tribune，2017，37（4）:49-57.[5]陈炎龙，段红玉.基于改进Hadoop云平台的海量文本数据挖掘[J].湖南师范大学自然科学学报，2016，39（3）: Yanlong，DUAN text data mining based on improved Hadoop cloud platform[J].Journal of natural science of Hunan Normal University，2016，39（3）:84-88.[6]周芸韬.基于R语言的大数据处理平台的设计与实现[J].现代电子技术，2017，40（2）: and implementation of big data processing platform based on R language[J].Modern electronics technique，2017，40（2）:53-56.[7]贾君枝，冯婕.基于关联规则的Wikidata人物名称数据分析:以诺贝尔文学奖得主为主题[J].图书情报工作，2017，61（12）: Junzhi，FENG Jie.Data analysis of Wikidata person names based on association rules mining:a case study of the theme of the Nobel prize winner[J].Library and information service，2017，61（12）:122-128.[8]彭茂祥，李浩.基于大数据及TRIZ理论的专利技术智能化开发运营模式研究[J].图书情报知识，2016（6）: Maoxiang，LI Hao.The model of intelligent patent technology development and operation based on big data and TRIZ theory[J].Document，information & knowledge，2016（6）:80-87.[9]吴丹，程磊.信息组织与检索的研究热点与动向:语义、交互与社群[J].图书情报知识，2017（4）:4-12.WU Dan，CHENG focus and trends of information organization and retrieval:semantic，interactive and social[J].Document，informaiton & knowledge，2017（4）:4-12.[10]陶漪.基于E-Learning的数据挖掘系统的改进设计与实现[J].现代电子技术，2017，40（2）: design and implementation of data mining system based on E-learning[J].Modern electronics technique，2017，40（2）:133-136.[11]刘成山，李玉，王洁良.大数据在图书情报领域的研究现状及趋势分析[J].情报理论与实践，2016，39（4）: Chengshan，LI Yu，WANG status and trend analysis of big data in library and information field[J].Information studies:theory & application，2016，39（4）:20-26.

文章来源：《中国中医药图书情报杂志》网址: http://www.zgzyytsqbzz.cn/qikandaodu/2020/0811/420.html

上一篇：医学院校图书情报硕士专业学位研究生培养方式
下一篇：图书情报领域数据安全发展脉络及热点分析<sup