FDA药物数据的分析研究文献综述

 2022-07-15 05:07

FDA药物数据的分析研究文献综述

摘要: 针对FDA药物原始数据中存在的大量的重复、损坏、异常、噪声等问题,通过基于Python的大数据分析,提纯数据,保证数据的一致性和有效性,使之成为可高效使用的数据,从而便于对药物数据特征进行提取分析。此篇将重点探讨利用Python数据分析的各种优势构建可视化数据分析平台,实现数据的快速分析及信息获取 ,提高数据分析能力及平台构建的系统性,满足社会发展趋势,促进药物学领域发展。

关键字:FDA药物数据;数据清洗;Python

  1. 前言

在21世纪,信息是行业竞争的核心,数据是行业发展的重要基础,当前的数据分析已成为当下商业活动的重要组成。大数据技术、云计算及物联网等信息通信技术的出现,难以满足海量数据的价值挖掘和内在分析。面对复杂、海量、低密度及快速生成的数据,必须深度分析才能够获取所需信息,以构架数据分析平台及系统快速完成数据潜在价值的挖掘和分析。

在大数据时代背景下,数据可视化的应用的范围愈加广泛,重视程度更是在不断提高。数据可视化领域的研究主题呈现出由关注于数据挖掘和可视化呈现演化为关注于数据挖掘和基于可视化进行相关分析。Python作为当下最受欢迎的数据分析工具,具有多种优势,以Python为基础,来设计与实现可视化数据分析平台,注重利用Python编程及算法,将数据处理结果可视化,满足数据分析的需求。

美国食品药品监督管理局FDA向公众开放政府公众健康数据库[1],大量可应用的药物数据出现在公众视野。针对大量复杂的原始数据,通过数据清洗,发现并纠正数据文件中可识别的错误,从而达到提纯数据的目的。在FAERS(FDA Adverse Event Reporting System)系统中存在[2]大量的原始数据,存在重复、损坏、异常等情况,只有通过数据清洗提纯数据,才使之可被高效利用。

  1. 正文

(一)国内研究现状

目前,国内对数据清洗技术的研究还处于初级阶段,直接针对数据清洗,特别是针对中文数据清洗的研究成果并不多,大多是在数据仓库、决策支持、数据挖掘研究中对其作一些比较简单的阐述,银行、保险和证券等对客户数据的准确性要求很高的行业都在做各自的客户数据的清洗工作。但近年来,我国数据可视化领域的研究主题内容不断集中[3],核心节点之间的关联性在升高,边缘节点占比在降低,主要研究内容已经形成;并且网络密度、平均度和聚集系数等网络特性指标在升高,研究主题之间关系越发紧密[4]。

国内有不少高校成立了相关研究团队,如北京大学可视化与可视分析研究组、浙江大学可视分析小组等。浙江大学可视化分析小组与国内外高校和科研机构广泛合作,有DataV数据可视化组件库、全球尺度三维数值大气可视分析系统等多项成果。除学术研究机构外,企业、媒体、个人、工作室等都积极参与数据可视化研究中,特别是新媒体领域,他们自发地开始相关尝试,将数据通过叙事的方式展现给目标受众。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。