面向医学数据的年龄数据清洗与可视化文献综述

 2022-07-14 09:07

面向医学数据的年龄数据清洗与可视化综述

摘要: FDA不良事件报告系统(FDA Adverse Event Reporting System,FAERS)是一个旨在支持FDA对药品和治疗性生物制品上市后监测计划的数据库,该数据库包括了FDA收集的所有不良事件信息和用药错误信息,其中包含大量病人年龄数据,但是由于长时间没有统一的数据标准,数据表达混乱,需要一套完整的数据清洗系统。

本项目开发采用python编程语言,采用pycharm的开发环境进行开发。为了方便开发,需要选择一个python框架,经过研究选择pandas框架。通过此系统及可视化技术为年龄数据的挖掘和分析打下良好的基础。

关键字:数据清洗 医学年龄数据 python

  1. 前言
  2. 研究背景和目的意义

随着互联网以及物联网的飞速发展,社交网络和智能手机的大量普及,使全球进入了大数据时代。在健康医疗领域,各种医疗卫生信息系统记录和保存了巨大的医疗健康服务业务数据,但由于信息标准、信息录入等原因,产生了大量的“脏数据”,这些数据是不可用的,给医学年龄数据信息关联和挖掘分析造成了障碍。因此必须对“脏数据”进行清洗,清除垃圾数据,提高数据的质量,以便通过大数据挖掘和分析真正体现数据的价值。本项目研究中所使用的数据是FAERS数据库中的病人年龄数据,属于自发呈报系统的数据,数据本身不够规范,需要进行数据清洗以便于分析及可视化。

  1. 国内外研究概况

数据清洗主要在数据仓库、数据库知识发现(也称数据挖掘)和总体数据质量管理这 3个领域研究较多。在数据仓库研究和应用领域,数据清洗处理是构建数据仓库的第一步,由于数据量巨大,不可能进行人工处理,因此自动化数据清洗受到工商业界的广泛关注。国外对数据清洗的研究最早出现在美国,是从对全 美的社会保险号错误的纠正开始 。美国信息业和商业 的发展,极大地刺激了对数据清洗技术的研究,主要集中 在以下 4个方面。 (1)检测并消除数据异常(2)检测并消除近似重复记录 (3)数据的集成(4)特定领域的数据清洗。

目前,国内对数据清洗技术的研究还处于初步阶段。直接针对数据清洗,特别是针对中文数据清洗的研究成果并不多。大多是在数据仓库、决策支持、数据挖掘研究中,对其作一些比较简单的阐述。银行、保险和证券等对 客户数据的准确性要求很高的行业,都在做各自的客户 数据的清洗工作,针对各自具体应用而开发软件,而很少有理论性的成果见诸于报道。

  1. 研究内容

面向医学数据的年龄数据清洗与可视化的主要研究内容如下:

  1. 从fda的官网下载数据集,并导入数据库
  2. 分析数据集中年龄数据的特性与错误
  3. 对数据缺失值,异常值处理,并进行重复记录清洗
  4. 查阅资料,查找合适的年龄划分标准,对年龄计量单位进行统一,进行数据可视化
  5. 理论基础
  6. 数据清洗

数据清洗(Data cleaning)即对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。