面向医学数据的年龄数据清洗与可视化文献综述-综述网

面向医学数据的年龄数据清洗与可视化综述

摘要： FDA不良事件报告系统（FDA Adverse Event Reporting System，FAERS）是一个旨在支持FDA对药品和治疗性生物制品上市后监测计划的数据库，该数据库包括了FDA收集的所有不良事件信息和用药错误信息，其中包含大量病人年龄数据，但是由于长时间没有统一的数据标准，数据表达混乱，需要一套完整的数据清洗系统。

本项目开发采用python编程语言，采用pycharm的开发环境进行开发。为了方便开发，需要选择一个python框架，经过研究选择pandas框架。通过此系统及可视化技术为年龄数据的挖掘和分析打下良好的基础。

关键字：数据清洗医学年龄数据 python

前言
研究背景和目的意义

随着互联网以及物联网的飞速发展，社交网络和智能手机的大量普及，使全球进入了大数据时代。在健康医疗领域，各种医疗卫生信息系统记录和保存了巨大的医疗健康服务业务数据，但由于信息标准、信息录入等原因，产生了大量的“脏数据”，这些数据是不可用的，给医学年龄数据信息关联和挖掘分析造成了障碍。因此必须对“脏数据”进行清洗，清除垃圾数据，提高数据的质量，以便通过大数据挖掘和分析真正体现数据的价值。本项目研究中所使用的数据是FAERS数据库中的病人年龄数据，属于自发呈报系统的数据，数据本身不够规范，需要进行数据清洗以便于分析及可视化。

国内外研究概况

数据清洗主要在数据仓库、数据库知识发现（也称数据挖掘）和总体数据质量管理这３个领域研究较多。在数据仓库研究和应用领域，数据清洗处理是构建数据仓库的第一步，由于数据量巨大，不可能进行人工处理，因此自动化数据清洗受到工商业界的广泛关注。国外对数据清洗的研究最早出现在美国，是从对全美的社会保险号错误的纠正开始。美国信息业和商业的发展，极大地刺激了对数据清洗技术的研究，主要集中在以下４个方面。（１）检测并消除数据异常（２）检测并消除近似重复记录（３）数据的集成（４）特定领域的数据清洗。

目前，国内对数据清洗技术的研究还处于初步阶段。直接针对数据清洗，特别是针对中文数据清洗的研究成果并不多。大多是在数据仓库、决策支持、数据挖掘研究中，对其作一些比较简单的阐述。银行、保险和证券等对客户数据的准确性要求很高的行业，都在做各自的客户数据的清洗工作，针对各自具体应用而开发软件，而很少有理论性的成果见诸于报道。

研究内容

面向医学数据的年龄数据清洗与可视化的主要研究内容如下：

从fda的官网下载数据集，并导入数据库
分析数据集中年龄数据的特性与错误
对数据缺失值，异常值处理，并进行重复记录清洗
查阅资料，查找合适的年龄划分标准，对年龄计量单位进行统一，进行数据可视化
理论基础
数据清洗

数据清洗(Data cleaning)即对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

面向医学数据的年龄数据清洗与可视化文献综述

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章