Edge
统计分析 & 机器学习
近几年,无论是医学还是商业,对于数据的统计和分析要求越来越高。传统的统计学软件,如SPSS等在很多复杂逻辑的统计里,显得捉襟见肘,需要更高阶的软件,类似于SPSS Modeler软件才能完成。但是,无论是SPSS还是Modeler价格高昂,并非所有人都能承担。在免费领域,R和Python是数据科学里面非常强大的计算机语言,但是,由于需要编程,对于很多没有编程基础的朋友而言,门槛很高。
我经常要对很多数据进行分析,反复在R和Python里切来切去,代码改来改去,效率也很低。于是想能否做一个统一的软件平台,整合Python和R两大语言,无需编程就能进行数据的统计、建模和挖掘。最终,我完成该软件平台,并将该软件平台取名Edge。
在Edge软件平台上,初期放置了数据处理,特征工程,机器学习及图表绘制 5大类,近100个模块,可以完成基础的数据统计,建模及挖掘工作。未来还可以不断扩充更为复杂的新的功能模块。
如果你在发表文章中引用该软件,请使用以下格式
J.Ning(2022).Edge:(Version 0.40)[Free Statistics & Machine Learning Software].Available from https://www.medaifan.net
分析模块(已包含在安装包中)
1. 统计分析
对定量数据进行详细描述分析,可分类统计
对分类数据进行详细频数统计,可分类统计
检测数据是否是正态分布,可分类检测
对多组数据的方差齐性进行检验
单样本的T检验
双样本的T检验
配对数据的的T检验
单个分类因素的方差分析,支持协变量
两个分类因素的方差分析,支持协变量
三个分类因素的方差分析,支持协变量
对重复测量分组数据进行方差分析
对于分类数据的差异进行分析
配对数据的卡方检验
对二项比例进行检验
单样本的秩和检验
不满足T检验要求的两个样本的秩和检验
配对数据的秩和检验
不满足方差分析的多个样本秩和检验
多样本配对秩和检验
定量数据相关性分析
对于有影响因素的定量数据进行相关性分析
对2组多个数据进行相关分析
ICC组内相关系数(一致性)检验
对2组分类数据进行一致性检验
对定量数据的影响因素进行线性拟合分析
对线性回归的影响因素进行简单筛选
寻找线性回归模型的最优自变量子集
对于两分类数据广义线性模型
寻找逻辑回归模型的最优自变量子集
多分类数据广义线性模型
分类数据是有序的广义线性模型
配对数据的逻辑回归
对2个逻辑回归模型优劣进行对比
重复测量数据的线性或逻辑回归
单因素中介分析
Probit回归
对计数数据的回归分析
Kaplan-Meier方法进行生存分析
比例风险回归模型进行多因素生存分析
多结局生存分析
多结局生存回归分析
游程检验
2. 数据预处理
通过上采样均匀样本
通过“倾向值”匹配配对样本,消除了样本的选择性偏差
处理数据中的缺失值
对定量数据进行标准换或归一化
把文本数据编码为数字
将定量数据分段
把数据进行升维
对分类变量进行独热编码
探索数据中的缺失值
将有权重的数据(宽数据),转变为无权重数据(长数据)
3. 特征工程
通过卡方分析进行特征筛选
通过F检验进行特征筛选
通过相关系数进行特征筛选
通过互信息值进行特征筛选
通过方差进行特征筛选
数据降维,对数据进行浓缩
数据降维,将数据合并为几个因子
手动用Lasso回归进行特征筛选
通过多个Lambda值,绘制特征数目与准确率曲线,进行特征筛选
通过多个Lambda值,绘制特征数目与自定义标准曲线,进行特征筛选
手动确定重要性阈值,对随机森林模型进行特征筛选
通过多个重要性阈值,绘制特征数目与准确率曲线,进行特征筛选
手动确定需要特征数目,对随机森林模型进行特征筛选
通过绘制特征数目与准确率曲线,进行特征筛选
通过LASSO-COX,筛选特征
通过线性判别算法进行数据降维
4. 机器学习
通过线性模型预测定量数据
加入L2正则化的线性回归模型
加入L1正则化的线性回归模型
通过Logistics模型来预测分类数据,可加入正则化
通过决策树来预测定量数据
通过决策树来预测分类数据
通过随机森林来预测定量数据
通过随机森林来预测分类数据
通过AdaBoost来预测定量数据
通过AdaBoost来预测分类数据
通过XGBoost来预测定量数据
通过XGBoost来预测分类数据
通过神经网络来预测定量数据
通过神经网络来预测分类数据
通过支持向量机来预测分类数据
线性及二次类别判别
通过朴素贝叶斯来预测分类数据
最近邻算法预测分类数据
非监督学习,对数据进行分类
非监督学习,对数据进行分类
5. 图表绘制
绘制森林图
绘制分类散点图
绘制ROC曲线
自动生成文章三线表
逻辑回归并绘制列线图
逻辑回归分析,并绘制RadScore图
逻辑回归分析,并绘制临床决策曲线
比例风险回归模型列线图绘制
比例风险回国模型,并绘制ROC曲线
比例风险回国模型,并绘制校准图
逻辑回归并绘制校准图
Bland-Altman图
双Y轴图
热图
安装
● 下载ZIP软件包,解压缩
● 无需安装,直接运行 edge.exe
使用说明
1. 该软件主要是针对表格数据的处理。表格的列为特征,行为样本。列的第一行数据为特征名称。
2. 数据可以为Excel文件(后缀名为.xlsx),或是逗号分隔的文本文件(后缀名为csv)。
3. 推荐使用csv文件,读取速度比xlsx快很多,csv文件也可以被Excel表格软件编辑的。
4. 通过“下载模块”按钮,可以访问网站,下载更多分析模块。分析模块会不断更新。
更新历史
2022.1.3 v0.11
- 原始版本
2022.1.16 v0.12
- 修改部分线性回归和逻辑回归模块的Bug
- 增加以下模块
*ICC一致性检验
*Lasso-COX回归(筛选曲线)
*COX回归(ROC曲线)
*COX回归(校准图)
*逻辑回归(RadScore)
*逻辑回归(临床决策曲线)
2022.1.30 v0.13
- 修改模块
修改涉及正态分布检验的模块(如:T检验、方差等),当样本数>5000时报错
- 增加模块
*逻辑回归calibration
*缺失值探索
*中介作用
2022.2.13 v0.20
这是一个比较大的更新,增加了不少模块,将临床常用的统计模块都补充齐了。
- 修改模块
利用春节放假期间,将所有统计模块都仔细测试了一下,修改了一些模块的Bug,并对大部分统计模块进行了完善。
- 增加模块
*方差齐性检验
*重复测量方差分析
*二项式检验
*配对卡方检验
*单样本秩和检验
*配对秩和检验
*多样本配置秩和检验
*典型相关分析
*Kappa一致性检验
*条件逻辑回归
*逻辑回归(NRI&IDI)
*广义估计方程(GEE)
*Probit回归
*权重数据处理
*线性判别降维
*类别分析
*Bland-Altman图
2022.3.6 v0.30
- 增加选择导出的图形格式:PNG, JPG 或是 PDF(矢量格式)
- 增加设定软件输出数据的小数位数
2022.5.2 v0.40
- 修改模块
*全面升级机器学习所有模块,可以自由指定训练集和测试集,并可以保存训练集和测试集的预测概率和数值
*加强缺失值探索模块,自动生成有缺失值的特征列表
- 增加模块
*游程检验
*双Y轴绘图
*AdaBoost回归
*AdaBoost分类
*热图
2023.10.2 v0.41
- 修改模块
*修改正态分析模块,加入Lilliefor修正
*修改特征筛选(卡方)Bug
*修改特征筛选(F检验)Bug
*修改特征筛选(互信息)Bug
*增加机器学习模块针对对于指定训练和测试集的“顺序”选项的说明,以免导致误操作