Edge
统计分析 & 机器学习

近几年,无论是医学还是商业,对于数据的统计和分析要求越来越高。传统的统计学软件,如SPSS等在很多复杂逻辑的统计里,显得捉襟见肘,需要更高阶的软件,类似于SPSS Modeler软件才能完成。但是,无论是SPSS还是Modeler价格高昂,并非所有人都能承担。在免费领域,R和Python是数据科学里面非常强大的计算机语言,但是,由于需要编程,对于很多没有编程基础的朋友而言,门槛很高。

我经常要对很多数据进行分析,反复在R和Python里切来切去,代码改来改去,效率也很低。于是想能否做一个统一的软件平台,整合Python和R两大语言,无需编程就能进行数据的统计、建模和挖掘。最终,我完成该软件平台,并将该软件平台取名Edge。

在Edge软件平台上,初期放置了数据处理,特征工程,机器学习及图表绘制 5大类,近100个模块,可以完成基础的数据统计,建模及挖掘工作。未来还可以不断扩充更为复杂的新的功能模块。

如果你在发表文章中引用该软件,请使用以下格式
J.Ning(2022).Edge:(Version 0.40)[Free Statistics & Machine Learning Software].Available from https://www.medaifan.net

分析模块(已包含在安装包中)

1. 统计分析

Placeholder Image
数据描述

对定量数据进行详细描述分析,可分类统计

Placeholder Image
频数统计

对分类数据进行详细频数统计,可分类统计

Placeholder Image
正态分布检测

检测数据是否是正态分布,可分类检测

Placeholder Image
方差齐性检验

对多组数据的方差齐性进行检验

Placeholder Image
T检验(单样本)

单样本的T检验

Placeholder Image
T检验(双样本)

双样本的T检验

Placeholder Image
T检验(配对)

配对数据的的T检验

Placeholder Image
单因素方差分析

单个分类因素的方差分析,支持协变量

Placeholder Image
两因素方差分析

两个分类因素的方差分析,支持协变量

Placeholder Image
三因素方差分析

三个分类因素的方差分析,支持协变量

Placeholder Image
重复测量方差分析

对重复测量分组数据进行方差分析

Placeholder Image
卡方检验

对于分类数据的差异进行分析

Placeholder Image
配对卡方检验

配对数据的卡方检验

Placeholder Image
二项式检验

对二项比例进行检验

Placeholder Image
单样本秩和检验

单样本的秩和检验

Placeholder Image
两样本秩和检验

不满足T检验要求的两个样本的秩和检验

Placeholder Image
配对秩和检验

配对数据的秩和检验

Placeholder Image
多样本秩和检验

不满足方差分析的多个样本秩和检验

Placeholder Image
多样本配对秩和检验

多样本配对秩和检验

Placeholder Image
相关分析

定量数据相关性分析

Placeholder Image
偏相关分析

对于有影响因素的定量数据进行相关性分析

Placeholder Image
典型相关分析

对2组多个数据进行相关分析

Placeholder Image
ICC组内相关系数

ICC组内相关系数(一致性)检验

Placeholder Image
Kappa一致性检验

对2组分类数据进行一致性检验

Placeholder Image
线性回归

对定量数据的影响因素进行线性拟合分析

Placeholder Image
逐步线性回归

对线性回归的影响因素进行简单筛选

Placeholder Image
最优子集线性回归

寻找线性回归模型的最优自变量子集

Placeholder Image
逻辑回归

对于两分类数据广义线性模型

Placeholder Image
最优子集逻辑回归

寻找逻辑回归模型的最优自变量子集

Placeholder Image
多分类逻辑回归

多分类数据广义线性模型

Placeholder Image
有序逻辑回归

分类数据是有序的广义线性模型

Placeholder Image
条件逻辑回归

配对数据的逻辑回归

Placeholder Image
逻辑回归(NRI&IDI)

对2个逻辑回归模型优劣进行对比

Placeholder Image
广义估计方程(GEE)

重复测量数据的线性或逻辑回归

Placeholder Image
中介分析

单因素中介分析

Placeholder Image
Probit回归

Probit回归

Placeholder Image
泊松回归

对计数数据的回归分析

Placeholder Image
KM生存分析

Kaplan-Meier方法进行生存分析

Placeholder Image
COX回归分析

比例风险回归模型进行多因素生存分析

Placeholder Image
竞争风险模型

多结局生存分析

Placeholder Image
竞争风险回归

多结局生存回归分析

Placeholder Image
游程检验

游程检验

2. 数据预处理

Placeholder Image
样本均衡(上采样)

通过上采样均匀样本

Placeholder Image
PSM 倾向性评分匹配

通过“倾向值”匹配配对样本,消除了样本的选择性偏差

Placeholder Image
缺失值处理

处理数据中的缺失值

Placeholder Image
标准化/归一化

对定量数据进行标准换或归一化

Placeholder Image
文本编码

把文本数据编码为数字

Placeholder Image
数据分段

将定量数据分段

Placeholder Image
多项式数据转换

把数据进行升维

Placeholder Image
OneHot独热编码

对分类变量进行独热编码

Placeholder Image
缺失值探索

探索数据中的缺失值

Placeholder Image
权重数据处理

将有权重的数据(宽数据),转变为无权重数据(长数据)

3. 特征工程

Placeholder Image
特征筛选(卡方过滤)

通过卡方分析进行特征筛选

Placeholder Image
特征筛选(F检验过滤)

通过F检验进行特征筛选

Placeholder Image
特征筛选(相关过滤)

通过相关系数进行特征筛选

Placeholder Image
特征筛选(互信息过滤)

通过互信息值进行特征筛选

Placeholder Image
特征筛选(方差过滤)

通过方差进行特征筛选

Placeholder Image
主成分分析

数据降维,对数据进行浓缩

Placeholder Image
因子分析

数据降维,将数据合并为几个因子

Placeholder Image
Lasso回归(特征筛选)

手动用Lasso回归进行特征筛选

Placeholder Image
Lasso回归(筛选曲线)

通过多个Lambda值,绘制特征数目与准确率曲线,进行特征筛选

Placeholder Image

通过多个Lambda值,绘制特征数目与自定义标准曲线,进行特征筛选

Placeholder Image
随机森林(嵌套筛选)

手动确定重要性阈值,对随机森林模型进行特征筛选

Placeholder Image
随机森林(嵌套曲线)

通过多个重要性阈值,绘制特征数目与准确率曲线,进行特征筛选

Placeholder Image
随机森林(RFE筛选)

手动确定需要特征数目,对随机森林模型进行特征筛选

Placeholder Image
随机森林(RFE曲线)

通过绘制特征数目与准确率曲线,进行特征筛选

Placeholder Image
Lasso-COX回归(筛选曲线)

通过LASSO-COX,筛选特征

Placeholder Image
线性判别降维

通过线性判别算法进行数据降维

4. 机器学习

Placeholder Image
线性回归

通过线性模型预测定量数据

Placeholder Image
岭回归

加入L2正则化的线性回归模型

Placeholder Image
LASSO回归

加入L1正则化的线性回归模型

Placeholder Image
逻辑回归

通过Logistics模型来预测分类数据,可加入正则化

Placeholder Image
决策树(回归)

通过决策树来预测定量数据

Placeholder Image
决策树(分类)

通过决策树来预测分类数据

Placeholder Image
随机森林(回归)

通过随机森林来预测定量数据

Placeholder Image
随机森林(分类)

通过随机森林来预测分类数据

Placeholder Image
AdaBoost(回归)

通过AdaBoost来预测定量数据

Placeholder Image
Adaoost(分类)

通过AdaBoost来预测分类数据

Placeholder Image
XGBoost(回归)

通过XGBoost来预测定量数据

Placeholder Image
XGBoost(分类)

通过XGBoost来预测分类数据

Placeholder Image
神经网络(回归)

通过神经网络来预测定量数据

Placeholder Image
神经网络(分类)

通过神经网络来预测分类数据

Placeholder Image
支持向量机(SVM)

通过支持向量机来预测分类数据

Placeholder Image
类别分析

线性及二次类别判别

Placeholder Image
朴素贝叶斯分类

通过朴素贝叶斯来预测分类数据

Placeholder Image
KNN分类

最近邻算法预测分类数据

Placeholder Image
Kmeans聚类

非监督学习,对数据进行分类

Placeholder Image
层次聚类

非监督学习,对数据进行分类

5. 图表绘制

Placeholder Image
森林图

绘制森林图

Placeholder Image
散点图(分类)

绘制分类散点图

Placeholder Image
ROC曲线

绘制ROC曲线

Placeholder Image
文章表一

自动生成文章三线表

Placeholder Image
列线图(逻辑回归)

逻辑回归并绘制列线图

Placeholder Image
RadScore(逻辑回归)

逻辑回归分析,并绘制RadScore图

Placeholder Image
临床决策曲线(逻辑回归)

逻辑回归分析,并绘制临床决策曲线

Placeholder Image
列线图(COX回归)

比例风险回归模型列线图绘制

Placeholder Image
ROC曲线(COX回归)

比例风险回国模型,并绘制ROC曲线

Placeholder Image
校准图(COX回归)

比例风险回国模型,并绘制校准图

Placeholder Image
校准图(逻辑回归 )

逻辑回归并绘制校准图

Placeholder Image
Bland-Altman图

Bland-Altman图

Placeholder Image
双Y轴图

双Y轴图

Placeholder Image
热图

热图

安装

● 下载ZIP软件包,解压缩
● 无需安装,直接运行 edge.exe


使用说明

1. 该软件主要是针对表格数据的处理。表格的列为特征,行为样本。列的第一行数据为特征名称。

2. 数据可以为Excel文件(后缀名为.xlsx),或是逗号分隔的文本文件(后缀名为csv)。

3. 推荐使用csv文件,读取速度比xlsx快很多,csv文件也可以被Excel表格软件编辑的。

4. 通过“下载模块”按钮,可以访问网站,下载更多分析模块。分析模块会不断更新。

更新历史

2022.1.3 v0.11
- 原始版本

2022.1.16 v0.12
- 修改部分线性回归和逻辑回归模块的Bug

- 增加以下模块
*ICC一致性检验
*Lasso-COX回归(筛选曲线)
*COX回归(ROC曲线)
*COX回归(校准图)
*逻辑回归(RadScore)
*逻辑回归(临床决策曲线)

2022.1.30 v0.13
- 修改模块
修改涉及正态分布检验的模块(如:T检验、方差等),当样本数>5000时报错

- 增加模块
*逻辑回归calibration
*缺失值探索
*中介作用

2022.2.13 v0.20

这是一个比较大的更新,增加了不少模块,将临床常用的统计模块都补充齐了。

- 修改模块
利用春节放假期间,将所有统计模块都仔细测试了一下,修改了一些模块的Bug,并对大部分统计模块进行了完善。

- 增加模块
*方差齐性检验
*重复测量方差分析
*二项式检验
*配对卡方检验
*单样本秩和检验
*配对秩和检验
*多样本配置秩和检验
*典型相关分析
*Kappa一致性检验
*条件逻辑回归
*逻辑回归(NRI&IDI)
*广义估计方程(GEE)
*Probit回归
*权重数据处理
*线性判别降维
*类别分析
*Bland-Altman图

2022.3.6 v0.30

- 增加选择导出的图形格式:PNG, JPG 或是 PDF(矢量格式)
- 增加设定软件输出数据的小数位数

2022.5.2 v0.40
- 修改模块
*全面升级机器学习所有模块,可以自由指定训练集和测试集,并可以保存训练集和测试集的预测概率和数值
*加强缺失值探索模块,自动生成有缺失值的特征列表
- 增加模块
*游程检验
*双Y轴绘图
*AdaBoost回归
*AdaBoost分类
*热图

2023.10.2 v0.41
- 修改模块
*修改正态分析模块,加入Lilliefor修正
*修改特征筛选(卡方)Bug
*修改特征筛选(F检验)Bug
*修改特征筛选(互信息)Bug
*增加机器学习模块针对对于指定训练和测试集的“顺序”选项的说明,以免导致误操作