生物数据分析的基础和可视化使用R

----- A Primer in Biological Data Analysis and Visualization Using R

 

作者:Gregg Hartvigsen

出版: Columbia University Press

索书号: Q37/H336/2014/Y

ISBN:   978-0-231-16699-7

藏书地点: 武大外教中心

 

R语言是主要用于统计分析、绘图的语言和操作环境。 R本来是由来自新西兰奥克兰大学的Ross IhakaRobert Gentleman 开发。 (也因此称为R)现在由“R开发核心团队”负责开发。 R是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不作修改的在R环境下运行。 R的语法是来自SchemeR 的原始码可自由下载使用,亦有已编译的执行档版本可以下载,可在多种平台下运行,包括UNIX (也包括FreeBSDLinux)WindowsMacOS R主要是以命令行操作,同时有人开发了几种图形用户界面。R内建多种统计学及数字分析功能。 R的功能也可以透过安装套件(Packages,用户撰写的功能)增强。因为S的血缘,R比其他统计学或数学专用的编程语言有更强的物件导向(面向对象程序设计)功能。R的另一强项是绘图功能,制图具有印刷的质素,也可加入数学符号。虽然R主要用于统计分析或者开发统计相关的软体,但也有人用作矩阵计算。其分析速度可比美GNU Octave甚至商业软件MATLABR的功能能够透过由用户撰写的套件增强。增加的功能有特殊的统计技术、绘图功能,以及编程介面和数据输出/输入功能。这些软件包是由R语言、 LaTeXJava及最常用C语言和Fortran撰写。下载的执行档版本会连同一批核心功能的软件包,而根据 CRAN纪录有过千种不同的软件包。其中有几款较为常用,例如用于经济计量、财经分析、人文科学研究以及人工智能。

R是应用最广泛的开源统计和生物数据分析和可视化的编程环境。 借鉴格雷格Hartvigsen教学生物统计学和生物系统建模具有丰富的经验,这本书为生命科学的实验室学习R的学生提供了使用的参考价值。为了强调RR工作软件在生物数据的组织,计算和可视化的重要性,Hartvigsen指导读者通过输入数据的流程R,R处理数据,并使用R使用直方图来可视化数据,箱线图,barplots、散点图、和其他常见的图表类型。他为正常覆盖测试数据,定义和识别异常值,并处理非正态数据。为学生介绍了常见的-和两个示例测试以及一个和双向方差分析(方差分析),相关,线性和非线性回归分析。这本书中还包括一个先进的部分程序和一章引入算法,并使用R编程的艺术。

生物数据分析的基础和可视化使用R一书是由 Gregg Hartvigsen 博士后,于2014Columbia University Press出版社出版。Gregg Hartvigsen是纽约州立大学生物学系的教授 ,他在田纳西州诺克斯维尔的大学教了一次关于在数学和生物合成领域使用R网络分析,并且是俄亥俄州立大学的访问学者和现场评审。他还担任了本科生物学和数学美国国家科学基金会资助的培训合作PI

《生物数据分析的基础和可视化使用R》一书的主要内容分成十三章主要内容有介绍我们的软件小组,获取数据到R, 处理你的数据, 数据告诉我什么, 观察你的数据, 解释假说测验,假设测试:一个和两个示例比较,测试多个样本差异,假设测试:线性关系,假设测试:观察和预期的值,一些更高级的程序,介绍计算机编程。总之,这是一本值得生物信息学专业学生阅读的专业书籍。

 

本书目录:

前言

1.介绍我们的软件小组

1.1. Excel表格和R解决问题

1.2. 安装RR播放器软件

1.3. R帮助

1.4. R作为一种图形计算器

1.5. 使用脚本文件

1.6. 扩展性

1.7. 存在的问题

2. 获取数据到R

2.1.小数据集合使用C( )

2.2.从一个Excel电子表格读取数据

2.3. 从一个网站获取数据

2.4. 存在的问题

3. 处理你的数据

3.1. 我们数据的准确度和精密度

3.2. 收集数据到数据框

3.3. 合并数据

3.4. 设置子数据

3.5. 抽样数据

3.6. 排列数组的数据

3.7. 对数据排序

3.8. 对数据框排序

3.9. 数据框保存成一个文件

3.10. 存在的问题

4. 数据告诉我什么

4.1. 数据是什么

4.2. 中间在哪里

4.3. 中间分布

4.4. 常态检测

4.5. 异常值

4.6. 非常态数据的处理

4.7. 存在的问题

5. 观察你的数据

5.1. 综述

5.2. 直方图

5.3. 箱线图

5.4. Barplots

5.5. 散点图

5.6. 凸凹图表

5.7. 饼图

5.8. 多线图

5.9. 存在的问题

6. 解释假说测验

6.1. 什么是统计

6.2. 如何问答科学问题

6.3. 假说和理论之间的区别

6.4. 新实验的设计原则

6.5. 如何设置一个简单的随机样本的实验

6.6. 解释结果: “假定值”是什么?

6.7. I型和II型错误

6.8. 存在的问题

7. 假设测试:一个和两个示例比较

7.1. 一个值和一个样品测试

7.2. 测试与配对样本

7.3. 测试两个独立样本

7.4. 存在的问题

8. 测试多个样本差异

8.1. 样品通常是分布式的

8.2. 单向测试非参数数据

8.3. 双向方差分析

8.4. 存在的问题

9. 假设测试:线性关系

9.1.相关性

9.2. 线性回归

9.3. 存在的问题

10. 假设测试:观察和预期的值

10.1. X2检验

10.2. 费希尔精确检验

10.3.存在的问题

11. 一些更高级的程序

11.1. 编写自己的函数

11.2. 添加95%置信区间到Barplots

11.3. 添加字母到Barplots

11.4. 添加95%置信区间线路进行线性回归

11.5. 非线性回归

11.6. 介绍数学建模

11.7. 存在的问题

12. 介绍计算机编程

12.1. 什么是计算机程序?

12.2. 算法介绍

12.3. 结合变成和计算机输出

12.4. 存在的问题

13. 结语

13.1. 我从这里去哪里?

 

索引

 

 

(武汉大学生命科学学院研究生  张英)