R软件词汇
下载R软件后,如果想知道词汇,可以来这里寻找,如果是大佬,那就当没看见就可以。不喜勿喷。
以下内容用Gemini 2.5模型生成!https://gemini.google.com/
R语言拥有丰富的词汇和专门术语,对于初学者和有经验的用户来说,理解这些词汇是至关重要的。以下是一些核心的R语言词汇和概念,分为几个主要类别:
核心语法与数据结构 (Core Syntax & Data Structures)
- <- 或 = (赋值运算符 Assignment Operator): 用于给变量赋值。例如:x <- 10 或 x = 10。<- 是更传统且推荐的R赋值符号。
- # (注释 Comment): 用于添加注释,# 之后到行尾的内容会被R忽略。
- function (函数): 定义一个新的函数。例如:my_function <- function(arg1, arg2) { … }
- vector (向量): R中最基本的数据结构,用于存储一系列相同类型的元素(数值型、字符型、逻辑型等)。例如:c(1, 2, 3) 创建一个数值型向量。
- numeric (数值型): 表示数字的数据类型,包括整数和浮点数。
- character (字符型): 表示文本数据的数据类型,用引号括起来。例如:”hello”。
- logical (逻辑型): 表示真/假值的数据类型 (TRUE 或 FALSE, 可简写为 T 或 F)。
- factor (因子): 用于表示分类数据或名义变量。它们在内部存储为整数,并带有一个标签映射。
- list (列表): 一种可以包含不同类型元素的有序集合。例如:list(name = “John”, age = 30, scores = c(85, 90))。
- data.frame (数据框): R中用于存储表格数据的二维结构,类似于电子表格或SQL表。每一列可以有不同的数据类型,但同一列中的数据类型必须相同。
- matrix (矩阵): 存储相同类型元素的二维数组。
- array (数组): 可以存储多于二维的数据结构,所有元素必须是相同类型。
- NA (Not Available): 表示缺失值。
- NULL: 表示一个空对象或一个不存在的对象。
- NaN (Not a Number): 表示一个不是数字的值,通常是数学上未定义操作的结果 (如 0/0)。
控制结构 (Control Structures) - if, else if, else (条件语句): 根据条件执行不同的代码块。
- for (for循环): 对序列中的每个元素重复执行一段代码。例如:for (i in 1:5) { print(i) }
- while (while循环): 当某个条件为真时,重复执行一段代码。
- repeat (repeat循环): 重复执行代码块,直到遇到 break 语句。
- break: 跳出当前循环。
- next: 跳过当前循环的剩余部分,进入下一次迭代。
常用函数与操作 (Common Functions & Operations) - c() (concatenate/combine): 用于创建向量或连接多个对象。
- print(): 显示对象的值。
- cat(): 连接并打印其参数,提供更灵活的输出控制。
- summary(): 提供对象的摘要信息,如统计摘要。
- str() (structure): 紧凑地显示对象的内部结构。
- length(): 获取向量或列表的长度(元素个数)。
- nrow(), ncol(): 获取矩阵或数据框的行数和列数。
- names(): 获取或设置对象的名称属性。
- colnames(), rownames(): 获取或设置矩阵或数据框的列名和行名。
- head(), tail(): 显示对象(如向量、数据框)的开头或末尾部分。
- subset(): 根据条件选取数据的子集。
- merge(): 合并两个数据框。
- apply(), lapply(), sapply(), tapply(): 一系列用于对数据集合进行循环操作的函数,是R中向量化编程的重要组成部分。
- plot(): 通用的绘图函数,用于创建各种类型的图形。
- hist(): 创建直方图。
- mean(), median(), sd(), var(): 计算均值、中位数、标准差、方差等统计量。
- lm() (linear model): 用于拟合线性模型。
- read.csv(), write.csv(): 用于读取和写入CSV文件。
包与环境 (Packages & Environment) - package (包): R功能的集合,包含了代码、数据和文档。用户可以安装和加载包以扩展R的基础功能。
- library() 或 require(): 加载已安装的包。
- install.packages(): 从CRAN(或其他仓库)安装新的包。
- CRAN (Comprehensive R Archive Network): R官方的软件包、源代码和文档的主要仓库。
- .Rprofile: 一个R启动时会自动执行的脚本文件,用于个性化设置。
- workspace (工作空间): R会话中创建的所有对象的集合。
- working directory (工作目录): R从中读取文件和向其写入文件的默认位置。使用 getwd() 查看,setwd() 设置。
重要概念 (Important Concepts) - Vectorization (向量化): R的核心特性之一,指函数可以直接对整个向量进行操作,而无需显式编写循环。这使得代码更简洁、高效。
- Tidyverse: 一个包含了一系列旨在使数据科学更简单、更高效的R包的集合,如 dplyr (数据操作), ggplot2 (数据可视化), tidyr (数据整理), readr (数据读取) 等。
- Data Wrangling/Munging (数据整理/清洗): 将原始数据转换为更适合分析的格式的过程。
- Statistical Modeling (统计建模): 使用数学模型来描述数据中的关系和模式。
- Data Visualization (数据可视化): 通过图形方式展示数据,以帮助理解和洞察。
学习R语言是一个循序渐进的过程,熟悉这些基本词汇是构建更复杂分析能力的基础。随着您使用R的经验增加,您会遇到更多特定领域的词汇和函数。
R语言拥有丰富的词汇和概念,专门用于统计计算和数据可视化。理解这些词汇是学习和使用R语言的关键。以下是一些核心的R语言词汇,分为几个主要类别:
- 基本概念 (Basic Concepts)
- R: 一种主要用于统计计算和图形显示的编程语言和自由软件环境。
- RStudio: 一个流行的R集成开发环境 (IDE),提供了代码编辑、调试、可视化和工作空间管理等功能。
- 脚本 (Script): 一个包含R代码的文本文件,通常以 .R 为扩展名。
- 控制台 (Console): R的交互式界面,用户可以在此输入命令并查看结果。
- 工作空间 (Workspace): R当前会话中所有对象的集合。
- 对象 (Object): R中存储数据的基本单位,可以是变量、函数、数据集等。R中的一切皆为对象 (“everything in R is an object”)。
- 函数 (Function): 一段预定义的可重复使用的代码块,用于执行特定任务。例如 print(), mean(), plot()。
- 参数 (Argument/Parameter): 传递给函数的值,用于控制函数的行为。
- 赋值 (Assignment): 将一个值存储到一个对象的动作,通常使用赋值运算符 <- 或 =。
- 注释 (Comment): 以 # 开头的文本,R解释器会忽略这些文本,用于解释代码。
- 数据类型与结构 (Data Types and Structures)
- 向量 (Vector): R中最基本的数据结构,包含相同类型元素的有序集合。类型包括:
- numeric (数值型): 数字,如 10.5, 55。
- integer (整型): 整数,如 1L, 100L (L表示整数)。
- character (字符型): 文本字符串,如 “hello”, ‘R’。
- logical (逻辑型): TRUE 或 FALSE。
- factor (因子): 用于表示分类数据,每个水平 (level) 代表一个类别。
- 矩阵 (Matrix): 具有行和列的二维数组,所有元素必须是相同类型。
- 数组 (Array): 可以是一维、二维或多维的数据结构,所有元素必须是相同类型。
- 列表 (List): 可以包含不同类型元素的有序集合。列表的元素可以是向量、矩阵、其他列表等。
- 数据框 (Data Frame / data.frame): R中最常用于存储表格数据的数据结构,类似于电子表格或SQL表。数据框的列可以是不同的数据类型,但每列中的所有元素必须是相同类型。
- 缺失值 (Missing Value): 用 NA (Not Available) 表示数据中的缺失或未知值。
- NULL: 表示一个空对象或不存在的值。
- NaN (Not a Number): 表示未定义的数学运算结果。
- Inf (Infinity): 表示正无穷大或负无穷大 (-Inf)。
- 常用运算符 (Common Operators)
- 赋值运算符 (Assignment Operators):
- <- (首选)
- =
- -> (不常用)
- 算术运算符 (Arithmetic Operators): +, -, *, /, ^ (幂), %% (取模), %/% (整除)
- 关系运算符 (Relational Operators): == (等于), != (不等于), <, >, <=, >=
- 逻辑运算符 (Logical Operators): & (元素级与), | (元素级或), ! (非), && (短路与), || (短路或)
- 提取/子集运算符 (Subsetting/Extraction Operators):
- []: 用于提取向量、矩阵、数组、列表、数据框的元素。
- [[]]: 主要用于提取列表或数据框中的单个元素,通常返回该元素的原始类型。
- $: 用于按名称提取列表或数据框中的元素。
- 序列运算符 (Sequence Operator): : (例如 1:10 生成从1到10的序列)
- 成员运算符 (Membership Operator): %in% (检查元素是否存在于向量中)
- 控制流 (Control Flow)
- if, else if, else: 条件执行语句。
- for: 循环语句,用于迭代序列中的每个元素。
- while: 循环语句,当条件为真时重复执行代码块。
- repeat: 无限循环,通常与 break 结合使用。
- break: 跳出当前循环。
- next: 跳过当前循环的剩余部分,进入下一次迭代。
- return: 从函数中返回值。
- 核心函数 (Core Functions – 部分示例)
- 输入/输出 (Input/Output):
- print(): 打印对象。
- cat(): 连接并打印。
- read.csv(), read.table(): 读取CSV或表格文件。
- write.csv(), write.table(): 写入CSV或表格文件。
- save(), load(): 保存和加载R对象。
- 数据生成与操作 (Data Generation & Manipulation):
- c(): 合并或创建向量。
- seq(): 生成序列。
- rep(): 重复元素。
- length(): 获取向量或列表的长度。
- dim(): 获取对象的维度 (如矩阵或数据框的行数和列数)。
- nrow(), ncol(): 获取行数或列数。
- names(): 获取或设置对象的名称。
- rownames(), colnames(): 获取或设置行名或列名。
- subset(): 提取数据子集。
- merge(): 合并数据框。
- rbind(), cbind(): 按行或按列合并对象。
- apply(), lapply(), sapply(), tapply(): 一系列用于对数据进行迭代操作的函数。
- 数学与统计 (Math & Statistics):
- sum(), mean(), median(), sd(), var(): 求和、均值、中位数、标准差、方差。
- min(), max(), range(): 最小值、最大值、范围。
- summary(): 生成对象的摘要统计信息。
- table(): 创建列联表。
- lm(): 拟合线性模型。
- t.test(): 进行t检验。
- 类型检查与转换 (Type Checking & Conversion):
- class(): 查看对象的类别。
- typeof(): 查看对象的内部类型。
- is.numeric(), is.character(), is.logical(), is.na(): 检查对象的类型或是否为缺失值。
- as.numeric(), as.character(), as.data.frame(): 转换对象的类型。
- 帮助 (Help):
- help() 或 ?: 获取函数或主题的帮助文档。
- example(): 查看函数的使用示例。
- 包与库 (Packages and Libraries)
- 包 (Package): R函数、数据和已编译代码的集合,以良好定义好的格式组织。R通过包来扩展其功能。
- 库 (Library): 计算机上存储包的目录。
- CRAN (Comprehensive R Archive Network): R官方主要的包、源代码和文档的服务器网络。
- install.packages(): 从CRAN安装包的函数。
- library() 或 require(): 加载已安装的包到当前R会话中,使其函数和数据可用。
- Tidyverse: 一个非常流行的R包集合,用于数据科学,包括ggplot2, dplyr, tidyr, readr等,它们共享相同的设计理念、语法和数据结构。
- 数据处理常用词汇 (Common Data Manipulation Vocabulary – 尤其来自 dplyr 包)
- filter(): 根据条件筛选行。
- select(): 根据名称选择列。
- mutate(): 创建或修改列。
- arrange(): 按一列或多列对行进行排序。
- summarise() 或 summarize(): 将多个值聚合为一个摘要统计量。
- group_by(): 对数据进行分组,以便后续操作在每个组内独立执行。
- 管道操作符 (Pipe Operator) %>% (来自 magrittr 包, Tidyverse核心): 将前一个函数的结果作为下一个函数的第一个参数传递,使代码更易读。
- 绘图常用词汇 (Common Plotting Vocabulary – 尤其来自 ggplot2 包)
- plot(): R基础绘图系统中的通用绘图函数。
- ggplot2: 一个强大的、基于图形语法的绘图系统。
- ggplot(): 初始化一个ggplot对象,指定数据和美学映射。
- 美学 (Aesthetics / aes()): 图形属性如何映射到数据变量(例如,颜色、形状、大小)。
- 几何对象 (Geometries / geom_): 代表数据的图形元素(例如,geom_point(), geom_line(), geom_bar(), geom_histogram())。
- 标度 (Scales / scale_): 控制美学映射的具体方式(例如,颜色标度、坐标轴标度)。
- 分面 (Faceting / facet_wrap(), facet_grid()): 将数据划分为子集,并在不同面板中绘制子图。
- 主题 (Themes / theme()): 控制图形的非数据元素(例如,背景、字体、图例)。
- 统计建模相关词汇 (Statistical Modeling Vocabulary)
- 公式 (Formula): 用于描述模型中变量之间关系的符号表示,例如 response ~ predictor1 + predictor2。
- 模型对象 (Model Object): 拟合统计模型后返回的对象,包含模型的结果和信息。
- summary(): 通常用于查看模型对象的详细摘要。
- predict(): 使用拟合的模型进行预测。
- residuals(): 获取模型的残差。
掌握这些词汇将为你深入学习和有效使用R语言进行数据分析和可视化打下坚实的基础。