Welcome to phpBB3

Post by **mijanbokul** » Sun Dec 01, 2024 6:17 pm

This is an example post in your phpBB3 installation. Everything seems to be working. You may delete this post if you like and continue to set up your board. During the installation process your first category and your first forum are assigned an appropriate set of permissions for the predefined usergroups administrators, bots, global moderators, guests, registered users and registered COPPA users. If you also choose to delete your first category and your first forum, do not forget to assign permissions for all these usergroups for all new categories and forums you create. It is recommended to rename your first category and your first forum and copy permissions from these while creating new categories and forums. Have fun!

urrifat77 · Post by **urrifat77** » Mon Dec 02, 2024 10:34 am

驾驭亚马逊网络服务 (AWS) DevOps 的复杂环境可能具有挑战性，尤其是在准备关键面试时。对于刚刚开始 DevOps 职业生涯的初级从业者以及希望了解最新趋势和最佳实践的经验丰富的专家来说，这一旅程尤其令人生畏。

本指南旨在为读者提供解决任何 AWS DevOps 面试问题所需的知识和信心。

通过探索初级、中级和高级 AWS DevOps 面试领英数据库问题以及行为情境问题和专业发展趋势，本指南旨在涵盖所有重要领域，确保制定全面的准备策略。借助来自权威 AWS 来源的内容，您可以相信您获得的见解与 AWS 最佳实践和行业标准直接一致。

如果您是该领域的新手，请查看我们的AWS 云技术和服务课程。

为什么选择 AWS？
在探讨问题和答案之前，重要的是要了解为什么值得考虑将 AWS 云作为首选平台。

下图提供了 2024 年第二季度 (Q1) 领先的云基础设施服务提供商的全球市场份额。以下是所示市场份额的细分：

亚马逊网络服务（AWS）占据最大市场份额，为 31%。
紧随其后的是微软 Azure，占 25%。
Google Cloud占据 11% 的市场份额。
阿里云占有4%的份额。
Salesforce 云占有 3% 的市场份额
IBM 云、Oracle 和腾讯云均位居末位，各占 2%。

亚马逊在云计算领域保持领先，微软紧随其后（来源：Statista）

该图还指出，数据包括平台即服务 (PaaS) 和基础设施即服务 (IaaS) 以及托管私有云服务。此外，图中还提到，2024 年第一季度的云基础设施服务收入达到 760 亿美元。

截至 2024 年第一季度，亚马逊网络服务 (AWS) 继续成为云计算市场的主导者，并远远领先于其最接近的竞争对手微软 Azure。

AWS 在云市场的领导地位凸显了其对提升技能的重要性，并且由于其广泛采用以及科技行业对 AWS 技能的重视而提供了显着的职业优势。

我们的数据科学和人工智能备忘单“AWS、Azure 和 GCP 服务比较”提供了数据和人工智能相关工作所需的主要服务的比较，从数据工程到数据分析和数据科学再到创建数据应用程序。

基本 AWS DevOps 面试问题
让我们从一些基本问题开始，评估您对 AWS DevOps 概念和实践的基本理解。

问题 1：什么是 DevOps，AWS 如何支持它？
DevOps是一套将软件开发 (Dev) 和 IT 运营 (Ops) 结合起来的实践，以缩短系统开发生命周期，同时根据业务目标频繁提供功能、修复和更新。

AWS 通过提供各种服务和工具来支持 DevOps，以促进持续集成、持续交付、基础设施即代码以及自动监控和日志记录。

问题 2：您能解释一下“基础设施即代码”的概念以及它在 AWS 中是如何实现的吗？
基础设施即代码 (IaC) 是通过机器可读的定义文件而不是物理硬件配置或交互式配置工具来管理和配置计算基础设施的实践。

在 AWS 中，这主要通过 AWS CloudFormation 实现，它允许用户使用声明性语言描述和配置其云环境中的所有基础设施资源。

问题 3：什么是 AWS CloudWatch 以及它在 DevOps 中如何使用？
AWS CloudWatch 是一种监控和可观察性服务，可为 AWS、本地和其他云平台提供数据和可操作见解。在 DevOps 中，它用于收集和跟踪指标、收集和监控日志文件、设置警报以及自动对 AWS 资源的变化做出反应。这有助于维护系统健康、优化资源利用率并快速响应运营问题。

问题 4：解释 DevOps 中的“一切即代码”概念以及 AWS 如何支持它。
“一切皆代码”是 DevOps 的一项原则，它将基础设施即代码的概念扩展到软件开发和运营的其他方面。这包括将配置、安全策略甚至文档视为代码。

AWS 通过用于基础设施的 AWS CloudFormation、用于配置管理的 AWS Config、用于安全策略的AWS Identity and Access Management (IAM) 以及用于运营管理的 AWS Systems Manager 等服务来支持这一点。这种方法可以实现版本控制、自动测试和系统各个方面的一致部署。

urrifat77 · Post by **urrifat77** » Mon Dec 02, 2024 10:34 am

机器学习运营 (MLOps) 已成为科技领域最抢手的领域之一。随着数据团队越来越多地将机器学习模型部署到生产环境中，对 MLOps 专业人员的需求将继续上升。

如果您正在寻求成为一名 MLOps 工程师，我们将竭诚帮助您实现这一飞跃！

在本文中，我们将提供最热门的 MLOps 面试问题以及详细的解释和答案，以帮助您为即将到来的面试有效地做好准备。

什么是 MLOps？为什么它很重要？
MLOps 是机器学习操作 (Machine Learning Operations) 的缩写，是一门将机器学习与 DevOps 实践相结合的学科，旨在简化和自动化机器学习模型的生命周期。

MLOps 的主要目标是弥合数据科学与 IT 运营之间的差距，确保机器学习模型在生产环境中得到有效开发、部署、监控和高效维护。

该图显示了 MLOps 所涉及的不同方面

MLOps 涉及的不同技术方面。图片来自作者

这一角色非常重要，因为它使数据团队能够在生产 office 365 数据库环境中部署机器学习模型，同时确保它们能够有效地扩展和维护。从本质上讲，MLOps 可以加速创新、提高运营效率，并帮助公司充分发挥其数据驱动计划的潜力。

MLOps 所需的技能包括：

机器学习：了解模型开发、训练和评估。
DevOps：了解 CI/CD 管道、基础设施自动化和监控。
数据工程：数据管道、ETL 流程和数据存储解决方案方面的技能。
编程：精通 Python、R 等语言，并了解 TensorFlow、PyTorch 等机器学习框架。
云计算：熟悉 AWS、GCP 或 Azure 等云平台。
是的，MLOps 工程师就像独角兽！这正是他们需求量大、薪水越来越高的原因。

立即培养 MLOps 技能
从零开始并获得职业建设 MLOps 技能。
MLOps 基本面试问题
在本节中，我们将探讨基本的 MLOps 面试问题，这些问题可评估您对核心概念和原则的理解。这些问题旨在测试您对 MLOps 基本职责和挑战的了解以及您有效传达知识的能力。

熟悉这些问题可以为更高级的主题打下坚实的基础，并展示您在该领域的能力。

MLOps 和 DevOps 有什么区别？
描述：这个问题测试您对 MLOps 和 DevOps 之间根本区别的理解，这两个区别经常被混淆。

答案：MLOps 和 DevOps 都是以协作为中心的策略，但目的不同。DevOps 专注于自动化软件应用程序开发、测试和部署，标准化环境以简化这些流程。

相比之下，MLOps 是针对机器学习工作流程量身定制的，强调管理和维护数据管道和模型。虽然 DevOps 旨在自动化日常任务并标准化应用程序部署，但 MLOps 解决了机器学习的实验性质，包括数据验证、模型质量评估和持续模型验证等任务。

图像比较和对比 DevOps 和 MLOps

比较和对比 DevOps 和 MLOps。图片由作者使用 napkin.ai 创建

什么是模型或概念漂移？
描述：这个面试问题评估您对不断变化的数据对模型准确性的影响以及监控和更新模型的重要性的了解。

答：模型漂移和概念漂移是指由于数据模式和底层关系的不断发展，机器学习模型的性能随时间的变化：

模型漂移：当机器学习模型的性能因其在生产中遇到的数据与其训练数据有偏差而下降时，就会发生这种情况。这可能是由于数据分布、特征或特征与目标变量之间的关系发生变化而发生的。例如，如果经济突然发生变化，那么基于历史财务数据训练的模型可能会表现不佳。
概念漂移：这是一种特定类型的模型漂移，其中输入特征和目标变量之间的基本分布或关系会发生变化。这种漂移可能会导致模型的预测变得不那么准确，因为模型对数据的假设不再成立。例如，如果模型根据历史行为预测客户流失，那么如果客户行为随着时间的推移发生重大变化，则可能需要更新模型。
在将 ML 模型部署到生产之前应该进行哪些测试？
描述：这个面试问题考察您对测试实践的了解，以确保机器学习模型在部署到生产环境之前是

urrifat77 · Post by **urrifat77** » Mon Dec 02, 2024 10:34 am

在这个不确定的世界里，预测确切的结果是不可能的，但数据可以帮助我们做出更好的决策。无论是在商业、医疗保健还是数据科学领域，数据驱动的决策的重要性都是不可否认的。统计数据是提供洞察力的最常见来源，这些洞察力可以带来更具创新性的战略和有利可图的决策。

在本文中，我将讨论如何学习统计学，包括其应用和分步学习计划。

为什么要学习统计学？
非结构化数据不会给企业带来任何价值。因此，企业现在依赖统计数据进行数据分析和解读。这个过程如下：

明确研究目标。
从各种来源收集数据。
应用描述统计数据来了解其基本特征。
使用先进的统计技术来识别变量之间的关系。
在最后一步中，解释结果。
这种方法适用于各个领域，无论您是要研究 skype 数据库客户行为还是评估金融风险。环顾四周，您就会发现统计数据无处不在。

如果你是商人，你可以用它来确定客户的需求以及特定产品的产量。它还可以用于临床试验，以测试新疗法并确保患者安全。甚至天气预报员也会使用统计模型来预测降雨或风暴的可能性。简而言之，它被应用于多种领域。

学习统计学可以打开许多职业机会：数据科学家大部分时间都在使用各种统计技术简化复杂数据。许多招聘人员在招聘这些职位时都会寻找这项技能。而且由于数据科学的薪水很高，根据Glassdoor 的2024 年报告，你每年可以赚到大约 114,061 美元。

查看我们的指南《2024 年 35 个最热门统计面试问题和答案》，为您的下一次面试做好准备。

获得数据科学认证
增强您作为专业数据科学家的职业生涯。

时间线移动版.png
要理解的核心统计概念
在开始实际项目之前，建立强大的概念基础至关重要。因此，如果您对统计学完全陌生，请先关注我下面提到的核心概念：

描述统计
使用描述性统计数据，您可以用数字和视觉形式总结和描述数据集的主要特征。样本的平均值是描述性统计数据的一个例子，它进一步分为以下几类：

集中趋势测量
它们描述了最多数据的位置。有三种方法可以计算：

措施

定义

公式

意思是

数据集的平均值

平均值 = 所有值的总和/值的数量

中位数

数据有序时的中间值

中位数 = 第 {(n + 1)/2} 个值

模式

数据集中最常见的值

这是出现频率更高的值

变异性测量
它们显示数据点与平均值的分散程度，包括范围、方差和标准差。

措施

定义

公式

范围

最大值与最小值之差

范围 = 最大值 - 最小值

方差

与平均值的平方差的平均值

方差 =（偏差平方和）/值的数量

标准差

方差的平方根

SD = √方差

相关性
相关性衡量两个变量之间关系的强度和方向。不同相关性的含义如下：

相关性为0表示不存在线性关系。
+1表示完美关系。如果一个变量增加，另一个变量也会增加。
-1表示存在负相关。这意味着如果一个变量增加，另一个变量就会减少。
请参阅此描述性统计备忘单以获得深入概述。

可能性
概率衡量不确定性，根据有利结果和可能结果的比例来评估事件发生的可能性。为了得到更准确的估计，你应该增加试验次数。基本概率规则包括：

概率范围：概率范围从0到1，其中0表示事件不会发生，1表示事件会发生。
概率总和：所有可能结果的总概率等于1 。
加法规则：如果两个事件不能同时发生，则它们的总概率等于各个概率之和。
P(A or B) = P(A) + P(B)

如果两个事件可以同时发生，则减去两者同时发生的概率。

P(A or B) = P(A) +P (B) - P(A and B)

乘法规则：两个独立事件发生的概率是它们概率的乘积。

urrifat77 · Post by **urrifat77** » Mon Dec 02, 2024 10:35 am

Meta AI 宣布发布 Llama 3.2，引入了该系列的首批多模式模型。Llama 3.2 专注于两个关键领域：

支持视觉的 LLM：11B 和 90B 参数多模式模 truemoney 数据库型现在可以处理和理解文本和图像。
适用于边缘和移动的轻量级 LLM：1B 和 3B 参数模型设计为轻量级和高效的，允许它们在边缘设备上本地运行。
在本文中，我将直奔主题，重点介绍新款 Llama 3.2 型号的关键方面，包括它们的工作原理、使用案例、如何访问它们等。您可以查看我们关于微调 Llama 3.2 的单独指南。

Llama 3.2 11B 和 90B Vision 型号
Llama 3.2 的一个关键特性是引入了具有 110 亿和 900 亿个参数的视觉模型。

这些模型为 Llama 生态系统带来了多模式功能，使模型能够处理和理解文本和图像。

多式联运能力
Llama 3.2 中的视觉模型在图像识别和语言处理任务方面表现出色。它们可以回答有关图像的问题、生成描述性标题，甚至可以推理复杂的视觉数据。

图像理解演示（来源：Meta AI）
根据 Meta 的实例，这些模型可以分析文档中嵌入的图表并总结关键趋势。它们还可以解读地图，确定徒步旅行路线的哪一部分最陡峭，或计算两点之间的距离。

Llama 视觉模型的用例
文本和图像推理的融合提供了广泛的潜在应用，包括：

文档理解：这些模型可以从包含图像、图形和图表的文档中提取和总结信息。例如，企业可以使用 Llama 3.2 自动解释以视觉形式呈现的销售数据。
视觉问答：通过理解文本和图像，Llama 3.2 模型可以根据视觉内容回答问题，例如识别场景中的对象或总结图像的内容。
图像字幕：模型可以为图像生成字幕，使其在数字媒体或无障碍等领域有用，在这些领域理解图像的内容非常重要。
开放且可定制
Llama 3.2 的视觉模型是开放且可定制的。开发人员可以使用 Meta 的Torchtune框架对这些模型的预训练版本和对齐版本进行微调。

此外，这些模型可以通过Torchchat在本地部署，减少对云基础设施的依赖，并为希望在本地或资源受限的环境中部署 AI 系统的开发人员提供解决方案。

该视觉模型还可以通过 Meta 的智能助手 Meta AI 进行测试。

Llama 3.2 视觉模型的工作原理
为了让 Llama 3.2 视觉模型能够理解文本和图像，Meta 使用特殊适配器将预训练的图像编码器集成到现有的语言模型中。这些适配器将图像数据与模型的文本处理部分链接起来，使其能够处理这两种类型的输入。

训练过程从 Llama 3.1 语言模型开始。首先，团队使用大量图片和文本描述对模型进行训练，教会模型如何将两者联系起来。然后，他们使用更清晰、更具体的数据对其进行改进，以提高其理解和推理视觉内容的能力。

在最后阶段，Meta 使用微调和合成数据生成等技术来确保模型提供有用的答案并安全运行。

基准：优势与劣势
Llama 3.2 视觉模型在图表理解方面表现出色。在 AI2 Diagram（92.3）和 DocVQA（90.1）等基准测试中，Llama 3.2 的表现优于 Claude 3 Haiku。这使其成为涉及文档级理解、视觉问答和从图表中提取数据的任务的绝佳选择。

在多语言任务（MGSM）中，Llama 3.2 的表现也非常出色，得分 86.9，几乎与 GPT-4o-mini 匹敌，对于使用多种语言的开发人员来说，它是一个不错的选择。

Llama 3.2 11B 和 90B 基准测试

来源：Meta AI

虽然 Llama 3.2 在基于视觉的任务中表现良好，但它在其他领域也面临挑战。在 MMMU-Pro Vision（测试视觉数据的数学推理）中，GPT-4o-mini 的表现优于 Llama 3.2，得分为 36.5，而 Llama 得分为 33.8。

urrifat77 · Post by **urrifat77** » Mon Dec 02, 2024 10:35 am

容器化已经改变了工程团队管理和扩展应用程序的方式，尤其是在数据管理、分析和机器学习方面。通过将应用程序打包到隔离的轻量级环境中，容器可确保从开发到生产的一致性能。

Docker 是众多可用平台中最受欢迎的 viber 数据库解决方案。它的灵活性和简单性使数据专业人员能够构建可重复、可扩展且高效的管道，同时促进协作。

在本文中，我们将概述 Docker 的实用学习计划，包括部署第一个简单应用程序的步骤。让我们开始吧！

什么是 Docker？为什么学习它很有用？
Docker是一个开源平台，它使用容器化简化了应用程序的部署、扩展和管理。

容器是轻量级的可移植环境，包含运行应用程序所需的一切（代码、运行时、库和设置），以实现跨不同系统的一致性能。在数据项目中，Docker 用于构建和管理这些容器，使应用程序能够在任何基础设施上可靠地运行。

与需要自己的操作系统和虚拟机管理程序来管理的虚拟机 (VM) 不同，Docker 仅虚拟化应用程序层。这使得容器启动速度更快、资源占用更少且更易于配置。

展示容器化应用程序与虚拟机的图表

容器化应用程序与虚拟机。图片来源：Docker

对于数据专业人员，Docker 有助于创建可重现的环境，使数据管道从开发到生产都能一致运行。它通过提供标准化、可共享的环境，最大限度地减少依赖性问题、简化工作流程并促进团队协作。

此外，Docker 还与Jupyter、TensorFlow和Apache Hadoop等流行的数据工具集成。

掌握 Docker 可以提高生产力，优化工作流程，并使您的项目可扩展且易于部署！

从头学习 Docker：您的第一次部署
学习 Docker 的最佳方式是亲自动手。因此，让我来指导您完成第一次简单的部署。之后，我们将探讨学习计划以加深您的知识。

步骤 1：了解核心概念
在开始使用 Docker 之前，掌握一些基本概念非常重要。以下是主要 Docker 概念的细分：

容器：容器是轻量级的、独立的单元，它将应用程序及其所有依赖项打包在一起，确保它在不同环境中一致运行。
镜像：Docker 镜像是用于创建容器的只读模板。它包含运行应用程序所需的一切，例如代码、库和系统工具。镜像通常由 Dockerfile 构建。
Dockerfile ：Dockerfile 是一个文本文件，其中包含有关如何构建 Docker 映像的说明。它概述了安装软件、复制文件和配置运行应用程序所需的环境等步骤。
Docker Hub ： Docker Hub是一个公共注册中心，您可以在其中存储、共享和下载 Docker 镜像。它充当 Docker 镜像的中央存储库，可轻松分发和重用预配置的环境。
卷：卷是一种保存 Docker 容器中生成和使用的数据的方法。它们允许您在容器生命周期之外管理和存储数据，确保在容器停止或删除时不会丢失重要数据。
网络：Docker 网络促进容器之间的通信。每个容器可以连接到一个或多个网络，使它们能够安全地交互和共享数据。
Docker 架构概览

Docker 架构概览。图片来源：Docker

在开始使用 Docker 部署应用程序之前，了解这些核心概念至关重要。掌握这些基础知识将提供坚实的基础，使实践更加有效。

Docker 简介课程可以极大地帮助巩固您当前的知识。

第 2 步：安装 Docker
要开始使用 Docker，您需要在系统上安装它。以下是针对不同平台的说明。有关更详细的指导，请点击链接查看官方 Docker 文档。

1.在 Windows 上安装 Docker
要求：

Windows 10 64 位：专业版、企业版或教育版（版本 19041 或更高版本）
Windows 11 64 位：家庭版、专业版、企业版或教育版
WSL 2 后端
步骤：

1.启用 WSL 2（适用于 Linux 的 Windows 子系统）：

以管理员身份打开 PowerShell。
运行以下命令：

urrifat77 · Post by **urrifat77** » Mon Dec 02, 2024 10:36 am

数据可视化是数据科学和分析领域的一项关键技能。它将原始数字和复杂数据集转化为清晰、引人入胜且可付诸行动的见解。

引人注目的可视化可以揭示电子表格或数据库中隐藏的模式、趋势和关系。对于数据专业人员来说，掌握数据可视化是有效传达发现、做出明智决策和推动各个领域产生重大影响的变革的关键。

在本文中，我将讨论数据可视化项目对于技能开发和职业发展的重要性。我还将为您提供不同复杂程度的项目构想，以逐步培养您的技能，从基本的图表创建到时间序列可视化再到地理空间地图。

这些数据可视化项目想法将帮助您提升技能并成长为一名数据专业人士。

为什么要从事数据可视化项目？
数据可视化项目是提升技能、展示能力和获得行业标准工具实践经验的有效方式。无论您是刚开始从事数据科学还是希望提升自己的职业生涯，参与这些项目都可以带来诸多好处，例如：

培养分析技能
从事数据可视化项目可以培养您的批判性思维和解读能力。选择合适的可视化并完善您的工作可以提高您的决策能力和对细节的关注。

在创建视觉叙事时，您需要批判性地思考如何有效地传达见解，并考虑受众需求和潜在的误解等因素。

将数据转化为有意义、可操作的信息的实际经验可以培养对数据分析和交流的更深入、更直观的理解，这些技能在任何数据驱动领域都是无价的。

投资组合开发
对于从事数据科学、分析或设计职业的人来说，在作品集中展示数据可视化项目非常重要。

精心策划的作品集是技能和创造力的有力证明，让您在竞争激烈的就业市场中脱颖而出。它展示了您处理真实数据、提取有意义的见解以及通过视觉方式有效传达复杂信息的能力。对潜在雇主来说，具体的技能展示通常比简历上的资格列表更有吸引力！

此外，多元化的作品集重点介绍了各种可视化技术和工具，体现了您的多才多艺和学习意愿，这些特质在这些快速发展的领域备受重视。

学习可视化工具
从事数据可视化项目可让您获得使用Tableau、Power BI、Matplotlib和ggplot2等流行工具的宝贵实践经验。这种实践经验对于提高熟练程度和理解每种工具的细微差别至关重要。

在解决实际数据集和可视化挑 99 英亩数据库战的过程中，您将学会充分利用每种工具的优势并克服其局限性。通过项目工作，您将熟悉这些行业标准工具的界面、工作流程和最佳实践，并学会根据特定的可视化需求选择合适的工具。

使用 Python 进行数据可视化
学习 Python 中的关键数据可视化技能

适合初学者的数据可视化项目
初学者项目侧重于培养基础技能和开始理解视觉效果。

专注于学习 Excel 和基本的 Matplotlib 等工具以及散点图、折线图和条形图等简单图表。从易于理解的视觉效果开始，这些视觉效果可以支持您对数据的了解，这是建立数据可视化基础技能的好方法。

在此阶段，可以考虑参加“了解数据可视化”等初学者课程并参与一些项目。

项目 1：按星期几绘制航班成本
该项目构想涉及使用 Excel 创建一个或多个散点图，以可视化一周中不同日子的机票价格。您可以使用包含一周中各天航班费用的数据集，可能为不同的航线或航空公司创建多个图表。使用 Excel 的散点图功能绘制价格，其中 x 轴表示一周中的日子，y 轴表示机票价格。

这个项目是初学者的绝佳起点。它使用广泛使用的 Excel 软件介绍了数据可视化的关键概念。它允许新手处理与他们的生活相关且可能有用的现实世界数据。

该项目提供了将原始数字数据转换为视觉格式的实践经验，可以揭示航班定价模式，例如哪些日子的旅行更便宜或更昂贵。

通过完成本项目所学习或强化的技能和工具包括：

使用 Excel 可视化数据
数据输入和组织
了解不同的图表类型及其适当用途
数据探索和模式识别
图表探索 TripAdvisor 的航空价格数据

探索 TripAdvisor 上的航空价格数据。图片来源：NYCDataScience

项目 2：使用 R 创建叶序艺术
如果您需要指导，“以叶序为灵感创作花卉图案”项目通过 R 中的数据可视化探索数学、自然和艺术的交汇。利用叶序的概念（即植物茎上的叶子排列），您可以创建视觉上令人惊叹的螺旋，模仿花卉和植物中的自然图案。叶序是斐波那契数列和黄金角等数学原理如何描述自然之美的典型例子。

到项目结束时，您将制作出花卉艺术，利用数据可视化技术展示这些自然图案的优雅。这个项目非常适合那些想要将创造力与数据科学相结合，同时加深对自然界数学模型理解的人。

在本项目中学习的数据可视化技能包括：

使用 ggplot2 等工具在 R 中创建可视化
理解和运用自然模式背后的数学原理
通过生成和操作数据来表示美丽的形状，从而提高你的 R 编码技能
学习如何应用旋转和缩放等变换来创建复杂的设计
项目三：诺贝尔奖得主历史可视化
“诺贝尔奖得主历史可视化”项目探索了世界上最负盛名的奖项之一的历史数据。它涉及分析和可视化不同类别、年份和人口统计数据的诺贝尔奖得主的数据。

该项目对于初学者来说是一个很好的选择，因为它使用有趣且易于管理的数据集将数据操作与有意义的可视化任务结合在一起。

该项目可让您练习各种可视化技术，同时处理具有文化和历史意义的现实世界数据。它还介绍了使用数据可视化来发现和传达潜在偏见的重要概念，在教授技术技能的同时教授批判性思维。

该项目支持Python和R两种语言。

在此项目中学习的关键数据可视化技能包括：

创建时间序列可视化来显示数十年来的趋势
为分类数据（例如奖项类别）设计条形图和饼图
开发用于地理分析的热图或分级统计图
有效地使用颜色来表示不同的类别或突出差异
中级数据可视化项目
掌握了基础知识后，是时候通过更具挑战性的项目来提升您的数据可视化技能了。本节介绍中级理念，以扩展您的工具包并深化您的分析能力。

项目 4：比较棒球运动员的统计数据
“比较棒球运动员统计数据”项目提供了一个引人入胜的机会，可以使用现实世界的体育数据应用和扩展 Python 中的基础数据可视化技能。

利用美国职业棒球大联盟的Statcast数据，您将分析和比较两名棒球运动员的本垒打。此项目允许您处理多维数据，将空间信息（击球位置和轨迹）与数值数据（出口速度、发射角度）相结合。必须选择适当的可视化类型来有效地表示这些复杂的数据，包括散点图、热图，甚至可能是 3D 可视化。

urrifat77 · Post by **urrifat77** » Mon Dec 02, 2024 10:36 am

与所有机器学习模型一样，人工智能系统经过训练以最小化误差函数。适当的训练是必要的，但不足以将人工智能模型融入用户的日常生活和组织的工作流程中。

为了成功实现人机交互，AI 模型应该能够通过解读用户意图并根据安全和公平准则采取行动来做出响应。例如，聊天机器人应避免给出伤害自己或他人的指令，而协助招聘人员的模型不应歧视求职者。

人工智能系统正变得越来越强大，并融入到日常生活中。因此，开发人员必须确保人工智能的大规模行为符合人类的伦理、价值观和道德规范。这被称为超一致性。人工智能伦理课程详细介绍了人工智能的伦理方面。

在本文中，我们解释了人工智能模型的超级对齐，讨论了实现人工智能模型（尤其是 LLM）超级对齐的不同方法，并涵盖了超级对齐的道德考虑和实际挑战。

AI 对齐：快速概览
对齐是指确保 AI 系统按照用户意图以无偏见的方式行事并遵循安全准则的过程和方法。本文介绍了对齐中使用的概念和方法。

除了人工监督外，开发人员还采用过滤和基于规则的系统等方法来确保 AI 系统中的一致性。用于将模型与小用户群对齐的技术在应用于更强大、更受欢迎的模型时变得不切实际。例如：

内容过滤使用算法来确保模型不会产生有害内容。这些算法会过滤掉不良内容，例如粗俗的语言和露骨的图像。但是，它们仅限于算法过滤的内容，无法防范新类型的不良内容。
基于规则的系统使用一组预定义的规则来防止不良用例，例如伤害自己或他人的指令。但它们无法适应用户或 AI 模型的意外行为。
传统的偏见缓解方法（如重新加权训练数据）可以有效避免已知偏见。然而，当复杂的人工智能系统在新的环境中使用时，它们可能不足以检测出新的、更微妙的偏见。
因此，在更大规模和更广泛范围内工作的强大 AI 模型需要一种新的对齐方法。这称为超对齐。

什么是超级对齐？
强大的人工智能模型的范围、规模、复杂性和广泛使用带来了一系列全新的协调挑战。

超级对齐涵盖了将大规模人工智能模型与人类价值观、伦理道德相一致的方法和途径。它涵盖许多子领域。

一般而言，超比对系统应该：

积极寻求人类合作，以在最初的协调之后保持一致。
不断进行调整和重新调整，以适应新的用例和未写明的人类价值观。这就是调整管道。
解释他们的行为并根据人类的反馈更新他们的反应。
超比对是一个不断发展的领域。它涉及当前最先进的人工智能模型，并考虑了有望开发的更强大的人工智能模型的方法。

随着人工智能变得越来越强大，人们期待它能管理人类生活的方方面面，例如农业、交通等。这样的人工智能系统必须始终将人类的利益放在首位。

提升组织的 AI 技能
通过 DataCamp for Business 为您的团队提供先进的 AI 技能，从而改变您的业务。获得更好的洞察力和效率。

商业主页英雄.png
实现超对准的技术
在本节中，我们将解释一些用于实现超对准的方法和技术。这些方法背后的基本理念是它们应该是可扩展的。

对抗训练
在对齐过程中，与任何训练一样，开发人乐队数据库员必须测试系统是否已学会展示理想的行为。测试超级对齐的一种方法是向人工智能展示反例。大型人工智能系统必须经过训练才能识别哪些请求不是善意的，并对其进行适当处理。

超级联盟的常见方法是使用两个人工智能作为对手。这类似于安全研究中常用的红队和蓝队方法，其中红队试图突破蓝队的安全和防御。

在超级对齐对抗训练的背景下，每个 AI 都会尝试找到会混淆其他 AI 的输入。例如，假设一个 AI（蓝队）已对齐以不以脏话回应。在对抗训练中，对手 AI（红队）的目标是找到触发蓝队 AI 做出不适当回应的提示。目标是确保即使在红队 AI 测试时，蓝队 AI 仍能继续生成可接受的响应。

对抗训练概念说明

对抗训练概念图解。图片由 DALL·E 制作

稳健性训练
稳健性是指能够区分实际上不同但表面上相似的输入。它应该能够识别极端情况和边缘情况。例如，识别视频片段中人类动作的系统应该能够区分真实的街头斗殴和电影中精心设计的打斗。混淆两者可能会导致有害后果。

因此，大型模型应该专门接触表面上相似的场景。这将教会模型识别细微差别和微妙的特征。

可扩展的监督
随着人工智能模型找到新用户并应用于更多应用，它们的监督也需要同时扩大规模。人类的参与是监督和协调人工智能的关键。扩大人类监督比扩大技术解决方案更难。因此，为了保持对人工智能的可扩展监督，需要新的方法：

自动实时监控：自动化系统可以持续跟踪人工智能的反应并监控其行为，以检查其是否符合人类价值观。与预期标准的重大偏差可以标记出来，以便进行人工干预。
程序化审核：手动审核和审计所有 AI 输出是可行的。这可以通过开发新的程序和算法来检查 AI 是否符合人类道德。可疑的情况可以标记出来，供人类审核员手动判断。
带有人工反馈的强化学习（RLHF）
正如在有关强化学习(RL)的文章中所讨论的那样，在传统的 RL 实现中，AI 系统通过观察人类来学习改变其行为。它使用反复试验的过程来最大化奖励。RLHF 将 RL 与人类输入相结合，以在训练期间指导 AI 的行为。

RLHF 从预先训练的模型开始。人工审阅者为模型分配一组任务，并对输出提供反馈，例如对模型的响应进行评分或纠正。

该模型利用这些信息来微调其行为，以与人类反馈保持一致并最大化奖励（积极的人类反馈）。这个过程不断重复，直到模型的输出被认为是相关、适当和准确的。

urrifat77 · Post by **urrifat77** » Mon Dec 02, 2024 10:36 am

我们生活在一个人工智能受到公众关注和投资的时代。随着 ChatGPT、Google Gemini 和许多其他生成式人工智能模型的发展，数百万人越来越多地将这些强大的工具用于各种目的，从总结文档、回答问题、提供解释到生成创意内容，包括代码、歌曲和营销活动。您可以在我们的人工智能基础技能轨道中了解有关当前生成式人工智能革命的更多信息。

鉴于这些工具的强大功能，人们很容易忽视它们的缺点。尽管关于人工智能对人类生存风险的论述很多，但尽管近年来人工智能研究人员和气候活动家积累了越来越多的证据，但关于人工智能对环境影响的争论仍然被掩盖。

将人工智能与环境目标结合起来，对于提高我们应对气候危机的机会至关重要。促进人工智能在气候相关问题中的应用很重要，但如果人工智能行业不能坚决解决其日益增长的环境足迹，那么仅凭这一点是行不通的。

在本文中，我们将分析人工智能对环境的负面影响。我们将探讨人工智能在资源消耗方面的成本，以及将人工智能发展置于其他基本社会需求之上的道德影响。此外，我们将探讨减少这些模型对环境影响和推进更可持续的人工智能的主要方法。

提升组织的 AI 技能
通过 DataCamp for Business 为您的团队提供先进的 AI 技能，从而改变您的业务。获得更好的洞察力和效率。

商业主页英雄.png
计算人工智能对环境的影响：方法论挑战
自 2022 年底推出 ChatGPT 以来，人工智能行业司法部数据库呈指数级增长。根据 Statista 的数据，人工智能市场在 2024 年增长超过 1840 亿美元，预计到 2030 年市场规模将继续超过 8260 亿美元。

2020 年至 2030 年全球人工智能市场规模。

2020 年至 2030 年全球人工智能市场规模。资料来源：Statista

然而，在实施这种扩张主义计划之前，首先要评估人工智能对地球造成的成本。风险比以往任何时候都高，因为世界已经没有时间宣传一场全面的气候灾难了。

因此，评估人工智能对环境的影响是必须的。然而，正如我们在《数字技术和数据对环境的影响》一文中所解释的那样，这是一项具有挑战性的任务。

尽管对该主题的研究日益增多，但仍无法对人工智能的环境足迹进行全面评估。主要的限制和挑战包括：

缺乏透明度和数据缺口
人工智能公司往往不愿意披露有关其产品的信息，包括与环境相关的信息。这会导致重要的数据缺口和盲点，从而影响人工智能研究人员的工作。正如Hugging Face 气候负责人Sasha Luccioni 所概述的那样：

据我所知，没有一家提供人工智能工具的公司提供能源使用和碳足迹信息。我们甚至不知道像 GPT 这样的模型有多大。没有任何东西可以泄露；一切都是公司机密。

Sasha Luccioni ， Hugging Face 气候负责人
什么算作环境足迹？
大多数研究都关注能源需求或温室气体排放（即碳足迹）。然而，评估其他非能源影响也很重要，这些影响也构成了数字环境足迹，例如水和矿物质消耗。

纵观整个人工智能生命周期
大多数文章都研究了人工智能在训练过程中的足迹。然而，正如 Luccioni 等人在 2023 年的一篇论文中所说，还应考虑人工智能生命周期的其他领域，包括材料提取、制造、模型部署和处置。

生命周期评估方法

生命周期评估方法。资料来源：Luccioni 等人。

人工智能的环境足迹
尽管在估算人工智能的环境足迹方面存在方法上的局限性，但现实情况是，人工智能在自然资源方面付出了巨大的代价。在下一小节中，我们将仅介绍人工智能的碳足迹和水足迹。但是，正如前面提到的，需要开展新的研究来评估人工智能在其他领域的影响，例如矿物消耗或生物多样性丧失。

人工智能的碳足迹
为了发挥其魔力，人工智能需要大量的能源，这通常会转化为额外的碳排放。

LLM所消耗的能量可以分为两类：

运行能量。这是运行这些工具（无论是训练还是推理）所需的能量。
硬件制造。这是制造人工智能系统设备（例如 GPU（图形处理单元））所需的能源。
大多数研究都集中在人工智能训练阶段的碳足迹，主要是因为这是人工智能生命周期中可用数据的阶段，尤其是在开源模型的情况下。

例如，在 2019 年的一篇文章中，Strubell 等人估计，训练一个具有 2.13 亿个参数的 LLM 会排放 626,155 磅二氧化碳，这几乎相当于五辆汽车（包括燃料）的一生排放量。

然而，推理过程中（即使用模型执行训练任务的过程）的能量消耗可能与训练 LLM 一样多，甚至更高。

在 2023 年的一项研究中，Luccioni 等人计算出，在 18 天内部署一个拥有 1760 亿个参数的 BLOOM 模型，平均每天消耗 40.32 千瓦时的电能（大约相当于 1,110 次智能手机充电），每天排放约 19 公斤二氧化碳当量。

在最近的一篇文章中，Lucioni 等人还证明了部署阶段所需的能量很大程度上受手头任务的影响。特别是，他们发现基于图像的任务是最耗能的。

urrifat77 · Post by **urrifat77** » Mon Dec 02, 2024 10:36 am

当你对 Java 编程基础知识有了很好的理解后，最好通过项目来巩固你的学习。事实上，任何人都可以（也应该）完成这些项目——从初学者到高级。

这篇博文将指导您了解一些关于如何跨经验水平启动自己的 Java 项目的想法，同时还将展示一些可能对制作这些项目有用的工具和资源。如果您完全不熟悉 Java，那么值得查看我们的Java 入门课程以掌握基础知识。

初级 Java 项目
首先，让我们来看看一些可以用 Java 完成的初级项目。这些项目往往只使用几个类，不需要广泛的语言知识。

以下是一些可以帮助您入门的项目构想：

1. 构建一个基本计算器
在此项目中，您将创建一个基本的计算器，它可以执行简单的算术运算，例如加法、减法、乘法和除法。此项目将帮助您熟悉变量、条件语句和用户输入。

该项目的一些常见变化包括添加更多操作或实现 GUI（图形用户界面）。

计算器的 GUI 如下所示：

计算器项目 GUI

来源：Rohit Kumar 使用 Java AWT 创建计算器

以下是计算器的一些变体示例：

科学计算器
小费计算器
单位换算
2. 创建货币转换器
基于构建简单计算器的相同算术概念，您可以制作一个更适用但更简单的货币转换器。您可以使用当前汇率将一种货币转换为另一种货币。该项目还允许您使用外部 API 并提高您的数据处理技能。

您可以尝试使用汇率 API 或Currencylayer API来获取与您的项目相关的货币汇率。

3. 制作待办事项清单应用程序
待办事项列表是一个可以在日常生活中使用的实用项目。在这个项目中，您将创建一个应用程序，用户可以在其中添加要执行的任务，并在完成后将其标记为已完成。这个项目将向您介绍数组、循环和数据结构（例如列表）等概念。

您可以在待办事项列表应用中包含的一些潜在功能包括：

为每个任务添加截止日期或到期日
将任务分为不同的部分（例如工作、个人、学校）
设置即将完成的任务的提醒
中级 Java 项目
Java 项目不仅仅适合初学者。如果您对自己的 Java 技能有一定信心，那么中级项目就适合您。它们可以帮助测试您的技能并鼓励您寻找新颖的问题解决方案。

请看下面的一些中级 Java 项目想法：

4.创建图书馆管理系统
在这个项目中，你将开发一个用于管理图书馆图书的系统。这个项目将帮助你处理复杂的数据结构，并练习面向对象的编程概念，如继承、封装和多态性。

以下是Haris 在 GitHub 上创建的图书馆系统的示例界面：

图书馆系统 Java 项目示例

您的图书馆管理系统中可能包含的一些功能包括：

将新书添加到图书馆目录
追踪借阅和归还的书籍
生成热门或逾期图书的报告
5. 建立一个简单的搜索引擎
一个简单的搜索引擎是一个有用的项目，可以练习字符串操作、排序算法和数据组织。您还将学习如何使用两个 API：Crawl API 和 Search API。

在这个项目中，您将创建一个程序，它可以接受用户查询并从一组预定义的文档中返回相关结果。

您的搜索引擎中可以包含的一些潜在功能包括：

高级搜索选项（例如精确短语匹配、布尔运算符）
根据相关性或日期对结果进行排序
显示包含查询词的文档中的文本片段
6.制作聊天应用程序
创建一个简单的聊天应用程序是一个有趣且具有挑战性的项目，可以帮助您掌握网络、多线程和事件驱动编程等概念。

聊天应用程序示例

您可以先尝试构建一个基于文本的聊天应用程序，然后再实现文件共享或群聊等功能。

这是有关使用JavaFX 构建聊天应用程序的良好指南。

对该项目可能有用的一些库是：

JavaFX用于用户界面
网络通信套接字
7.建立库存管理系统
该项目涉及创建一个用于管理商店或仓库库存的系统。您需要使用数据库并设计数据模型来跟踪产品、数量和价格。您还将了解使用 SQL 与数据库交互时的 CRUD 操作（创建、读取、更新、删除）。

您可以在库存管理系统中包含的一些功能包括：

将新产品添加到库存
更新产品数量和价格
生成销售和库存水平报告
对于任何想要成为数据库管理员或数据科学家的人来说，这都是一个有用的项目，因为 SQL 知识对于这些角色至关重要。

高级 Java 项目
高级项目可能需要更长的时间才能完成，但更为复杂，并且类似于您在行业中可能遇到的真实代码示例。

以下是一些可供您挑战的高级 Java 项目想法：

8.创建电子商务购物系统
在这个项目中，您将开发一个功能齐全的电子商务平台，用户可以在其中浏览产品、将商品添加到购物车并使用不同的付款方式结账。这个项目将测试您对面向对象设计模式和数据结构的了解。

您可以在在线购物系统中包含的一些功能包括：

用户身份验证和授权
产品评论和评分
订单追踪和历史记录
9. 构建网页抓取应用程序
网络抓取是从网站提取数据的过程。在本项目中，您将创 paytm 数据库建一个程序，该程序可以从多个网站抓取数据并将其存储在数据库中以供日后使用。本项目将帮助您提高对网络、API 和数据库的了解。

您的网页抓取应用程序可以包含的一些潜在功能包括：

用户输入指定要抓取的网站
数据清理和格式化以实现一致存储
定期更新或自动抓取的计划选项
10. 创建求职门户网站
求职门户网站是一个平台，雇主可以在此发布招聘信息，求职者可以在此申请职位。在本项目中，您将开发一个网站，让用户可以创建帐户、搜索职位和提交申请。本项目将帮助您练习 HTML、CSS 和 JavaScript 等 Web 开发技能。

您可以在求职门户网站中包含的一些功能包括：

使用筛选条件（例如位置、行业）搜索职位列表
用户资料创建和管理
简历提交申请
您可以仿照以下已建立的求职门户网站来设计自己的求职门户界面：

确实，Glassdoor或LinkedIn Jobs。

11.开发罪犯面部检测系统
在这个项目中，你将开发一个系统，该系统可以从安全摄像头镜头中检测人脸，并根据已知罪犯的现有数据库识别潜在罪犯。这个项目需要计算机视觉技术、图像处理的数据结构和机器学习算法方面的知识。

您可以在犯罪分子面部检测系统中包含的一些功能包括：

使用深度学习模型进行人脸识别和匹配
通过抓取或手动输入的方式定期更新罪犯数据库
简历或作品集的 Java 项目创意
学习 Java 可以为您带来许多职业机会，例如成为软件开发人员、Web 开发人员或数据科学家。

以下一些项目想法可以向潜在雇主展示你的技能，并使你的简历或作品集脱颖而出：

12. 移动应用程序开发项目
随着智能手机的兴起，移动应用程序开发已成为一个利润丰厚的领域。Java 是 Android 应用程序开发的主要语言，使其成为移动项目的绝佳选择。您可以创建创新且用户友好的应用程序，以满足各种需求和行业。

为了获得更加多样化的产品组合，您可以尝试各种用例的移动应用程序，例如：

用于跟踪锻炼和营养的健身追踪器应用
一款带有互动游戏和测验的语言学习应用程序
用于预算和费用跟踪的个人财务应用程序

Taiwan Data

Welcome to phpBB3

Welcome to phpBB3

24 个 AWS DevOps 面试常见问题

2024 年 30 大 MLOps 面试问题和答案

2024 年如何学习统计学：初学者完整指南

Llama 3.2 指南：工作原理、用例等

如何从头学习 Docker：数据专业人员指南

适合各个层次的 10 个数据可视化项目创意

理解超级对齐：使人工智能与人类价值观保持一致

可持续人工智能：人工智能如何减少其对环境的影响？

适合所有级别的 14 个 Java 项目：初级、中级和高级