NVIDIA注册使用第一步

​用nVIDIA授权文件注册账号

购买后,邮箱会收到授权文件。这个邮箱是一般是客户提供给集成商的用于接收授权文件的。Screen capture showing an order confirmation message for NVIDIA vGPU software

在这个文档的第二页有一个链接。

点。

3. New to vGPU entitlements? Please register and follow instructions on the registration page.

点开其中的链接,会打开一个页面,看到Entitlement ID已经填进去了。

填充下Contact信息,姓名、邮箱等提交后,出现一个网页提示。

Thank you for registering your entitlement. We will send you an email with the next steps within the next 15 minutes. Please stay tuned.

之后检查邮箱,按邮件设置密码,账号就可以登录了。

登录网址

https://nvid.nvidia.com

image-20211215145659343

详细过程参考官方文档

https://docs.nvidia.com/grid/latest/grid-software-quick-start-guide/index.html#creating-nvidia-enterprise-account

第1.4节

Trouble Shooting

实际发现可能一直收不到nvidia的邮件。

1、到网页版而不是邮件客户端软件中检查隔离邮件、垃圾邮件

2、联系企业邮箱管理员看是不是被拒收了。

3、如果有问题,可以通过邮箱enterprisesupport@nvidia.com开Case。(这个时候还没有账号,这可能是唯一的方法。)

下面是我收到的回复,让我检查邮箱阻拦的,后面果然是被拦截了。

image-20211231162917618

建立License Server并下载bin文件

首页即可建立。

image-20211231164041284
image-20211231164646564

创建好后,多出一个License Server。点开details。点download,就可以下载到bin文件了。

image-20211231164832134
image-20211231165050356

bin文件需要在License服务器上导入。

开运维账号

切换到Support页面。

image-20211231165722269
image-20211231165424605
image-20211231171057669

用户的注册过程和第一步是一样的,登录进去之后可以看到同一个公司名下,不同人开的全部Case。开Case时不需要输入Entilement信息。

image-20211215155359594

注意事项

1、注意在登录界面,如无必要,不要点忘记密码。一旦点了忘记密码,原密码就会失效。(很奇怪但就是如此。)

image-20211231163416773

2、但是注册的组织是相同的话,比如都是A公司,不同的账户能互相看到全部的信息。可以互相操作

2、但是注册的组织是相同的话,比如都是A公司,不同的账户能互相看到全部的信息。可以互相操作所有的服务器、看到所有的Case,默认进去都是 ORG_ADMIN 权限。用户多了最好处理一下,控制一下权限。

image-20211231163931113

发表在 IT技术 | 标签为 | 留下评论

VMSA扫盲

术语

CVE

CVE 是通用漏洞披露(Common Vulnerabilities and Exposures)的英文缩写,列出了已公开披露的各种计算机安全缺陷。人们提到 CVE,指的都是已分配 CVE ID 编号的安全缺陷。

参考

https://www.redhat.com/zh/topics/security/what-is-cve

VMSA

各大软件厂商根据CVE,给出自己的应对方案。

VMSA就是VMware的这一类公告的称谓。中文翻译为安全公告、安全建议

A VMware Security Advisory will always list the specific supported products and versions that are affected. This situation is developing, and the VMSA will be updated with more information.

CVSS

Common Vulnerability Scoring System -通用漏洞评分系统

漏洞的严重性可以通过多种方式来评估。其中的一种就是使用通用漏洞评分系统(CVSS),这是一组用于为漏洞分配数值以评估其严重性的开放标准。

评分范围为 0.0 到 10.0,数值越大代表漏洞越严重。

什么时候会遇到advisory?

除了主动访问网页https://www.vmware.com/security/advisories.html之外,我们也可能被动收到漏洞发现急需应对的信息。

Vmware Customer Connect

网站登录进去后,红色弹窗醒目位置提示。在这个通知中,会说明是针对哪个CVE ID,同时有指向VMSA ID的链接。

image-20211215110712364

社交媒体

公众号,领导同事转发的链接,网址信息等。

总之,最终你会来到Vmware官方发布的Advisory地址,这里列出了所有已知的可能受影响的产品,以及目前针对该漏洞的处理方式。

https://www.vmware.com/security/advisories/VMSA-2021-0028.html

image-20211220141240898

应对方式

1、使用Workarounds

漏洞初期应对可能是需要手动操作命令,后期可能会出脚本。

2、升级到Fixed Version

image-20211229141249662

注意:新版不一定可以上生产,因为还会涉及和硬件兼容性、以及其它评估事项。

3、通用措施

网络出口防火墙上有没有对外映射,外网能不能访问你的vmware

网络权限最小化,如只让管理员的计算机能够连接vCenter。

微分段隔离

异常流量

异常日志

其它资源

订阅VMSA信息。

Advisories (vmware.com),首页右边填写邮箱可订阅。

登录Vmware技术中心core.vmware.com搜索。

https://core.vmware.com/vmsa-2021-0028-questions-answers-faq

Search (citrix.com)

Citrix Security Advisory for CVE-2021-44228, CVE-2021-45046, CVE-2021-45105 and CVE-2021-44832.

发表在 IT技术 | 留下评论

VMworld2021记录

VMWord的2021年度大会在中国的这场,原本是线下在北京举办的,因疫情原因改为12月9日线上举行。

我也连进去看了一会儿,记录一些片段。

Vmware的战略目标

印象最深的一点,Vmware要做多云整合解决方案。

Vmware几个不同发展阶段,第一阶段是服务器虚拟化 ,第二阶段是SDDC,软件定义数据中心,第三阶段则是多云融合。

image-20211210162728014

很多的企业已经将部分甚至全部业务部署到公有云上,实际已经部署了公有云的可能是在40%、而评估公有云的比例则高达90%。

Vmware判断:多云融合共存是不可逆的趋势

image-20211210163221169
image-20211210163300610

多云的复杂性提出了很多挑战,比如用户会遇到常见的纠结点,关于一到性,敏捷、安全等等。(过去两年的疫情使得需求更加凸显)

Vmware希望让用户不要在传统的纠结点之中做二选一的、非此即彼的艰难选择,上面的这第一对,它都要做到兼顾和融合,致力于为用户提供在多云时代推动业务发展所需的选择自由和控制权。

本次推出介绍的新产品是模块化的,可按需选择的、vmware cross-cloud services。

image-20211210163900639

延伸出重要的三个解决方案主题如下。

image-20211210091436073

云基础架构

公有云合作基础

image-20211210091513017

已经和全球六大公有云服务商合作,中国有阿里云,对于跨国公司提供了就近选择服务商的便利性。

澄清了两点:

  • 软件VCF(Cloud Foudation)是直接在公有云的裸金属上部署的。
  • 软件许可没有二次付费
image-20211210170155750
image-20211210170645042

多云架构 关键词是一致性,Vmware认为虚拟化层刚好是处于一个合适的位置,来实现这个目标

视频中和阿里云进行了一次视频连线。

image-20211210170752046

借助Vmware Cloud Foundation,可以跨主体云和公有云,和原生应用。

image-20211210164604339

Anywhere Workspace

image-20211210171515996

Vmware认为分散办公的诉求是愈发强烈的,疫情下尤其如此。

分散办公是看不到一个办公场所的边界的,但又需要足够的安全性。Worksapce方案致力于解决传统方案如VPN的带宽、协议延迟等的限制。以及在传统企业中,IT、安全、网络通常由不同的团队负责带来的职责上的分歧等。

image-20211210171701340

SASE是一个全新的产品。

image-20211210164520373

Horizon

1 – intelligence

WorkspaceOne中多了一个组件叫WorkSpaceOne intelligence for Horizon

能够基于复杂环境中的众多信息进行分析,和提供引导式的互动,依稀有vRealize Operations的影子。

2 – Horizon assist

远程排查工具,这个工具原先就有,原先对物理机可用,现在已经扩展到对虚拟桌面也支持。

管理员和用户可以同屏操作,便于协助支持。

3 – Orchestrate

看到了编排的拖拉拽图形界面,VDI需要设计的细节比较复杂,这一块也是对Horizon的灵活性进行了加强。

发表在 技术周边 | 标签为 , , , | 一条评论

预约Vmware认证考试经验

前提Checklist

  • 已参加完官方课程培训,应熟悉下图。(写作本文时我打算参加考试的是VCP-Data Center Virtualization) image-20211127164824494
  • 已获得考试券序列号(或打算付款)
  • 已计划复习备考

如果以上都差不多了,就可以预约考试了。

信息说明

1、考试是需要在PearsonVue参加的,通常去认证的考试中心现场考试。

2、Vmware和pearson做了SSO登录,需要用Vmware的账号登录。

3、需要用到的Vmware账号为Customer Connect账号(曾经还有个专门账号叫vmware Mylearn,但最新体验发现最终会跳转到Customer Connect)

image-20211127235419720

预约考试步骤

1、入口

浏览器输入http://www.vmware.com/certification

或先打开https://www.pearsonvue.com.cn/Clients/VMware.aspx,点登录,即可到相同地址

打开页面如下:

image-20211127163045460

2、找到目标认证

往下翻,找到VCP-DCV,点击

image-20211127163948623

点开第三步,找到Schedule Exam。(有些认证如VCP-DTM会有前置考试,通过后才能参加正式考试,也会在此处的步骤中列出)

image-20211127164022930

按提示使用Vmware账号登录,初次使用可能会看到如下提示页面。image-20211127170353415

登录成功后会SSO跳转到Pearson网站。image-20211127235737372

3、在线预约

选择“在考试中心参加”,后面按提示操作,确定日期、时间、付款后,预约完成。

官方指导

Vmware培训对接人邮件中给出的提示如下:

1 线下约考考点,遵循各自所在地考点原则,查询网址:https://www.pearsonvue.com.cn/Clients/VMware.aspx, 点击右侧—“查找考试中心” 点击搜索进行查询。

2 线下考试根据城市和考点不同,可剩余的考位也不同,一般情况下,可剩余的考位都需要在7个工作日前预约,

3 线下考试需要学员本人带2个有效证件(身份证&驾驶证或者护照)或 本人签名的信用卡(有些城市不可用),请预约考试前后咨询一下当地考试中心,以上网址链接可以查到考试中心的电话,请自行确认。

故障排除经验

在选择考点的页面,发现各考点的单选框勾不上,点下一步又总是报错。

解决方案为把查找范围改为城市重新查找考点,不要使用系统根据客户地址信息自动推荐的候选考点。

Tips

  • Pearson上显示的交通路线信息不准,有必要在地图App里重新搜一下,以免交通时间预估偏差。
  • 下载证书pdf、出具电子证明、查看培训历史等,访问http://www.vmware.com/certification,往下拉到接近底部,点Certification Manager。
image-20211130112614352
image-20211130112520151
  • 如果发现下载证书pdf文件中,名字处变成了两个问号,此时需要检查vmware custommer connect -> profile,看姓名是不是中文,是的话改成英文就好。
  • 考试通过后一天之内系统可查,可到www.credly.com可以注册申请数字徽章。
  • Citrix认证同样在Pearson进行,但两个系统没有做单点SSO,更容易发生记错账号的误会,可参考 思杰( Citrix)证书的正确处置方式
发表在 技术周边 | 标签为 , , | 留下评论

VDI中的OU、Group和策略

VDI中的桌面配置、调优、个性化定制等,一定绕不开策略,这是因为我们通常使用的是Windows的桌面OS决定的。

Windows计算机本身就有计算机策略和用户策略,加入了AD域之后,还多了组策略,用于批量设置。

策略内容分析

要配置的策略大概有以下几种类型。

一、系统优化刚需

  • Profile策略
  • 计算机策略
  • 用户策略
  • 个性化应用策略(如特定应用可能需要定时器)

二、重定向

  • OS中本身可配置重定向的(桌面/文档/收藏/下载……)

三、网盘

  • Homedata(网盘)

第一类刚需策略通常在Ad中通过组策略调整。

重点讨论第二类和第三类需求。它们产生的原因,是来自于项目中架构设计中的决定——把一部分数据存储到nas网络路径。

 也有项目使用本地San,而不是重定向到Nas的方式。
 重定向到Nas的好处是和操作系统的解耦程度更高,并可通过存储提供一些额外功能(快照,重删等),缺点是后续的迁移不灵活。

基于OU或Group发策略

标准配置方式通常如下图所示。

image-20211117095132273

我们知道,要先在AD上的组策略管理器中创建组策略对象(Group Policy Object,GPO),然后把它链接到相应的OU,才会起效。

同时组策略的生效有优先级的关系。首先是域策略优先级高于本地计算机策略,其次,层级越具体,加载顺序越靠后,也就是生效概率越高。比如,图中,如果gpoAgpo甲中冲突的地方,那么gpo甲中的相应设置会生效。

以上是我们最经典、最常见的配置方式,它选择了使用组织结构这个顺序来组织、罗列出所有的Ad用户,符合人的思考逻辑顺序。我们运维中找部门人员、或检查GPO等,自然而然会这样一层层展开OU找。把GPO按需配置在合适的深度,有利于测试和排错。

在链接的时候,AD有安全筛选组功能。有了安全组——我们可以进行更灵活的配置。

image-20211117135714178

AD中的组(Group)允许我们选用任意的维度来挑选一批用户,尽管它不像OU那样有可视化的树形结构图,但在灵活性方面却无疑有极大的优势,很像各类软件中常见的标签功能。

以VDI项目设计为例,我们给用户分配桌面、分发应用、管理网络权限等等,都需要用到Group,这是满足不同维度的需求所需要依赖的工具。

那么,在链接GPO时,用上安全筛选组的功能,会怎么样呢?我的理解是,除非我们出于特定的管理需要,或者想要变更默认的GPO生效顺序,才可能会用到这个功能。让我们根据下图来说。

image-20211117142409444

这次,gpo甲、乙、丙都被链接到了公司这个OU,同时添加了安全筛选组。gpo甲中关联的安全组,其成员就是小组甲OU下的3名用户。同理,gpo乙对应小组乙下的用户,gpo丙对应小组丙下的用户。

这种设置,同样可以让gpo中定义的策略生效到希望生效的用户上。但是,GPO甲、乙、丙的作用位置发生了改变,尤其是和gpoA的顺序关系完全相反。

我认为,除非是这是一种特别的设计,否则并没有必要这么做,因为降低了直观性,但没有明显的收益。

结合VDI软件的实战应用

理论上,全部通过AD的组策略来做VDI的优化VDI软件,但它的效果不足够好。VDI软件厂商,如Citrix、Vmware有自己的管理策略的解决方案产品,于是,我们经常在实战中把微软的工具和VDI软件自带的工具结合起来使用。

下面以Horizon DEM举例。

image-20211117153455292

左边的这些都是DEM常见的策略配置项目,选中一条,点Edit,选中Condition选项卡,点Add,如下图。

image-20211117153646062

可以看到有非常多可以选择的字段,我们在DC上绝没有这么多的选择。其中就有基于OU的,也有基于Group的。

现在,我们的武器库中有了两种兵器。一个是原生的AD系统在Domain Controller中自带的管理工具,一个是VDI软件提供的解决方案。后者相当于是增强型外挂,虽不能完全取代原生工具,但也有独特优势。

具体落实到项目,关于重定向和网盘需求,好几种排列组合我都见过。它们只是工具选择上有区分,对运维方式有影响,效果则没有明显区别。

桌面/文档/下载……H盘
group @ Dem方案1未测
ou @ Dem方案2未测
ou @ DC方案3方案1、方案2、方案3

另外,有时在实际环境中调试可能出现不兼容,另一种手段就是变通之法。

发表在 IT技术 | 标签为 , , , | 留下评论

Ad域控及策略问题排查新手工具包

背景

在企业生产中,微软的活动目录Ad(Active Directory)非常普遍,往往是IT应用的基石。

如果AD规模较大,结构复杂,如包含站点、权限、父子域、信任域等设计时,很可能会出现在PoC环境或简单生产环境中不容易碰到的问题现象。这时,难免需要一些常用的工具/方法来诊断问题。

原来隐约记得一些,最近和AD维保合作伙伴看问题时,又接触了些新的,一起记录下来备忘,以后大概率还能派上用场。

1 域控制器安装/删除

1.1 AD域的大小

将一台server提升为域控是常规操作,有个小Tip是可以观察到域的全部信息的文件大小。

如果域的环境较大,这个文件大小可以帮助判断复制全部域信息需要的时间。

位置在C:\windows\NTDS文件夹下。

注意,新的域控升级完成后,文件的大小和做之前从其它域控上看的可能是有差异的。我的实际经验是新域控上看到的会小一些。

1.2 域控制器强制删除

正常情况下AD域控是可以降级的。按正常过程如果降级失败,域中会产生残留信息,也就是所谓的脏数据。

此时,可以使用Ntdsutil工具进行服务器元数据的清理,需要在林中正常存活的控制器上操作,如下。

\1. 以管理员身份打开命令提示符:在 “开始” 菜单上,右键单击 “命令提示符”,然后单击 “以 管理员身份运行”。 如果出现 “用户帐户控制” 对话框,请提供 Enterprise 管理员的凭据(如果需要),然后单击 “继续”。

\2. 在命令提示符下,键入以下命令,然后按 Enter:

ntdsutil

\3. 在 ntdsutil: 提示符下,键入以下命令,然后按 Enter:

ntdsutil: metadata cleanup

\4. 在 metadata cleanup: 提示符下,键入以下命令,然后按 Enter:

metadata cleanup: remove selected server <ServerName>

\5. 在 ” 服务器删除配置” 对话框 中,查看信息和警告,然后单击 “是” 以删除服务器对象和元数据。

此时,Ntdsutil 确认已成功删除域控制器。 如果收到一条错误消息,指出找不到该对象,则可能已在之前删除域控制器。

\6. 在 metadata cleanup: 并 ntdsutil: 提示时,键入 quit ,然后按 enter,确认删除域控制器。

metadata cleanup: quit

ntdsutil: quit

\7. 打开“Active Directory 用户和计算机”。 在已删除的域控制器的域中,单击 ” 域控制器”。 在详细信息窗格中,不应出现您删除的域控制器的对象。

\8. 打开“Active Directory 站点和服务”。 导航到 “服务器” 容器,并确认删除的域控制器的服务器对象不包含 NTDS 设置对象。 如果服务器对象下未显示子对象,则可以删除该服务器对象。 如果出现子对象,请不要删除服务器对象,因为另一个应用程序正在使用该对象。

\9. 清除元数据之后,通过命令检查域环境信息。

具体命令如下:

c:>ntdsutil

ntdsutil: metadata cleanup

metadata cleanup: select operation target

select operation target: connections

server connections: connect to server it.org

server connections: quit

select operation target: list site
select operation target: select site 0

select operation target: list domain in site

select operation target: select domain 0

select operation target: list servers for domain in site

select operation target: quit

metadata cleanup: remove selected server

出现对话框,按“确定”删除DC控制服务器。

metadata cleanup: quit

ntdsutil: quit

清除之后,可能还需要清理DNS信息。

1.3 迁移五大主机角色

通过Netdom query fsmo可查看当前五大主机角色

image-20211013150031930

因为目前BJ-Server-AD1是辅助域控,进入命令提示,连接到辅助域控,然后退出;

image-20211013150109987
  • 迁移RID角色:Transfer RID master
  • 迁移PDC主机角色:Transfer PDC
  • 迁移移结构主机角色:Transfer infrastructure master
  • 迁移移域命名主机角色:Transfer naming master
  • 迁移架构主机角色:Transfer schema master

2 域复制状态

在多个地理位置建设有域控制器时,互相之间网络链路的通断情况会影响到信息同步,排障时需要检查。

2.1 复制关系表格一览

image-20211012165322116

使用Powershell命令

repadmin /showrepl * /csv | ConvertFrom-Csv | Out-GridView

这样一个表还是非常友好的。规模较大的话,数据加载需要等一段时间。

可以通过筛选器精准定位,从而清楚地看到所关注站点之间的出入复制任务是否成功。

2.2 其它常用命令

以下命令在林中的任意DC上执行时,理论上应该都没有明显报错。

Repadmin /replsummary

Repadmin /bridgeheads

Repadmin /showrepl

Repadmin /syncall /force

需要注意,在复杂环境中,不同物理位置的DC之间可能本身一直都没打通权限,且这种不通对业务未必有影响。例如,子域通常只需要和父域控制器网络通,而不是需要和其它所有子域的控制器都通。

总之,有些报错的显现,不能当作“XX故障现象是因为整个域网络有问题/状态不正常引起”的依据。需要加以辨别。

3 组策略执行状态

AD中的计算机/用户组策略下发未生效时,需要排查组策略的执行情况。

通常来说,在目标计算机上用运行命令或打开工具的方法,便可以获得进一步分析所需的参考信息。

3.1 组策略在本机的详细运行结果

gpresult /H gp.html

这个命令可以生成比较友好的阅读界面。

注意,要获得计算机策略的执行情况的前提是,用户要加入本地管理员组。如果只是user权限,就只能获得用户策略结果。

在哪个用户下运行,就会在该用户的目录下生成html文件。加参数也可以指定输出位置。

image-20211012171331682

适合用来直观核对特定的GPO配置。

Tip:从内容的长短可以初步判断策略执行成功与否,通常来说,我们在VDI项目中会通过组策略优化很多项内容。这会使得输出结果很长。

3.2 组策略在本机的简易运行结果

  • 可在cmd中输入gpresult /z,会在cmd窗口中输出文字形式的结果,只带有最简单的排版。
  • 可在cmd中输入rsop,可获得如下窗口化的结果。
image-20211012172052859

如果知道策略配置的路径,用这个方法查看比较快速(就我而言,最熟悉的就是登录用户配置中的登录脚本在哪里点出来了)。

注意,要看到计算机策略需要本地管理员权限

4 其它

4.1 通过注册表查看配置。

在VDI环境中,策略不一定都是通过组策略下实现的,VDI软件厂商也会有自己的方案来控制计算机的设置,有时想要分辨是何种方案在起作用。

有一个方法,是在注册表(regedit)中搜索特定的字段,看看结果显示在哪里。比如,我是通过vmware的dem组件来把用户的目录做重定向的。那搜索重写向的目标Url,往往可从结果中获得一些提示。

4.2 事件查看器

最基本需要掌握的排错工具,显示在这里面信息指向性还是比较明确的。

以策略不生效为例。本次就观察了到这样的报错。

image-20211013163353679

后续排查方面,可能是网络,也可能是Windows自身的安全认证策略等。

4.3 查看系统状态

cmd下使用systeminfo命令

重点可以看看系统版本、安装补丁情况、登录服务器。

OS版本、补丁可能会和Bug、微软KB等有关联。登录服务器为什么重要呢?在某些容灾设计中,我们希望特定特性的计算机是找特定域控做登录认证。

发表在 IT技术 | 标签为 , | 留下评论

OVA虚拟机从下载到安装

前言

从OVF/OVA模板导入虚拟机可能是Vmware平台上最简单、快速的一种安装虚拟机的方式。用户只需要配置和自身环境有关的信息,比如计算、网络、存储资源的指定、应用初始化信息等,而不需要关注底层操作系统的安装细节。

Vmware有不少产品都提供OVF/OVA模板下载。最近,我用这种方式安装了Log Insight 软件。本文记录了完整过程。

PS

基于如下情景:已具备vSphere环境,并使用vCenter管理。

Step 1 确定应用版本

1.1 关于License

本次举例的 Log Insight,是Vmware的一款日志分析软件。

它是需要License的。(事实上Vmware的绝大多数产品都需要)

申请测试License需要登录自己的Vmware Connect ID,后续下载文件时会用到。

1.2 关于版本

为确定安装软件的哪个版本,我们需要明晰它与哪些软件产品发生联系,然后做互操作性检查

比如Log Insight,我最主要的目的是用它来接收vSphere的日志信息,此外我知道它和vROPs(vRealize Operations)可以集成。那么我重点要检查和vSpherevROPs的兼容情况。

打开以下网址之一:

界面如下图。

image-20210506170005989

Solution1 设为log Insight,With 可多选两项:

  1. vSphere Hypervisor -> 具体版本或All Versions
  2. vRealize Operations(名称是VMware vRealize Operations Cloud)image-20210506170501271

点击左下角Check Interoperability。

image-20210506170854417

结果中看到Log Insight的各个版本和ESXi 6.5U3都兼容。

对了,怎么没有看到vRealize Operations?那就说明没有需要注意兼容性的地方。

经过互操作性检查,我们可以放心地下载最新版本的Log Insight了。

PS

把上文比较对象中一开始的Solution1改成Horizon(All Versions),其它不变,再check,看一下结果。

image-20210506171446936

两个Solution就都出来了。

Step 2 下载文件

推荐的方式是到这个网址下载

http://vmware.com/downloads

image-20210506172108688
image-20210506172145613
image-20210506172421538

依次点击安装即可,中间需要登录customer connect账号,申请测试License。

PS

还发现了一个下载入口,如下:

www.vmware.com/try-vmware.html

image-20210507090022564

在这里,我们同样可以找到Log Insight下载测试。

但是,我发现在这个网址只能下载产品的最新版。因此,用downloads网站适用范围更广一些。

Step 3 安装

3.1 虚拟机安装

安装过程简化描述,在vCenter的服务器视图中,选中某个集群 -> 操作 -> 部署OVF模板 -> 本地文件 ->选中下载好的ova文件,下一步,开始自定义信息,参考如下:

  • 虚拟机名称
  • 选择集群位置
  • 决定安装size(Extra Small/Small/Medium/Large,支持ESXi Host数量不同,性能磁盘开销不同)
  • 存储位置和磁盘格式(厚置备延迟置零默认)
  • 选择网络(分配合适的虚拟交换机)
  • root密码(底层OS——Photon OS的root密码,用于在控制台登录虚拟机,注意虽然没有提示,但是要有一定复杂度)
  • 网络hostname或FQDN
  • 默认网关
  • 域信息及DNS服务器信息
  • IP地址及掩码

点击完成后,即可在vSphere的近期任务中看到虚拟机创建的任务进度条。

3.2 应用初始化

等上一步的进度条顺利走完,就可以在vSphere中找到新创建的这台虚拟机,打开一个控制台,看它的启动过程。

image-20210507134421307

打开浏览器,访问虚拟机IP地址,即可对Log Insight进行初始化配置,如下图。

image-20210507135208567

正常配置完成后,整个安装过程就结束了。

我们先后完成了:

  1. 从官网下载OVA文件。
  2. 在vSphere环境中导入OVA。
  3. 部署最小模式(单节点,没包含高可用)的Log Insight应用实例。

Step 4 排障

4.1 校验和

虚拟机创建过程中报如下错误。

所提供清单文件中的校验和与文件 VMware-vRealize-Log-Insight-8.4.0.0-17828109-system.vmdk 的内容不匹配。

需要检查下载ova文件的md5码,是否和下载页面中一致。

image-20210507135033401

PS

在Windows下有命令可以查看文件的md5,搜索即可。

4.2 丢失admin密码

安装时遇到了意外:在浏览器中初始化Log Insight时,还没设置好admin密码,就不小心关闭了浏览器,再访问IP时,发现不再提示初始化界面,而是直接让你输用户名、密码。

搜索后可在官方文档库中找到解决方法——在控制台以Root登录后运行一个脚本即可重置admin密码。

5 参考资源

用途网址
检查互操作性,确定版本https://interopmatrix.vmware.com/#/Interoperability
Evaluate VMware Productshttps://www.vmware.com/try-vmware.html
Vmware产品下载http://vmware.com/downloads
文档库http://docs.vmware.com
发表在 IT技术 | 标签为 , | 留下评论

让vmware世界纤毫毕现——vROPs 初体验

1 背景

vROPs是Vmware开发的,面向IT管理员的,集监控、分析、告警等多功能合一的管理平台。

它功能强大,不仅能整合运维自家的多个产品,如vSphere、vSAN、NSX等等,还有不少软硬件厂商能和它集成交互,可以称得上是运维利器。

在Horizon8之前,购买Horizon,会送vROPs这款产品。但有趣的是,有的最终用户似乎对它不太感冒,项目实施时装好了vROPs就放在那了,并没有真正使用起来,日常运维还是习惯在Horizon等软件里面去做。这样不免浪费了它的功能。

最近刚好在学习这款软件,记录一下自己的初步心得。

2 产品优势

image-20210420202929050

我认为它核心的竞争力有:

  1. 对Vmware自家产品的各种对象、属性、衡量指标等等各种元素的精细操作能力。
  2. 基于上述能力提供的高自由度定制功能,包括Dashboard、Alerts等。
  3. 对常见运维场景的便捷与人性化的操作。

Vmware对其的定义为智能操作管理,另一个运维软件——Log Insight专注于Log的集中分析,可以和vROPs集成协同工作。

3 术语

这个产品中的的概念,常常在中文里有不同的近义词可对应。为了避免混淆,先放一个表,这是产品本身在不同浏览器语言下的呈现。

英文中文备注
vROPsVMware vRealize Operations Suite标准发音vee-rops,参考链接
Metric衡量指标
View视图
Dashboard仪表板
Widget小组件类似手机桌面的小组件
Alert警示
Symptom症状

4 功能运用

产品功能很多,从传统自建数据机房运维角度,最关注的还是监控(Monitoring)与故障排除(Trouble Shooting)。

4.1 Monitor(管理员主动)

VROPs可以让你很方便地定制各种Dashboard,实现信息的快速调取。

image-20210425093539864

观看时可以实现交互效果。比如,创设一个Dashboard中的第一个Widget是一个列表,它列出了环境中的多个DataCenter。其它Widget是展示某些性能趋势等信息的。那么,你想看哪个DataCenter就点哪个,Performance信息会随着选择自动刷新更改,非常方便。

最终结果是要绘制Dashboard。

一般要先做View(视图),再做Dashboard(仪表盘)。

以下引用部分来自官方培训教材。

View

A view is the smallest component of a dashboard or a report.

A view is a visualization of data that helps you interpret the metrics, properties, and policies of a given object.

Views help you perform the following tasks:

• Diagnosing and troubleshooting issues

• Gathering information about your environment

View是基础的属性/衡量指标的第一次可视化提炼了。典型的例子是资产统计表。你关注哪些属性、指标,就选择哪些,并且可以充分地定义展示效果、过滤器等。

列表只是View的一种类型。其它类型如下图。

image-20210425100530240

Dashboards

Dashboards provide a graphic representation of data and display the overall infrastructure health

我们可以像搭积木一样,从Properties、Metrics、Views等元素中选择自己需要的信息,绘制Dashboard。通常,在创建Dashboard的时候是通过拖拽List到画布中的方式来实现的。

下图中,每个小图表都是View,左边的是List类型的View。右边则是Trend(趋势)类型。

image-20210425101000204

可以猜想到,这个Dashboard将实现的效果是:在左边任意点选一个VM,右边就展示它的Performance和Utilization信息。

系统中还有几种常见的小组件可以选用。如下图就是“热图”控件的效果。

image-20210425101853377

TIP

View和Dashboard都是可复用的资产,可以从一个vROPs环境导出到另一个。

4.2 Alerts

这是系统自己通过实时计算分析各种属性、Metrics,当发现符合症状定义时触发的信息。

The alerts are generated when the symptoms in the alert definition are triggered. The symptoms is triggered when the objects in your environment do not operate within the parameters you defined as acceptable.

Forexample,avirtual machine memory workload is at immediate level symptom is triggered when the Virtual Machine: Memory|Workload (%) metric is greater than 90%.

这是一个需要基于业务运行状态精细调整、定制的部分。Alerts过多会造成使得信息有效性下降,从而增加错过重要的信息的机率。

在vROPs里面,可设置的内容的精度和粒度比vSphere中要更多。

image-20210425103501657

系统中,可以看到Alerts有以下几类。

  • 衡量指标,大于数字;逻辑关系+值;True/False
  • 消息类:有运算符:包含,匹配
  • 故障类:无运算符,一种事件发生
  • 衡量指标事件:大于硬阈值

4.3 Trouble Shooting

便于快速浏览一个对象的上下文环境中的各个关联对象,检查是否有告警。并且可以快速切换关注对象目标。

系统还能自动列出多项与某一种现象有关的其它关联现象,叫做潜在证据,以辅助分析。如下图。

image-20210425091708430

举个例子,在VDI环境中,可能会发生启动风暴,那么一个桌面VM的读写性能受到影响,Performance下降,当符合Symptom定义的时候——如Latency > 20ms——就会触发Alert当。管理员看到Alert,点进去Touble-shoot这台VM时,会发现系统已经把这段时间前后的多个可能相关的事件、指示变化情况罗列好了,比如告警是否增多,从什么时候开始增多的,IOPS、网络流量等趋势图表等。

4.4 其它

4.4.1 Reports的配置与导出

基于View或者Dashboard创建报告,通过邮件等方式自动发出,可设置计划任务。

报告中可自定义一些样式如Logo等。可选择导出为PDF、CSV两种格式。(当条目较多的时候,PDF的格式不是很美观。)

4.4.2 Optimaziton

根据商业意图来迁移负载,自动调整不同ESXi Host中运行的Vm的数量。(vSphere需要打开 DRS迁移。)

常见的意图有:

  • 尽量在指定数量的主机中均分负载。
  • 尽量用最少的主机承担负载,以空出主机。

4.4.3 容量计算、What-if

新项目上线工作负载评估。

当前运行状态系统资源还能支撑多久。

部分业务迁移到公有云对运行成本有何影响等。

4.4.4 服务发现

内置多种标准服务类型,可发现环境中运行着的实例:如AD、IIS、SQL等。

可对被发现的主机远程执行命令,运行Script等。

可自定义服务进行监控,如NTP。

5 资源

可在marketplace.cloud.vmware.com中搜索管理包(Management Pack),与现有环境集成。这样可以识别到其它软硬件品牌特有的Metrics、Views、Dashboard等,从而使运维进一步集中。

发表在 IT技术 | 标签为 , , | 留下评论

H3C 2021 Navigate领航者大会小记

1 主旨演讲

新华三关于未来IT趋势判断的观点。
坚定数据原生理念,如不能及时向数字原生组织转变,竞争就会失败。

2 新产品发布

2.1 紫光云3.0

由下述两部分共同组成。

  • 紫鸾云:公有云、私有云、边缘云统一架构。 和中心承接的公有云、私有云数字化转型调研相关
  • 绿洲平台。云智原生、数据平台。

2.2 智擎芯片

2.3 若干交换机

2.4 pc领域(目标Top3)

2.5 智慧屏(目标Top2)

参考链接

3 编排相关

3.1 背景

IT运维、服务工作规模到达一定程度,人工运维达不到服务效率和准确性要求。
传统方法是开发一套IT系统,但这种方式封闭,而且定制化程度太高,后续业务震求、环境中软硬件版本等发生变化的话,应对较为被动。
可考虑的实现自主服务平台的一种方法是:用编排技术。优势是可以把甲方熟知的业务流程内化到系统中,甲方自主学习编排技术相对更容易,具备能力后可自主实现新场景。

3.2 个人理解

编排就是把要做的一系列的工序预先定义好,实现机器自动执行,极大减少人工干预。
编排类型:
侵入式:主要通过程序接口后台执行,执行过程不可见
非侵入式:RPA机器人,录制好的行为逻辑。执行过程可见。(快速准确的界面操作,如按键精灵自动操作)

RPA:Robot Procedure Automation。有专门的工具平台。增长迅速。
如vrops的只是监控系统,功能是运维定制集成,不是编排,不能实现rpa。

3.3 基于原HP OO产品的编排产品

不同于普通的RPA产品,OO有流程引擎原子库,可对接很多IT大厂的解决方案,如AD、SAP、Vmware。

个人理解,做流程自动化,首先考虑用内置接口,其次调用脚本(如Powershell等)、最后可以考虑用RPA机器人。

OO: HP Operations Orchestration。惠普 流程调度软件是新一代的 IT 流程自动化解决方案,它是一款全新的设计,专门用于为传统数据中心或混合云环境增强自动化流程的应用。 它可提供理想的选择,自动化您的 IT 任务、运维和流程,并且并非仅限于运行手册自动化。 它还可以提供最全面的集成功能以及跨多个 IT 域的“即开即用”内容,例如虚拟化、云、SAP 协调、开发运维和安全运维。

oo被microsoft收购,中国的交付是h3c有人可以做,包括提供培训等。

3.4 案例展示

3.4.1 RPA工具

客户定制化的场景UI大屏。

3.4.2 灾备演练系统

演练是常见的需求。现场看到的这套系统已经很成熟的了。操作的粒度是一套业务系统。

编排脚本、操作设备命令行。授权、计划审批、人工介入功能。

3.4.3 一站式运维系统

客制化,含系统性能监控、流程自动化、灾备管理等功能。

4 x10000系列存储

分布式Nas存储,也可以提供对象存储、块存储功能。型号尾数代表盘位数。
10516
10536

发表在 技术周边 | 标签为 , | 留下评论

Netapp 3200 7mode排障经验

最近通过几起Netapp存储排障经历,积累了一些经验,集中总结一下。

本文基于以下假想背景:

  • 一个控制器发生了硬件故障,另一个控制器发生了Takeover接管操作,但单节点性能不足以承载全部业务,由此性能下降,后续更换了故障控制器的主板,重新拉起设备。

  • 设备是Netapp FAS3200系列的存储,配置为7-Mode。

1 初步判断

1.1 硬件_控制器告警灯

正面黄色灯:硬件故障或者failover状态未启动;

背部黄色灯:代表此控制器处于被takeover状态,而不是硬件故障。因此,在修复时不是先灭灯才可giveback。而是giveback成功后再灭灯。

1.2 系统_性能数据

当业务负载较大,存活的controller上性能出现瓶颈时,网页图表可能加载不出来。

此时可以SSH到命令行界面,使用sysstat命令检查。

storage>sysstat -x 2

Tips:

如看到cifs IO输出为0,不代表此存储上没有cifs业务。处于瓶颈状态时,存储优先提供fcp业务。

1.3 确认影响业务范围

在存活节点用Volume show查看输出,对判断业务影响范围往往最可靠。即使是管理员,记忆也可能有偏差,会影响到向业务干系方汇报的准确度。

在出现设备硬件故障时,除非能短时修复,否则立即尝试从应用层面调整解决,后续再选择时机更换故障控制器,修复HA。

2 硬件更换及修复

宕机的控制器访问不了,需要使用串口连接(在尾部控制器面板找串口标志)。

简易过程如下:

image-20201221110233376

完成giveback后,完成修复的故障控制器节点应该能够正常启动和进入系统。再次对端口、聚合、磁盘、Volume信息等做检查,确保基本工作状态正常。

3 主机识别

更换控制器之后,LUN的Serial可能发生改变。(不绝对)

如果业务主机反复扫描,甚至重启,都无法识别原有LUN。可检查同一个LUN,是否发生了Serial改变。如果是,则手动将现在的Serial修改为之前的,再尝试扫描。

3.1确认Serial是否发生变化;

在主机层面找到需要修复的LUN,查看其Serial(24位数字)。

image-20201221112454144

在存储上,用命令查看Serial,比较两者是否一致。如下图。

storage*>lun serial -x /vol/volume/volume
                 Serial (hex)#:0x4431649592444345804731

如果不一致,则尝试存储端,使其与主机端一致。

3.2 查找原始Serial

注意,存储端命令需要以12位字符串形式输入,主机上能看到的24位数字是不行的。因此需要到存储AutoSupport日志中寻找原先的配置。

如果本地存储系统无法启动,可以从存活节点中读取,位置:c$\log\autosupport\。

AutoSupport每天都会生成一个文件夹,形如202012060015.1.files

其中保存了各种命令的输出结果,截取部分如下:

image-20201216170939802

找到LUN-configuration命令的输出文件,可在其中查找目标LUN的Serial号(12位字符串)。

image-20201221110924433

3.3 刷新LUN Serial

使用如下命令:

//lun serial [-x] lun_path new_lun_serial

lun serial /vol/blocks_fvt/ncmds_lun2 DlaIYSD4XPFr

更多信息可参考

Netapp Lun Serial命令语法

将LUN号刷回之后,在主机上尝试重新扫描,若仍无效则重启再试,应该可以解决。

4 技巧

4.1 找日志的方法

方法一:CIFS共享

在以域管理员用户登陆的Windows客户端上访问\\存储管理地址\c$

(前提是启用了CIFS服务,c$默认开启)可以看到

image-20201208200331177

方法二:FTP工具连接

此方法需要开启FTP服务,并建立FTP专门用户useradmin。

可检查options ftp命令输出。如果都是off则不行;

方法三:命令行工具

进入特权模式,命令提示符发生变化。

storage>priv set advanced
storage*> 

在终端工具(如securecrt)开启日志记录后,直接用rdfile命令在窗口中读取日志文件。

storage*>rdfile /etc/messages

断开会话,日志就被保存到了securecrt指定的位置。

Tips:

  • 输入ls /etc/log,可以列出log下的文件,大部分文件不能rdfile

  • 如果控制器还处于故障状态未能正常启动,则尝试到存活节点上查找共有配置信息-如LUN Serial;

4.2 使用performance counter查看性能

网页性能监控图表和sysstat命令能看到的指标是预设的,个数也较少。但还有一个快速简易地观察更多指标的方法——通过命令调用performance counter。

命令示例如下:

stats show -i 2 -n 900 fcp:fcp:fcp_latency                  //收900次fcp_latency信息
stats show -i 2 -n 900 aggregate:aggr1:total_transfers     //收900次aggr1的total_transfers信息

其中,最后的fcp_latency、total_transfers就是conter,前面两个单词为Object和Instance,这些在官方可查。

命令输出效果如下:

 fcp       32.91
     fcp       76.64
     fcp       60.01
     fcp       61.09
Instance fcp_latency
                  ms
     fcp       45.50
     fcp       52.75
     fcp       56.45
     fcp       34.93
     fcp       40.26
     fcp      101.50
     fcp       85.34
     fcp       70.79
    

以下是相关官方链接:

Netapp Manual Page,介绍命令语法。

https://library.netapp.com/ecmdocs/ECMP1368825/html/cmdrefnow/

stats命令详解,举例部分提到*object_name:instance_name:counter_name用法。

https://library.netapp.com/ecmdocs/ECMP1368825/html/cmdrefnow/man1/na_stats.1.html

可用性能计数器定义信息可参考:Definitions of performance counters。

https://library.netapp.com/ecmdocs/ECMP1608437/html/GUID-04407796-688E-489D-901C-A6C9EAC2A7A2.html

4.3 Nvram状态

image-20201221141430174

在Sysstat -X的命令输出中,Disk Util不是评价存储磁盘达到性能瓶颈的可靠指标。它反映最繁忙的一块磁盘的使用率,而不是所有磁盘的平均使用率。因此该项指标只能作为参考使用。当它长时间显示为100%时,才值得引起关注。

而CP_ty列不同字母代表的Nvram状态,更能说明性能问题。

如果出现大量的“B”开头的状态,则代表性能不好。它表示在上一个CP未结束时发起了新的CP,造成递归等待;(而小b会更不好)。

可以凭肉眼粗略判断出现的”B”的数量,也可以抓取日志后统计出现频率。

image-20201221141651656

性能富余的系统中,CP_ty列大部分为“-”,性能瓶颈的系统中,会有较多B开头字母。

关于各项CP_ty值的含义,具体可参考链接:

https://kb.netapp.com/Advice_and_Troubleshooting/Data_Storage_Software/ONTAP_OS/FAQ:_Consistency_Point

重点可看“What is the Back-to-Back (B2B) Consistency Point Scenario?”部分

4.4 同时收集多项指标数据

Netapp存储命令行只能单会话窗口登录。不能同时在多个终端上以root用户身份登陆。在当前会话窗口,只能显示单条命令的输出,如果想输入其它命令,只能中断当前命令。

当需要同时追踪多条命令输出的时候,比如收集不同的performance counter输出,可以通过从其它linux终端远程到存储上执行命令来实现。以下是一个例子,我们可以一边在存储上收集sysstat -x 结果,一边在linux终端上收集fcp_latency信息。如果打开更多的linux会话,还可以收集更多。

ssh root@XX.XX.XX.XX "stats show -i 2 -n 900 fcp:fcp:fcp_latency"
root@XX.XX.XX.XX's password: 
Instance fcp_latency
                  ms
     fcp       34.23
     fcp       40.42

4.5 关闭autogiveback

命令行下输入options cf,观察是否开启。如开启,建议关闭,命令如下:

options cf.giveback.auto.after.panic.takeover off

两个控制器上都需要进行操作。

发表在 IT技术 | 标签为 , | 留下评论