nutanix

Tuesday, June 18, 2013

Curator does thankless job of keeping Nutanix cluster Clean and Lean.

Curator uses map reduce logic to clean up deleted vdisks, containers and update reference count.
It monitors under-replicated or over-replicated extent groups , redistribute extent groups for node and block awareness. Based on upper and lower threshold, it migrates extent groups between the tiers based on "hotness" of the data. Partial scan is initiated every 30 minutes if there is "to Remove", "ILM needed" or "Diskspace utilization". Full scan initiated every 6 hours does additional function of updating ref. counts. For ILM and cleaning extent groups, curator finds those extent groups informs stargate to do the actual job and chronos acts as admission control on how many of these jobs are forwarded to stargate.

BTW, curator does these in the background and nutanix cluster has optimum gflags and
settings for the curator. With every release of the nutanix software, more of these configs
will be tuned automatically based on workload.

Gflags for configuring curator: ( if you need to change gflags, please contact nutanix
support or sales team).
1. Lower threshold is configured via
ncli sp edit ilm-thresh ( default 70)
2.upper ilm threshold - --curator_tier_usage_ilm_threshold_percent
3. how much to migrate between tiers upto lower threshold -
curator_tier_free_up_percent_by_ilm
4. how often chronos asks stargate to work on curator jobs: chronos_master_handshake_period_msecs
5.
--curator_next_tier_usage_ilm_threshold_percent=95 (default 90) -- migrate to next tier only if next tier has so much free space.
6. -curator_full_scan_period_secs - how often full scan is run
7. --chronos_master_node_max_active_requests - # number of requests sent to stargate at every handshake.

How to manually run a full scan:

for svm in `svmips`; do wget -O - "http://$svm:2010/master/api/client/StartCuratorTasks?task_type=2"; done

Here is an example of hot tier usage and ILM migration activity if these params are set aggressively and this
could cause unnecessary network traffic and I/O activities. As noticed in the following figure, that before Apr17th,
there were a lot of migrate activities from the SSD tier. This picture is plots the usage of SSD tier.

How to check how much of your data was accessed in last 30 minutes in any tier ?
heat-map-analysis

How to find when curator full scan and partial scan was run. ?

Curator Jobs

Job id	Execution id	Job name	Status	Reasons	Zeus config valid	Start time	End time	Total time (secs)
1	65656	Partial Scan	Succeeded	ILM	Yes	Tue Jun 18 10:34:18 2013	Tue Jun 18 10:39:51 2013	333
1	65654	Partial Scan	Succeeded	ILM	Yes	Tue Jun 18 10:03:48 2013	Tue Jun 18 10:09:08 2013	320
1	65652	Partial Scan	Succeeded	ILM	Yes	Tue Jun 18 09:33:18 2013	Tue Jun 18 09:38:51 2013	333
1	65650	Partial Scan	Succeeded	ILM	Yes	Tue Jun 18 09:03:17 2013	Tue Jun 18 09:08:50 2013	333
1	65647	Partial Scan	Succeeded	ILM	Yes	Tue Jun 18 08:32:47 2013	Tue Jun 18 08:38:07 2013	320
0	65642	Full Scan	Succeeded	ILM ToRemove	Yes	Tue Jun 18 08:02:17 2013	Tue Jun 18 08:17:50 2013	933
1	65640	Partial Scan	Succeeded	Periodic	Yes	Tue Jun 18 07:50:28 2013	Tue Jun 18 07:55:49 2013	321

Tier Usage:

Storage Pool: NTNX-SP1 ILM Down Migrate threshold: 85

Tier Name	Tier Usage	Tier Size	Tier Usage Pct
SSD-PCIe	1355.50 GB	1481.57 GB	91%
SSD-SATA	N/A	N/A	N/A
DAS-SATA	15362.15 GB	51371.99 GB	29%

Are all Nodes balanced disk usage ?

Storage Pool: NTNX-SP1 Tier: SSD-PCIe

Mean Usage Pct	92%
Zone of Balance	85% - 99%
Usage Spread Pct	8%
Status	Balanced

Rack Id	Service VM	Disk Id	Disk Usage	Disk Size	Disk Usage Pct	Inside Zone of Balance
453898548	8	490493209	88.31 GB	93.09 GB	94%	Yes
453898548	22	35	88.48 GB	93.09 GB	95%	Yes
453898548	23	48	88.02 GB	93.09 GB	94%	Yes
453898548	28	59	87.77 GB	93.09 GB	94%	Yes
453898552	67395682	336979195	88.48 GB	93.09 GB	95%	Yes
453898552	67395684	336979174	88.61 GB	93.09 GB	95%	Yes
453898552	67395686	336979211	88.58 GB	93.09 GB	95%	Yes
453898552	67395688	336979184	88.41 GB	93.09 GB	94%	Yes
490725470	490725463	490725475	163.83 GB	184.21 GB	88%	Yes
490725470	490725465	490725476	160.78 GB	184.21 GB	87%	Yes
490725470	490725467	490725477	163.83 GB	184.21 GB	88%	Yes
490725470	490725471	490725478	160.41 GB	184.21 GB	87%	Yes

What are the activities done during last patial scan ?

MapReduce job 65657

Job id	65657
Job name	PartialScan MapReduce
Status	Succeeded
Map tasks done	36/36
Reduce tasks done	24/24
Start time	Tue Jun 18 10:35:18 2013
End time	Tue Jun 18 10:39:48 2013
Total time (secs)	270

Map Tasks

Task id	Task Type	Desired Status	Status	Node id	Start time	End time	Total time (secs)
0	ExtentGroupIdMapTask	Succeeded	Succeeded	472452227	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:37:31 2013	133
1	ExtentGroupIdMapTask	Succeeded	Succeeded	490493246	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:37:37 2013	139
2	ExtentGroupIdMapTask	Succeeded	Succeeded	490725549	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:36:59 2013	101
3	ExtentGroupIdMapTask	Succeeded	Succeeded	490725550	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:36:51 2013	93
4	ExtentGroupIdMapTask	Succeeded	Succeeded	472452000	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:36:17 2013	59
5	ExtentGroupIdMapTask	Succeeded	Succeeded	472581426	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:37:06 2013	108
6	ExtentGroupIdMapTask	Succeeded	Succeeded	472451186	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:37:48 2013	150
7	ExtentGroupIdMapTask	Succeeded	Succeeded	490725552	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:36:14 2013	56
8	ExtentGroupIdMapTask	Succeeded	Succeeded	490725511	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:36:34 2013	76
9	ExtentGroupIdMapTask	Succeeded	Succeeded	472451018	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:36:53 2013	95
10	ExtentGroupIdMapTask	Succeeded	Succeeded	472451324	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:36:57 2013	99
11	ExtentGroupIdMapTask	Succeeded	Succeeded	472337394	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:36:34 2013	76
12	ExtentGroupAccessDataMapTask	Succeeded	Succeeded	472452227	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:35:31 2013	13
13	ExtentGroupAccessDataMapTask	Succeeded	Succeeded	490725552	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:36:14 2013	56
14	ExtentGroupAccessDataMapTask	Succeeded	Succeeded	490725549	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:35:59 2013	41
15	ExtentGroupAccessDataMapTask	Succeeded	Succeeded	490725550	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:35:51 2013	33
16	ExtentGroupAccessDataMapTask	Succeeded	Succeeded	472452000	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:36:17 2013	59
17	ExtentGroupAccessDataMapTask	Succeeded	Succeeded	472581426	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:36:06 2013	48
18	ExtentGroupAccessDataMapTask	Succeeded	Succeeded	472451186	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:35:48 2013	30
19	ExtentGroupAccessDataMapTask	Succeeded	Succeeded	472452227	Tue Jun 18 10:35:32 2013	Tue Jun 18 10:36:31 2013	59
20	ExtentGroupAccessDataMapTask	Succeeded	Succeeded	490725511	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:35:34 2013	16
21	ExtentGroupAccessDataMapTask	Succeeded	Succeeded	472451018	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:35:53 2013	35
22	ExtentGroupAccessDataMapTask	Succeeded	Succeeded	490493246	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:35:37 2013	19
23	ExtentGroupAccessDataMapTask	Succeeded	Succeeded	472337394	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:35:34 2013	16
24	VDiskOplogMapTask	Succeeded	Succeeded	472451324	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:35:57 2013	39
25	VDiskOplogMapTask	Succeeded	Succeeded	472337394	Tue Jun 18 10:35:34 2013	Tue Jun 18 10:36:34 2013	60
26	VDiskOplogMapTask	Succeeded	Succeeded	490725511	Tue Jun 18 10:35:34 2013	Tue Jun 18 10:36:34 2013	60
27	VDiskOplogMapTask	Succeeded	Succeeded	490493246	Tue Jun 18 10:35:37 2013	Tue Jun 18 10:36:37 2013	60
28	VDiskOplogMapTask	Succeeded	Succeeded	472451186	Tue Jun 18 10:35:48 2013	Tue Jun 18 10:36:48 2013	60
29	VDiskOplogMapTask	Succeeded	Succeeded	490725550	Tue Jun 18 10:35:51 2013	Tue Jun 18 10:36:51 2013	60
30	VDiskOplogMapTask	Succeeded	Succeeded	472451018	Tue Jun 18 10:35:53 2013	Tue Jun 18 10:36:53 2013	60
31	VDiskOplogMapTask	Succeeded	Succeeded	472451324	Tue Jun 18 10:35:57 2013	Tue Jun 18 10:36:57 2013	60
32	VDiskOplogMapTask	Succeeded	Succeeded	490725549	Tue Jun 18 10:35:59 2013	Tue Jun 18 10:36:59 2013	60
33	VDiskOplogMapTask	Succeeded	Succeeded	472581426	Tue Jun 18 10:36:06 2013	Tue Jun 18 10:37:06 2013	60
34	VDiskOplogMapTask	Succeeded	Succeeded	490725552	Tue Jun 18 10:36:14 2013	Tue Jun 18 10:37:14 2013	60
35	VDiskOplogMapTask	Succeeded	Succeeded	490725552	Tue Jun 18 10:36:14 2013	Tue Jun 18 10:37:14 2013	60

Reduce Tasks

Task id	Task Type	Desired Status	Status	Node id	Start time	End time	Total time (secs)
0	DiskIdReduceTask	Succeeded	Succeeded	472452227	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:31 2013	253
1	DiskIdReduceTask	Succeeded	Succeeded	472452227	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:31 2013	253
2	DiskIdReduceTask	Succeeded	Succeeded	472452000	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:17 2013	239
3	DiskIdReduceTask	Succeeded	Succeeded	472452000	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:17 2013	239
4	DiskIdReduceTask	Succeeded	Succeeded	490493246	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:37 2013	259
5	DiskIdReduceTask	Succeeded	Succeeded	490493246	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:37 2013	259
6	DiskIdReduceTask	Succeeded	Succeeded	490725549	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:38:59 2013	221
7	DiskIdReduceTask	Succeeded	Succeeded	490725549	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:38:59 2013	221
8	DiskIdReduceTask	Succeeded	Succeeded	472337394	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:34 2013	256
9	DiskIdReduceTask	Succeeded	Succeeded	472337394	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:34 2013	256
10	DiskIdReduceTask	Succeeded	Succeeded	490725550	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:38:51 2013	213
11	DiskIdReduceTask	Succeeded	Succeeded	490725550	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:38:51 2013	213
12	ExtentGroupIdReduceTask	Succeeded	Succeeded	472581426	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:06 2013	228
13	ExtentGroupIdReduceTask	Succeeded	Succeeded	472581426	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:06 2013	228
14	ExtentGroupIdReduceTask	Succeeded	Succeeded	490725552	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:14 2013	236
15	ExtentGroupIdReduceTask	Succeeded	Succeeded	490725552	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:14 2013	236
16	ExtentGroupIdReduceTask	Succeeded	Succeeded	472451018	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:38:53 2013	215
17	ExtentGroupIdReduceTask	Succeeded	Succeeded	472451018	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:38:53 2013	215
18	ExtentGroupIdReduceTask	Succeeded	Succeeded	490725511	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:34 2013	256
19	ExtentGroupIdReduceTask	Succeeded	Succeeded	490725511	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:34 2013	256
20	ExtentGroupIdReduceTask	Succeeded	Succeeded	472451324	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:38:57 2013	219
21	ExtentGroupIdReduceTask	Succeeded	Succeeded	472451324	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:38:57 2013	219
22	ExtentGroupIdReduceTask	Succeeded	Succeeded	472451186	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:48 2013	270
23	ExtentGroupIdReduceTask	Succeeded	Succeeded	472451186	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:48 2013	270

Job Counters

Name	Value
MapExtentGroupIdMap	535252
ReduceDiskIdExtentGroupId	1070510
MapExtentGroupAccessDataMap	535213
NumExtentGroupsToMigrateForILM	4740
NumExtentGroupsToMigrateForDiskBalancing	0
MapVDiskOplogMap	764
NumHostVDiskTasks	3
FgHostVDiskTaskCount	3
FgDeleteToRemoveOplogMapEntryTaskCount	0
FgDeleteVDiskBlocksTaskCount	0
MapVDiskBlockMap	0
NumExtentGroupsWithReplicaOnSameNode	0
NumExtentGroupsWithReplicaOnSameRack	3275
NumFixExtentGroupsTasksReplicaOnSameRack	23
FgDeleteExtentGroupsWithNonEidExtentsTaskCount	0
NumExtentGroupsWithNonEidExtentsToDelete	0
NumInvalidExtentGroupAccessDataMapEntries	0
BgFixExtentGroupTaskCount	5779
BgMergeExtentGroupsTaskCount	0
BgCompressExtentsTaskCount	0
BgDeduplicateExtentTaskCount	0
BgMigrateExtentsTaskCount	0
BgCopyBlockmapMetadataTaskCount	0
BgUpdateRefcountsTaskCount	0
InternalError	0

What are the activities done during full scan ?

MapReduce job 65643

Job id	65643
Job name	FullScan MapReduce #1
Status	Succeeded
Map tasks done	25/25
Reduce tasks done	24/24
Start time	Tue Jun 18 08:03:32 2013
End time	Tue Jun 18 08:06:33 2013
Total time (secs)	181

Map Tasks

Task id	Task Type	Desired Status	Status	Node id	Start time	End time	Total time (secs)
0	VDiskOplogMapTask	Succeeded	Succeeded	490725550	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:03:50 2013	17
1	VDiskOplogMapTask	Succeeded	Succeeded	490725552	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:04:13 2013	40
2	VDiskOplogMapTask	Succeeded	Succeeded	490725552	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:04:13 2013	40
3	VDiskOplogMapTask	Succeeded	Succeeded	472451018	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:03:52 2013	19
4	VDiskOplogMapTask	Succeeded	Succeeded	472451018	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:03:52 2013	19
5	VDiskOplogMapTask	Succeeded	Succeeded	490725511	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:04:33 2013	60
6	VDiskOplogMapTask	Succeeded	Succeeded	490725511	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:04:33 2013	60
7	VDiskOplogMapTask	Succeeded	Succeeded	472451324	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:03:56 2013	23
8	VDiskOplogMapTask	Succeeded	Succeeded	472451324	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:03:56 2013	23
9	VDiskOplogMapTask	Succeeded	Succeeded	472451186	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:03:47 2013	14
10	VDiskOplogMapTask	Succeeded	Succeeded	472451186	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:03:47 2013	14
11	VDiskOplogMapTask	Succeeded	Succeeded	490493246	Tue Jun 18 08:03:36 2013	Tue Jun 18 08:04:36 2013	60
12	NfsInodeMapTask	Succeeded	Succeeded	472452227	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:04:30 2013	57
13	NfsInodeMapTask	Succeeded	Succeeded	490493246	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:03:36 2013	3
14	NfsInodeMapTask	Succeeded	Succeeded	472452227	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:04:30 2013	57
15	NfsInodeMapTask	Succeeded	Succeeded	490725549	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:03:58 2013	25
16	NfsInodeMapTask	Succeeded	Succeeded	472452000	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:04:16 2013	43
17	NfsInodeMapTask	Succeeded	Succeeded	490725549	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:03:58 2013	25
18	NfsInodeMapTask	Succeeded	Succeeded	472337394	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:04:33 2013	60
19	NfsInodeMapTask	Succeeded	Succeeded	472581426	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:04:04 2013	31
20	NfsInodeMapTask	Succeeded	Succeeded	472452000	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:04:16 2013	43
21	NfsInodeMapTask	Succeeded	Succeeded	490725550	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:03:50 2013	17
22	NfsInodeMapTask	Succeeded	Succeeded	490493246	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:03:36 2013	3
23	NfsInodeMapTask	Succeeded	Succeeded	472337394	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:04:33 2013	60
24	NfsVDiskMapTask	Succeeded	Succeeded	472581426	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:04:04 2013	31

Reduce Tasks

Task id	Task Type	Desired Status	Status	Node id	Start time	End time	Total time (secs)
0	NfsInodeReduceTask	Succeeded	Succeeded	472452227	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:06:30 2013	177
1	NfsInodeReduceTask	Succeeded	Succeeded	472452227	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:06:30 2013	177
2	NfsInodeReduceTask	Succeeded	Succeeded	472452000	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:06:16 2013	163
3	NfsInodeReduceTask	Succeeded	Succeeded	472452000	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:06:16 2013	163
4	NfsInodeReduceTask	Succeeded	Succeeded	490493246	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:05:36 2013	123
5	NfsInodeReduceTask	Succeeded	Succeeded	490493246	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:05:36 2013	123
6	NfsInodeReduceTask	Succeeded	Succeeded	490725549	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:05:58 2013	145
7	NfsInodeReduceTask	Succeeded	Succeeded	490725549	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:05:58 2013	145
8	NfsInodeReduceTask	Succeeded	Succeeded	472337394	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:06:33 2013	180
9	NfsInodeReduceTask	Succeeded	Succeeded	472337394	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:06:33 2013	180
10	NfsInodeReduceTask	Succeeded	Succeeded	490725550	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:05:50 2013	137
11	NfsInodeReduceTask	Succeeded	Succeeded	490725550	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:05:50 2013	137
12	NfsDirectoryReduceTask	Succeeded	Succeeded	472581426	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:06:04 2013	151
13	NfsDirectoryReduceTask	Succeeded	Succeeded	472581426	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:06:04 2013	151
14	NfsDirectoryReduceTask	Succeeded	Succeeded	490725552	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:06:13 2013	160
15	NfsDirectoryReduceTask	Succeeded	Succeeded	490725552	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:06:13 2013	160
16	NfsDirectoryReduceTask	Succeeded	Succeeded	472451018	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:05:52 2013	139
17	NfsDirectoryReduceTask	Succeeded	Succeeded	472451018	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:05:52 2013	139
18	NfsDirectoryReduceTask	Succeeded	Succeeded	490725511	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:06:33 2013	180
19	NfsDirectoryReduceTask	Succeeded	Succeeded	490725511	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:06:33 2013	180
20	NfsDirectoryReduceTask	Succeeded	Succeeded	472451324	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:05:56 2013	143
21	NfsDirectoryReduceTask	Succeeded	Succeeded	472451324	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:05:56 2013	143
22	NfsDirectoryReduceTask	Succeeded	Succeeded	472451186	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:05:47 2013	134
23	NfsDirectoryReduceTask	Succeeded	Succeeded	472451186	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:05:47 2013	134

Job Counters

Name	Value
MapVDiskOplogMap	764
FgHostVDiskTaskCount	1
FgDeleteToRemoveOplogMapEntryTaskCount	0
NumHostVDiskTasks	1
FgAddNfsInodeContainerIdTaskCount	0
NumNfsInodesUpdatedWithContainerId	0
FgDeleteNfsInodesTaskCount	0
NumNfsInodesDeleted	0
NumNfsVDisksProcessed	879
NfsReduceChildLinkCount	5853
NfsReduceParentLinkCount	5859
NfsReduceAttributeCount	5859
NfsReduceVDiskCount	879
FgFixNfsInodeLinksTaskCount	0
FgFixNfsLinkAcrossContainersTaskCount	0
FgFixNfsVDiskTaskCount	0
FgDeleteNfsDirectoryCount	0
BgFixExtentGroupTaskCount	0
BgMergeExtentGroupsTaskCount	0
BgCompressExtentsTaskCount	0
BgDeduplicateExtentTaskCount	0
BgMigrateExtentsTaskCount	0
BgCopyBlockmapMetadataTaskCount	0
BgUpdateRefcountsTaskCount	0
InternalError	0

Name	Id	Value
NumNfsDirectoryInodes	1993	0
NumNfsDirectoryInodes	1994	0
NumNfsDirectoryInodes	287698	3
NumNfsDirectoryInodes	336998919	3
NumNfsDirectoryInodes	1995	0
NumNfsDirectoryInodes	287721	1
NumNfsDirectoryInodes	1996	0
NumNfsDirectoryInodes	1933058	44
NumNfsDirectoryInodes	1933059	261
NumNfsDirectoryInodes	413365	0
NumNfsDirectoryInodes	323487	3

Scripts to check Network Stats in a Nutanix Cluster.

Nutanix cluster captures sysstats every often so you can use it graph , using our Nagios tool and run scripts against it

If there is any network latency and unreachable, you use the following script:

Here is the script that checks the ping_hosts.INFO

for i in `svmips` ; do (echo ; echo "SVM: $i" ; ssh $i cat data/logs/sysstats/ping_hosts.INFO | egrep -v "IP : time" | \
awk '/^#TIMESTAMP/ || $3>13.00 || $3=unreachable' | egrep -B1 " ms|unreachable" | egrep -v "\-\-" ); done

This will print if there is any unreachable or ping response taking more than 13 ms.

Here is another script that prints network utilization of above 1.2Gbps ( you can use Nagios to graph but
it does not combine both Rx and Tx Bps

Here is the modification of above script to check Average BW during certain time: - 6pm to 12 midnight.

for i in `svmips`; do (echo CVM:$i; ssh $i cat data/logs/sysstats/sar.INFO |egrep "eth0"| awk '/^#TIMESTAMP/ || \
$6 > 30000 || $7 > 30000' | egrep -B1 " eth0" | awk '{print $1,$2,$6,$7,($6+$7)/1024}');done |\
egrep "^06|^07|^08|^09|^10|^11"|grep PM|awk '{sum+=$5} END { print "Average = ",sum/NR}'

Or find the total number of times,network utilization crossed 2G between certain time

for i in `svmips`; do (echo CVM:$i; ssh $i cd data/logs/sysstats;cat sar.INFO |egrep "eth0"| awk '/^#TIMESTAMP/ || \
$6 > 30000 || $7 > 30000' | egrep -B1 " eth0" | awk '{print $1,$2,$6,$7,($6+$7)/1024}'|awk '$5 > 200');done|\
grep -v CVM|wc-l

Used this script to verify if the customer network usage dropped to 1G(between 2pm to 3pm)

for i in `svmips`; do (echo CVM:$i; ssh $i cat data/logs/sysstats/sar.INFO |egrep "eth0"| awk '/^#TIMESTAMP/ || \
$6 > 50000 || $7 > 50000' | egrep -B1 " eth0" | awk '{print $1,$2,$6,$7,($6+$7)/1024}');done | egrep "^02"|grep PM

Tuesday, June 11, 2013

Standby or unused Uplink is used after rebooting a ESXi 5.0 Update 1 host

Versions Affected

ESXi 5.0; ESXi 5.0 Update 1

Description

Symptom:
Diagnostics.py sequential write performance is poor

and esxtop with n switch shows that 1Gbps network is used instead of

10 Gbps.

Solution

It is due to vmware issues explained on these KBs on ESXi 5.0 update 1:
kb2008144

kb2030006
Workaround I: Remove 1Gbps from the vswitch configuration (validated)

esxcfg-nics -l - to find one Gig link ids ( eg, vmnic2 and vmnic3)
esxcfg-vswitch -l - to find the vswitch portgroups that use these links

esxcfg-vswitch -U vmnic2 vSwitch0

Workaround II:
To work around this issue, try setting the NIC Failback option to yes on

vswitch as well port group level.

Tags	Networking; VMware; Troubleshooting

Access Nutanix NFS from a different NFS client

Nutanix NFS can be exported to a non-nutanix NFS client on different subnet.

1. Whitelist NFS datastore onNutanix

ncli> cluster add-to-nfs-whitelist ip-subnet-masks=10.1.59.210/255.255.255.255

where 10.1.59.210 is non-Nutanix NFS client.

2. Verify that NFS datastore exported correctly - run this command on Nutanix Controller VM

showmount -e
Export list for TEST-13SM35190018-1-CVM:
/TEST-CTR1 10.3.177.28,10.3.177.27,10.3.177.26,10.3.177.25,10.1.59.210/255.255.255.255,192.168.5.0/255.255.255.128

3. Nutanix Centos is stig compliant, we have iptables to prevent accessing Nutanix CVM from another subnet. So here are the iptable rules to allow NFS access. Run these commands on Controller VM ( this is needed only if Nutanix CVM and NFS client are in
different subnets)
Open Port mapper:
for i in `svmips`; do ssh $i "sudo iptables -t filter -A WORLDLIST -p tcp -m tcp --dport 111 -j ACCEPT"; done
Open NFS/Mountd port:
for i in `svmips`; do ssh $i "sudo iptables -t filter -A WORLDLIST -p tcp -m tcp --dport 2049 -j ACCEPT"; done
Save the rules:

sudo iptables-save
/etc/init.d/iptables save

4. Mount it on remote .210 client (NFS client)

10.1.59.210:~$ sudo mount 10.3.177.29:/TEST-CTR1 /mnt
esxi: esxcfg-nas -a -o 10.3.1.177.29 -s /TEST-CTR1 NTNX-Datastore

5. This KB might be useful as well

http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=1007352

Centos Guest VM Hanging at eth0 every alternate Boot on ESXi 5.0

Description

Symptom:
Every alternate reboot on Centos VM hangs on eth0.

Troubleshooting:
- add set -x /etc/sysconfig/network-scripts/ifup-eth to find exactly where it is hanging.
- in this case it hang at arping trying to find the duplicate IP.
if ! /sbin/arping -q -c 2 -w 3 -D -I ${REALDEVICE} ${ipaddr[$idx]}

Solution

Root Cause:
Arping Uses real time instead of relative time to wait for 3 seconds ,

so if real time goes back by an hour during this 3 seconds,

it will wait for 1 hour 3 seconds instead of 3 seconds. So the

root cause was time difference between Centos VM and ESXi.

Workaround:

- adding 2 seconds so there is no race condition between time changes.
or
- make sure ESXi time and Centos VM time have correct time ( in one

customer case, they had wrong time set on Centos VM
and it was off by 2 hours, even if NTP is defined in Centos VM,

the time difference was too large for NTP ) - Most preferable.
or
- if Centos VM has to have different time than ESXi,then remove time sync

via vmware tools.

vmware KB

Tags	Troubleshooting

Nutanix Diaster Recovery for files.

Description

This document augments setup guide in creating the file protection.. Nutanix

document for VM protection is very precise.

For Gold image, create a protection domain, remote site,

add the gold image VM to that PD and once the data is migrated , pd

activate on remote site. Nutanix solution engineering is putting together

white paper for Goldimage DR

Solution

Topology

/agave_all_container/Ubuntu11.goldimage-flat.vmdk and test.txt \
---(adonis cluster) ----LAN/WAN ---(haley cluster) ---ctr ---/agave_all_container

Commands:

1. Create Protection domain (adonis)

ncli pd create name=file_pd_test

2. Create Remote Site:(adonis) vstore-map is same as container-map

ncli> remote-site create name=haley address-list

\="10.3.176.158,10.3.176.170,10.3.176.182"

\vstore-map="agave_all_container:agave_all_container" enable-proxy=true

3. Create Remote site in haley

ncli> remote-site create name=adonis address-list

\="10.3.100.145,10.3.100.146,10.3.100.147,10.3.100.148"

\vstore-map="agave_all_container:agave_all_container" enable-proxy=true

4. Configure files to be protected ( in adonis)

ncli> pd protect name=file_pd_test files=

\"/agave_all_container/Ubuntu11.goldimage-flat.vmdk"

Protection Domain : file_pd_test

Active : true

Marked For Removal : false

Remote Sites :

Next Snapshot Time : -

Virtual Machine(s) : 0

NFS Files : 1

NFS File Name :

\/agave_all_container/Ubuntu11.goldimage-flat.vmdk

Consistency Group : Ubuntu11.goldimage-flat

ncli> pd protect name=file_pd_test files="/agave_all_container/test.txt"

Protection Domain : file_pd_test

Active : true

Marked For Removal : false

Remote Sites :

Next Snapshot Time : -

Virtual Machine(s) : 0

NFS Files : 2

NFS File Name : /agave_all_container/

\Ubuntu11.goldimage-flat.vmdk

Consistency Group : Ubuntu11.goldimage-flat

NFS File Name : /agave_all_container/test.txt

Consistency Group : test

5. To make an immediate snapshot ( in adonis)

ncli> pd add-one-time-snapshot name="file_pd_test" remote-sites=haley

Action Id : 14649

Start Time : 06/10/2013 14:06:45 PDT

Remote Sites : haley

Snapshot retention (secs) : Forever

6. ncli> pd list-snapshots

ID : 14653

Protection Domain : file_pd_test

Create Time : 06/10/2013 14:06:45 PDT

Expiry Time : 06/28/2081 17:20:52 PDT

Virtual Machine(s) : 0

Replicated To Site(s) : haley

Verifying on Haley:

root@NTNX-QTFCE521601498-1-CVM:10.3.100.145:

\/tmp/mnt/.snapshot/89/401-1370887974745103-14689# ls

Ubuntu11.goldimage-flat.vmdk

After the copy over : http://haley-c1:2020 and http://adonis-c1:2020 (to verify)

On haley:

nutanix@Haley-0-A-CVM:10.3.176.158:~$ ncli pd ls

Protection Domain : pd_test

Active : false

Marked For Removal : false

Remote Sites :

Next Snapshot Time : -

Virtual Machine(s) : 0

NFS Files : 0

Protection Domain : partha

Active : true

Marked For Removal : false

Remote Sites :

Next Snapshot Time : -

Virtual Machine(s) : 0

NFS Files : 0

Protection Domain : file_pd_test

Active : false

Marked For Removal : false

Remote Sites :

Next Snapshot Time : -

Virtual Machine(s) : 0

NFS Files : 0

ncli> pd activate name=file_pd_test

Request to activate the protection domain file_pd_test is successful

ncli> pd ls

Protection Domain : pd_test

Active : false

Marked For Removal : false

Remote Sites :

Next Snapshot Time : -

Virtual Machine(s) : 0

NFS Files : 0

Protection Domain : partha

Active : true

Marked For Removal : false

Remote Sites :

Next Snapshot Time : -

Virtual Machine(s) : 0

NFS Files : 0

Protection Domain : file_pd_test

Active : true

Marked For Removal : false

Remote Sites :

Next Snapshot Time : -

Virtual Machine(s) : 0

NFS Files : 2

NFS File Name :

\/agave_all_container/Ubuntu11.goldimage-flat.vmdk

Consistency Group : Ubuntu11.goldimage-flat

NFS File Name : /agave_all_container/test.txt

Consistency Group : test

[root@Haley-0-A-CVM test]# ls

test.txt Ubuntu11.goldimage-flat.vmdk