nutanix

Wednesday, June 26, 2013

How to create a VM on Nutanix Cluster running KVM ?

I will go in depth on configuration modification done for running Nutanix cluster on KVM later.
(if you are interested, i like this doc

KVM Architecture Overview - Google Drive )

For now, let us take a Nutanix cluster running KVM and create VM on it.

[root@NTNX-12AM2K480036-A Create]# lsb_release   - vmware -v
LSB Version:    :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch

[root@NTNX-12AM2K480036-A Create]# virsh nodeinfo
CPU model:           x86_64
CPU(s):              24
CPU frequency:       1600 MHz
CPU socket(s):       1
Core(s) per socket: 6
Thread(s) per core: 2
NUMA cell(s):        2
Memory size:         49486468 KiB

virsh sysinfo (smbiosDump) - dmidecode on linux works as well.
<sysinfo type='smbios'>
<bios>
    <entry name='vendor'>American Megatrends Inc.</entry>
    <entry name='version'>2.1b      </entry>
    <entry name='date'>10/28/2011</entry>
    <entry name='release'>8.16</entry>
</bios>

Step 1.

- Login to nutanix Controller VM and Create Iscsi disk on Nutanix Container ( ncli ctr ls)
a. ncli vdisk create name=kvm-training-disk9 ctr-name=xyz max-capacity=16

ncli> vdisk ls names=kvm-training-disk9
    Name                      : kvm-training-disk9
    Container ID              : 779
    Max Capacity              : 16 GB (17,179,869,184 bytes)
ISCSI Target              : iqn.2010-06.com.nutanix:kvm-training-disk9-e3878625
    ISCSI LUN                 : 0

b. On KVM terminal - Verify that you are able to see the iscsi targets.

[root@NTNX-12AM2K480036-A ~]# sudo iscsiadm -m discovery -t sendtargets -p 192.168.5.2:3260|egrep "iso|disk9" ( esxcfg-scsidevs -m)
192.168.5.2:3260,1 iqn.2010-06.com.nutanix:gasmith-training-cdrom-centos-6.4-x86_64-bin-dvd1.iso-bca6c6aa
192.168.5.2:3260,1 iqn.2010-06.com.nutanix:CentOS-6.4-x86_64-bin-DVD1.iso-c0e9bd87
192.168.5.2:3260,1 iqn.2010-06.com.nutanix:kvm-training-disk9-e3878625

c. Define the pool - same as creating datastore vmkfstools -C

virsh pool-define-as --name kvm-training-disk9 --type iscsi --source-host 192.168.5.2 \
--source-dev iqn.2010-06.com.nutanix:kvm-training-disk9-e3878625 \
--target /dev/disk/by-path
Pool kvm-training-disk9 defined

where name can be specific to VM name, 192.168.5.2 is internal CVM IP, source dev is iqn name
of the iscsi lun, and have it defined in /disk/by-path.

[root@NTNX-12AM2K480036-A by-path]# cd /dev/disk/by-path
root@NTNX-12AM2K480036-A by-path]# ls
ip-192.168.5.2:3260-iscsi-iqn.2010-06.com.nutanix:CentOS-6.4-x86_64-bin-DVD1.iso-c0e9bd87-lun-0
ip-192.168.5.2:3260-iscsi-iqn.2010-06.com.nutanix:kvm-training-disk9-e3878625-lun-0

d. Activate the pool

[root@NTNX-12AM2K480036-A ~]# virsh pool-list
Name                 State      Autostart
-----------------------------------------
CentOS-6.4.iso       active     no
default              active     yes
(it shows only active pools)

[root@NTNX-12AM2K480036-A ~]# virsh pool-list --all -- shows all the pool (esxcfg-scsidevs )
Name                 State      Autostart
-----------------------------------------
CentOS-6.4.iso       active     no
default              active     yes
kvm-training-disk9   inactive   no

Activate the pool
virsh # pool-start kvm-training-disk9
Pool kvm-training-disk9 started

Autostart the pool if there is a reboot
virsh # pool-autostart kvm-training-disk9
Pool kvm-training-disk9 marked as autostarted

virsh # pool-list ( esxcfg-scsidevs -m)
Name                 State      Autostart
-----------------------------------------
CentOS-6.4.iso       active     no
default              active     yes
kvm-training-disk9   active     yes

Verify the config
[root@NTNX-12AM2K480036-A ~]# virsh pool-dumpxml kvm-training-disk9
<pool type='iscsi'>
<name>kvm-training-disk9</name>
<uuid>3e42d29d-9037-1faa-12e1-af450904b5ab</uuid>
<capacity unit='bytes'>17179869184</capacity>
<allocation unit='bytes'>17179869184</allocation>
<available unit='bytes'>0</available>
<source>
    <host name='192.168.5.2'/>
    <device path='iqn.2010-06.com.nutanix:kvm-training-disk9-e3878625'/>
</source>
<target>
    <path>/dev/disk/by-path</path>
    <permissions>
      <mode>0755</mode>
      <owner>-1</owner>
      <group>-1</group>
    </permissions>
</target>
</pool>

List the volume

[root@NTNX-12AM2K480036-A ~]# virsh vol-list --pool kvm-training-disk9 (esxcfg-scsidevs -m)

Name                 Path
-----------------------------------------
unit:0:0:0           /dev/disk/by-path/ip-192.168.5.2:3260-iscsi-iqn.2010-06.com.nutanix:kvm-training-disk9-e3878625-lun-0

[root@NTNX-12AM2K480036-A ~]# virsh vol-info --pool kvm-training-disk9 unit:0:0:0
Name:           unit:0:0:0
Type:           block
Capacity:       16.00 GiB
Allocation:     16.00 GiB

Create the VM with following config
cat ~/KVM/Create/disk9 ( chmod +x)

#!/usr/bin/env bash

virt-install \
--description "CentOS 6.4 - minimal desktop" \
--connect qemu:///system \
--name kvm-training9 \
--disk vol=kvm-training-disk9/unit:0:0:0,format=raw,cache=none,io=native,bus=virtio \
--ram 1024 \
--vcpu 1 \
--graphics vmc,port=5905,listen=0.0.0.0 \
--os-type linux \
--os-variant rhel6 \
--disk vol=CentOS-6.4.iso/unit:0:0:0,format=raw,io=native,bus=ide,device=cdrom \
--noautoconsole \
--wait 0 --network network=VM-Network,model=virtio \
--force

run ~/KVM/Create/disk9

[root@NTNX-12AM2K480036-A by-path]# virsh list ( similar to vim-cmd vmsvc/getallvms or vm-support -V esxcli vm process list)
Id    Name                           State
----------------------------------------------------
1     NTNX-12AM2K480036-A-CVM        running

52    kvm-training9                  running

virsh # dumpxml 52 ---- like vmx file <domain type='kvm' id='52'>
<name>kvm-training9</name>
<uuid>81f4f17f-b9e8-d533-1b89-6295c5ff6048</uuid>
<description>CentOS 6.4 - minimal desktop</description>
<memory unit='KiB'>1048576</memory>
<currentMemory unit='KiB'>1048576</currentMemory>
<vcpu placement='static'>1</vcpu>
<os>
    <type arch='x86_64' machine='rhel6.4.0'>hvm</type>
    <boot dev='hd'/>
</os>
<features>
    <acpi/>
    <apic/>
    <pae/>
</features>
<clock offset='utc'/>
<on_poweroff>destroy</on_poweroff>
<on_reboot>restart</on_reboot>
<on_crash>restart</on_crash>
<devices>
    <emulator>/usr/libexec/qemu-kvm</emulator>
    <disk type='block' device='disk'>
      <driver name='qemu' type='raw' cache='none' io='native'/>
      <source dev='/dev/disk/by-path/ip-192.168.5.2:3260-iscsi-iqn.2010-06.com.nutanix:kvm-training-disk9-e3878625-lun-0'/>
      <target dev='vda' bus='virtio'/>
      <alias name='virtio-disk0'/>
      <address type='pci' domain='0x0000' bus='0x00' slot='0x04' function='0x0'/>
    </disk>
    <disk type='block' device='cdrom'>
      <driver name='qemu' type='raw' io='native'/>
      <source dev='/dev/disk/by-path/ip-192.168.5.2:3260-iscsi-iqn.2010-06.com.nutanix:CentOS-6.4-x86_64-bin-DVD1.iso-c0e9bd87-lun-0'/>
      <target dev='hdc' bus='ide'/>
      <readonly/>
      <alias name='ide0-1-0'/>
      <address type='drive' controller='0' bus='1' target='0' unit='0'/>
    </disk>
    <controller type='usb' index='0'>
      <alias name='usb0'/>
      <address type='pci' domain='0x0000' bus='0x00' slot='0x01' function='0x2'/>
    </controller>
    <controller type='ide' index='0'>
      <alias name='ide0'/>
      <address type='pci' domain='0x0000' bus='0x00' slot='0x01' function='0x1'/>
    </controller>
    <interface type='network'>
      <mac address='52:54:00:3e:4c:f5'/>
      <source network='VM-Network'/>
      <target dev='vnet6'/>
      <model type='virtio'/>
      <alias name='net0'/>
      <address type='pci' domain='0x0000' bus='0x00' slot='0x03' function='0x0'/>
    </interface>
    <serial type='pty'>
      <source path='/dev/pts/6'/>
      <target port='0'/>
      <alias name='serial0'/>
    </serial>
    <console type='pty' tty='/dev/pts/6'>
      <source path='/dev/pts/6'/>
      <target type='serial' port='0'/>
      <alias name='serial0'/>
    </console>
    <input type='tablet' bus='usb'>
      <alias name='input0'/>
    </input>
    <input type='mouse' bus='ps2'/>
    <graphics type='vnc' port='5909' autoport='no' listen='0.0.0.0'>
      <listen type='address' address='0.0.0.0'/>
    </graphics>
    <video>
      <model type='cirrus' vram='9216' heads='1'/>
      <alias name='video0'/>
      <address type='pci' domain='0x0000' bus='0x00' slot='0x02' function='0x0'/>
    </video>
    <memballoon model='virtio'>
      <alias name='balloon0'/>
      <address type='pci' domain='0x0000' bus='0x00' slot='0x05' function='0x0'/>
    </memballoon>
</devices>
<seclabel type='dynamic' model='selinux' relabel='yes'>
    <label>unconfined_u:system_r:svirt_t:s0:c399,c943</label>
    <imagelabel>unconfined_u:object_r:svirt_image_t:s0:c399,c943</imagelabel>
</seclabel>
</domain>

[root@NTNX-12AM2K480036-A Create]# ps -ef|grep qemu |grep training9- similar to vmx module in vmware
qemu     14276     1 0 15:44 ?        00:00:42 /usr/libexec/qemu-kvm -name kvm-training9 -S -M rhel6.4.0 -enable-kvm -m 1024 -smp 1,sockets=1,cores=1,threads=1 -uuid 81f4f17f-b9e8-d533-1b89-6295c5ff6048 -nodefconfig -nodefaults -chardev socket,id=charmonitor,path=/var/lib/libvirt/qemu/kvm-training9.monitor,server,nowait -mon chardev=charmonitor,id=monitor,mode=control -rtc base=utc -no-shutdown -device piix3-usb-uhci,id=usb,bus=pci.0,addr=0x1.0x2 -drive file=/dev/disk/by-path/ip-192.168.5.2:3260-iscsi-iqn.2010-06.com.nutanix:kvm-training-disk9-e3878625-lun-0,if=none,id=drive-virtio-disk0,format=raw,cache=none,aio=native -device virtio-blk-pci,scsi=off,bus=pci.0,addr=0x4,drive=drive-virtio-disk0,id=virtio-disk0,bootindex=1 -drive file=/dev/disk/by-path/ip-192.168.5.2:3260-iscsi-iqn.2010-06.com.nutanix:CentOS-6.4-x86_64-bin-DVD1.iso-c0e9bd87-lun-0,if=none,media=cdrom,id=drive-ide0-1-0,readonly=on,format=raw,aio=native -device ide-drive,bus=ide.1,unit=0,drive=drive-ide0-1-0,id=ide0-1-0 -netdev tap,fd=36,id=hostnet0,vhost=on,vhostfd=39 -device virtio-net-pci,netdev=hostnet0,id=net0,mac=52:54:00:3e:4c:f5,bus=pci.0,addr=0x3 -chardev pty,id=charserial0 -device isa-serial,chardev=charserial0,id=serial0 -device usb-tablet,id=input0 -vnc 0.0.0.0:9 -vga cirrus -device virtio-balloon-pci,id=balloon0,bus=pci.0,addr=0x5

virt-top (esxtop) -1,2,3
virt-top 17:40:34 - x86_64 24/24CPU 1600MHz 48326MB
9 domains, 8 active, 8 running, 0 sleeping, 0 paused, 1 inactive D:0 O:0 X:0
CPU: 1.0% Mem: 22008 MB (22008 MB by guests)

   ID S RXBY TXBY RXPK TXPK DOMAIN       INTERFACE
    1 R 23K 25K   96   89 NTNX-12AM2K4 vnet0
   43 R 723    0    9    0 gasmith-trai vnet2
    52 R    0    0    0    0 kvm-training vnet6

We have virt_install in Nutanix CVM to automate these steps ( create iscsi disk, create pool and install VM)

.CVM:10.3.202.19:~/nutanix_kvm/bin$ ./virt_install --cdrom /ImageStore/win7.iso --disk 128 --nic VM-Network --vnc_port 5999 --os_type windows --os_variant win7 --name kvm-testing-win27

2013-06-27 11:21:43 INFO batch_worker.py:190 Preparing nutanix disks: 0%
2013-06-27 11:21:46 INFO batch_worker.py:190 Preparing nutanix disks: 50%
2013-06-27 11:21:46 INFO batch_worker.py:190 Preparing nutanix disks: 100%
2013-06-27 11:21:46 INFO batch_worker.py:190 Creating libvirt storage pools: 0%
2013-06-27 11:21:50 INFO batch_worker.py:190 Creating libvirt storage pools: 50%
2013-06-27 11:21:52 INFO batch_worker.py:190 Creating libvirt storage pools: 100%
2013-06-27 11:21:52 INFO kvm_domain_template.py:156 Running virt-install

( connect to VNC -:99 disable Adapt and max quality in vnc viewer)
Connect to the console and install the CentOS.(virt-manager)

virsh # list --all (vmsvc/getallvms)
Id    Name                           State
----------------------------------------------------
1     NTNX-12AM2K480036-C-CVM        running
40    kvm-training03                 running
41    kvm-training6                  running
42    kvm-training4                  running
47    kvm-testing-win21              running
48    kvm-testing-win24              running
-     kvm-testing-win99              shut off

virsh # start kvm-testing-win99 -- vim-cmd vmsvc/power.on
Domain kvm-testing-win99 started

Tuesday, June 18, 2013

Curator does thankless job of keeping Nutanix cluster Clean and Lean.

Curator uses map reduce logic to clean up deleted vdisks, containers and update reference count.
It monitors under-replicated or over-replicated extent groups , redistribute extent groups for node and block awareness. Based on upper and lower threshold, it migrates extent groups between the tiers based on "hotness" of the data. Partial scan is initiated every 30 minutes if there is "to Remove", "ILM needed" or "Diskspace utilization". Full scan initiated every 6 hours does additional function of updating ref. counts. For ILM and cleaning extent groups, curator finds those extent groups informs stargate to do the actual job and chronos acts as admission control on how many of these jobs are forwarded to stargate.

BTW, curator does these in the background and nutanix cluster has optimum gflags and
settings for the curator. With every release of the nutanix software, more of these configs
will be tuned automatically based on workload.

Gflags for configuring curator: ( if you need to change gflags, please contact nutanix
support or sales team).
1. Lower threshold is configured via
ncli sp edit ilm-thresh ( default 70)
2.upper ilm threshold - --curator_tier_usage_ilm_threshold_percent
3. how much to migrate between tiers upto lower threshold -
curator_tier_free_up_percent_by_ilm
4. how often chronos asks stargate to work on curator jobs: chronos_master_handshake_period_msecs
5.
--curator_next_tier_usage_ilm_threshold_percent=95 (default 90) -- migrate to next tier only if next tier has so much free space.
6. -curator_full_scan_period_secs - how often full scan is run
7. --chronos_master_node_max_active_requests - # number of requests sent to stargate at every handshake.

How to manually run a full scan:

for svm in `svmips`; do wget -O - "http://$svm:2010/master/api/client/StartCuratorTasks?task_type=2"; done

Here is an example of hot tier usage and ILM migration activity if these params are set aggressively and this
could cause unnecessary network traffic and I/O activities. As noticed in the following figure, that before Apr17th,
there were a lot of migrate activities from the SSD tier. This picture is plots the usage of SSD tier.

How to check how much of your data was accessed in last 30 minutes in any tier ?
heat-map-analysis

How to find when curator full scan and partial scan was run. ?

Curator Jobs

Job id	Execution id	Job name	Status	Reasons	Zeus config valid	Start time	End time	Total time (secs)
1	65656	Partial Scan	Succeeded	ILM	Yes	Tue Jun 18 10:34:18 2013	Tue Jun 18 10:39:51 2013	333
1	65654	Partial Scan	Succeeded	ILM	Yes	Tue Jun 18 10:03:48 2013	Tue Jun 18 10:09:08 2013	320
1	65652	Partial Scan	Succeeded	ILM	Yes	Tue Jun 18 09:33:18 2013	Tue Jun 18 09:38:51 2013	333
1	65650	Partial Scan	Succeeded	ILM	Yes	Tue Jun 18 09:03:17 2013	Tue Jun 18 09:08:50 2013	333
1	65647	Partial Scan	Succeeded	ILM	Yes	Tue Jun 18 08:32:47 2013	Tue Jun 18 08:38:07 2013	320
0	65642	Full Scan	Succeeded	ILM ToRemove	Yes	Tue Jun 18 08:02:17 2013	Tue Jun 18 08:17:50 2013	933
1	65640	Partial Scan	Succeeded	Periodic	Yes	Tue Jun 18 07:50:28 2013	Tue Jun 18 07:55:49 2013	321

Tier Usage:

Storage Pool: NTNX-SP1 ILM Down Migrate threshold: 85

Tier Name	Tier Usage	Tier Size	Tier Usage Pct
SSD-PCIe	1355.50 GB	1481.57 GB	91%
SSD-SATA	N/A	N/A	N/A
DAS-SATA	15362.15 GB	51371.99 GB	29%

Are all Nodes balanced disk usage ?

Storage Pool: NTNX-SP1 Tier: SSD-PCIe

Mean Usage Pct	92%
Zone of Balance	85% - 99%
Usage Spread Pct	8%
Status	Balanced

Rack Id	Service VM	Disk Id	Disk Usage	Disk Size	Disk Usage Pct	Inside Zone of Balance
453898548	8	490493209	88.31 GB	93.09 GB	94%	Yes
453898548	22	35	88.48 GB	93.09 GB	95%	Yes
453898548	23	48	88.02 GB	93.09 GB	94%	Yes
453898548	28	59	87.77 GB	93.09 GB	94%	Yes
453898552	67395682	336979195	88.48 GB	93.09 GB	95%	Yes
453898552	67395684	336979174	88.61 GB	93.09 GB	95%	Yes
453898552	67395686	336979211	88.58 GB	93.09 GB	95%	Yes
453898552	67395688	336979184	88.41 GB	93.09 GB	94%	Yes
490725470	490725463	490725475	163.83 GB	184.21 GB	88%	Yes
490725470	490725465	490725476	160.78 GB	184.21 GB	87%	Yes
490725470	490725467	490725477	163.83 GB	184.21 GB	88%	Yes
490725470	490725471	490725478	160.41 GB	184.21 GB	87%	Yes

What are the activities done during last patial scan ?

MapReduce job 65657

Job id	65657
Job name	PartialScan MapReduce
Status	Succeeded
Map tasks done	36/36
Reduce tasks done	24/24
Start time	Tue Jun 18 10:35:18 2013
End time	Tue Jun 18 10:39:48 2013
Total time (secs)	270

Map Tasks

Task id	Task Type	Desired Status	Status	Node id	Start time	End time	Total time (secs)
0	ExtentGroupIdMapTask	Succeeded	Succeeded	472452227	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:37:31 2013	133
1	ExtentGroupIdMapTask	Succeeded	Succeeded	490493246	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:37:37 2013	139
2	ExtentGroupIdMapTask	Succeeded	Succeeded	490725549	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:36:59 2013	101
3	ExtentGroupIdMapTask	Succeeded	Succeeded	490725550	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:36:51 2013	93
4	ExtentGroupIdMapTask	Succeeded	Succeeded	472452000	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:36:17 2013	59
5	ExtentGroupIdMapTask	Succeeded	Succeeded	472581426	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:37:06 2013	108
6	ExtentGroupIdMapTask	Succeeded	Succeeded	472451186	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:37:48 2013	150
7	ExtentGroupIdMapTask	Succeeded	Succeeded	490725552	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:36:14 2013	56
8	ExtentGroupIdMapTask	Succeeded	Succeeded	490725511	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:36:34 2013	76
9	ExtentGroupIdMapTask	Succeeded	Succeeded	472451018	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:36:53 2013	95
10	ExtentGroupIdMapTask	Succeeded	Succeeded	472451324	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:36:57 2013	99
11	ExtentGroupIdMapTask	Succeeded	Succeeded	472337394	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:36:34 2013	76
12	ExtentGroupAccessDataMapTask	Succeeded	Succeeded	472452227	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:35:31 2013	13
13	ExtentGroupAccessDataMapTask	Succeeded	Succeeded	490725552	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:36:14 2013	56
14	ExtentGroupAccessDataMapTask	Succeeded	Succeeded	490725549	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:35:59 2013	41
15	ExtentGroupAccessDataMapTask	Succeeded	Succeeded	490725550	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:35:51 2013	33
16	ExtentGroupAccessDataMapTask	Succeeded	Succeeded	472452000	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:36:17 2013	59
17	ExtentGroupAccessDataMapTask	Succeeded	Succeeded	472581426	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:36:06 2013	48
18	ExtentGroupAccessDataMapTask	Succeeded	Succeeded	472451186	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:35:48 2013	30
19	ExtentGroupAccessDataMapTask	Succeeded	Succeeded	472452227	Tue Jun 18 10:35:32 2013	Tue Jun 18 10:36:31 2013	59
20	ExtentGroupAccessDataMapTask	Succeeded	Succeeded	490725511	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:35:34 2013	16
21	ExtentGroupAccessDataMapTask	Succeeded	Succeeded	472451018	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:35:53 2013	35
22	ExtentGroupAccessDataMapTask	Succeeded	Succeeded	490493246	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:35:37 2013	19
23	ExtentGroupAccessDataMapTask	Succeeded	Succeeded	472337394	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:35:34 2013	16
24	VDiskOplogMapTask	Succeeded	Succeeded	472451324	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:35:57 2013	39
25	VDiskOplogMapTask	Succeeded	Succeeded	472337394	Tue Jun 18 10:35:34 2013	Tue Jun 18 10:36:34 2013	60
26	VDiskOplogMapTask	Succeeded	Succeeded	490725511	Tue Jun 18 10:35:34 2013	Tue Jun 18 10:36:34 2013	60
27	VDiskOplogMapTask	Succeeded	Succeeded	490493246	Tue Jun 18 10:35:37 2013	Tue Jun 18 10:36:37 2013	60
28	VDiskOplogMapTask	Succeeded	Succeeded	472451186	Tue Jun 18 10:35:48 2013	Tue Jun 18 10:36:48 2013	60
29	VDiskOplogMapTask	Succeeded	Succeeded	490725550	Tue Jun 18 10:35:51 2013	Tue Jun 18 10:36:51 2013	60
30	VDiskOplogMapTask	Succeeded	Succeeded	472451018	Tue Jun 18 10:35:53 2013	Tue Jun 18 10:36:53 2013	60
31	VDiskOplogMapTask	Succeeded	Succeeded	472451324	Tue Jun 18 10:35:57 2013	Tue Jun 18 10:36:57 2013	60
32	VDiskOplogMapTask	Succeeded	Succeeded	490725549	Tue Jun 18 10:35:59 2013	Tue Jun 18 10:36:59 2013	60
33	VDiskOplogMapTask	Succeeded	Succeeded	472581426	Tue Jun 18 10:36:06 2013	Tue Jun 18 10:37:06 2013	60
34	VDiskOplogMapTask	Succeeded	Succeeded	490725552	Tue Jun 18 10:36:14 2013	Tue Jun 18 10:37:14 2013	60
35	VDiskOplogMapTask	Succeeded	Succeeded	490725552	Tue Jun 18 10:36:14 2013	Tue Jun 18 10:37:14 2013	60

Reduce Tasks

Task id	Task Type	Desired Status	Status	Node id	Start time	End time	Total time (secs)
0	DiskIdReduceTask	Succeeded	Succeeded	472452227	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:31 2013	253
1	DiskIdReduceTask	Succeeded	Succeeded	472452227	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:31 2013	253
2	DiskIdReduceTask	Succeeded	Succeeded	472452000	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:17 2013	239
3	DiskIdReduceTask	Succeeded	Succeeded	472452000	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:17 2013	239
4	DiskIdReduceTask	Succeeded	Succeeded	490493246	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:37 2013	259
5	DiskIdReduceTask	Succeeded	Succeeded	490493246	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:37 2013	259
6	DiskIdReduceTask	Succeeded	Succeeded	490725549	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:38:59 2013	221
7	DiskIdReduceTask	Succeeded	Succeeded	490725549	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:38:59 2013	221
8	DiskIdReduceTask	Succeeded	Succeeded	472337394	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:34 2013	256
9	DiskIdReduceTask	Succeeded	Succeeded	472337394	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:34 2013	256
10	DiskIdReduceTask	Succeeded	Succeeded	490725550	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:38:51 2013	213
11	DiskIdReduceTask	Succeeded	Succeeded	490725550	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:38:51 2013	213
12	ExtentGroupIdReduceTask	Succeeded	Succeeded	472581426	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:06 2013	228
13	ExtentGroupIdReduceTask	Succeeded	Succeeded	472581426	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:06 2013	228
14	ExtentGroupIdReduceTask	Succeeded	Succeeded	490725552	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:14 2013	236
15	ExtentGroupIdReduceTask	Succeeded	Succeeded	490725552	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:14 2013	236
16	ExtentGroupIdReduceTask	Succeeded	Succeeded	472451018	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:38:53 2013	215
17	ExtentGroupIdReduceTask	Succeeded	Succeeded	472451018	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:38:53 2013	215
18	ExtentGroupIdReduceTask	Succeeded	Succeeded	490725511	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:34 2013	256
19	ExtentGroupIdReduceTask	Succeeded	Succeeded	490725511	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:34 2013	256
20	ExtentGroupIdReduceTask	Succeeded	Succeeded	472451324	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:38:57 2013	219
21	ExtentGroupIdReduceTask	Succeeded	Succeeded	472451324	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:38:57 2013	219
22	ExtentGroupIdReduceTask	Succeeded	Succeeded	472451186	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:48 2013	270
23	ExtentGroupIdReduceTask	Succeeded	Succeeded	472451186	Tue Jun 18 10:35:18 2013	Tue Jun 18 10:39:48 2013	270

Job Counters

Name	Value
MapExtentGroupIdMap	535252
ReduceDiskIdExtentGroupId	1070510
MapExtentGroupAccessDataMap	535213
NumExtentGroupsToMigrateForILM	4740
NumExtentGroupsToMigrateForDiskBalancing	0
MapVDiskOplogMap	764
NumHostVDiskTasks	3
FgHostVDiskTaskCount	3
FgDeleteToRemoveOplogMapEntryTaskCount	0
FgDeleteVDiskBlocksTaskCount	0
MapVDiskBlockMap	0
NumExtentGroupsWithReplicaOnSameNode	0
NumExtentGroupsWithReplicaOnSameRack	3275
NumFixExtentGroupsTasksReplicaOnSameRack	23
FgDeleteExtentGroupsWithNonEidExtentsTaskCount	0
NumExtentGroupsWithNonEidExtentsToDelete	0
NumInvalidExtentGroupAccessDataMapEntries	0
BgFixExtentGroupTaskCount	5779
BgMergeExtentGroupsTaskCount	0
BgCompressExtentsTaskCount	0
BgDeduplicateExtentTaskCount	0
BgMigrateExtentsTaskCount	0
BgCopyBlockmapMetadataTaskCount	0
BgUpdateRefcountsTaskCount	0
InternalError	0

What are the activities done during full scan ?

MapReduce job 65643

Job id	65643
Job name	FullScan MapReduce #1
Status	Succeeded
Map tasks done	25/25
Reduce tasks done	24/24
Start time	Tue Jun 18 08:03:32 2013
End time	Tue Jun 18 08:06:33 2013
Total time (secs)	181

Map Tasks

Task id	Task Type	Desired Status	Status	Node id	Start time	End time	Total time (secs)
0	VDiskOplogMapTask	Succeeded	Succeeded	490725550	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:03:50 2013	17
1	VDiskOplogMapTask	Succeeded	Succeeded	490725552	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:04:13 2013	40
2	VDiskOplogMapTask	Succeeded	Succeeded	490725552	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:04:13 2013	40
3	VDiskOplogMapTask	Succeeded	Succeeded	472451018	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:03:52 2013	19
4	VDiskOplogMapTask	Succeeded	Succeeded	472451018	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:03:52 2013	19
5	VDiskOplogMapTask	Succeeded	Succeeded	490725511	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:04:33 2013	60
6	VDiskOplogMapTask	Succeeded	Succeeded	490725511	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:04:33 2013	60
7	VDiskOplogMapTask	Succeeded	Succeeded	472451324	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:03:56 2013	23
8	VDiskOplogMapTask	Succeeded	Succeeded	472451324	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:03:56 2013	23
9	VDiskOplogMapTask	Succeeded	Succeeded	472451186	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:03:47 2013	14
10	VDiskOplogMapTask	Succeeded	Succeeded	472451186	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:03:47 2013	14
11	VDiskOplogMapTask	Succeeded	Succeeded	490493246	Tue Jun 18 08:03:36 2013	Tue Jun 18 08:04:36 2013	60
12	NfsInodeMapTask	Succeeded	Succeeded	472452227	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:04:30 2013	57
13	NfsInodeMapTask	Succeeded	Succeeded	490493246	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:03:36 2013	3
14	NfsInodeMapTask	Succeeded	Succeeded	472452227	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:04:30 2013	57
15	NfsInodeMapTask	Succeeded	Succeeded	490725549	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:03:58 2013	25
16	NfsInodeMapTask	Succeeded	Succeeded	472452000	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:04:16 2013	43
17	NfsInodeMapTask	Succeeded	Succeeded	490725549	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:03:58 2013	25
18	NfsInodeMapTask	Succeeded	Succeeded	472337394	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:04:33 2013	60
19	NfsInodeMapTask	Succeeded	Succeeded	472581426	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:04:04 2013	31
20	NfsInodeMapTask	Succeeded	Succeeded	472452000	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:04:16 2013	43
21	NfsInodeMapTask	Succeeded	Succeeded	490725550	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:03:50 2013	17
22	NfsInodeMapTask	Succeeded	Succeeded	490493246	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:03:36 2013	3
23	NfsInodeMapTask	Succeeded	Succeeded	472337394	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:04:33 2013	60
24	NfsVDiskMapTask	Succeeded	Succeeded	472581426	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:04:04 2013	31

Reduce Tasks

Task id	Task Type	Desired Status	Status	Node id	Start time	End time	Total time (secs)
0	NfsInodeReduceTask	Succeeded	Succeeded	472452227	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:06:30 2013	177
1	NfsInodeReduceTask	Succeeded	Succeeded	472452227	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:06:30 2013	177
2	NfsInodeReduceTask	Succeeded	Succeeded	472452000	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:06:16 2013	163
3	NfsInodeReduceTask	Succeeded	Succeeded	472452000	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:06:16 2013	163
4	NfsInodeReduceTask	Succeeded	Succeeded	490493246	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:05:36 2013	123
5	NfsInodeReduceTask	Succeeded	Succeeded	490493246	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:05:36 2013	123
6	NfsInodeReduceTask	Succeeded	Succeeded	490725549	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:05:58 2013	145
7	NfsInodeReduceTask	Succeeded	Succeeded	490725549	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:05:58 2013	145
8	NfsInodeReduceTask	Succeeded	Succeeded	472337394	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:06:33 2013	180
9	NfsInodeReduceTask	Succeeded	Succeeded	472337394	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:06:33 2013	180
10	NfsInodeReduceTask	Succeeded	Succeeded	490725550	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:05:50 2013	137
11	NfsInodeReduceTask	Succeeded	Succeeded	490725550	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:05:50 2013	137
12	NfsDirectoryReduceTask	Succeeded	Succeeded	472581426	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:06:04 2013	151
13	NfsDirectoryReduceTask	Succeeded	Succeeded	472581426	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:06:04 2013	151
14	NfsDirectoryReduceTask	Succeeded	Succeeded	490725552	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:06:13 2013	160
15	NfsDirectoryReduceTask	Succeeded	Succeeded	490725552	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:06:13 2013	160
16	NfsDirectoryReduceTask	Succeeded	Succeeded	472451018	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:05:52 2013	139
17	NfsDirectoryReduceTask	Succeeded	Succeeded	472451018	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:05:52 2013	139
18	NfsDirectoryReduceTask	Succeeded	Succeeded	490725511	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:06:33 2013	180
19	NfsDirectoryReduceTask	Succeeded	Succeeded	490725511	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:06:33 2013	180
20	NfsDirectoryReduceTask	Succeeded	Succeeded	472451324	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:05:56 2013	143
21	NfsDirectoryReduceTask	Succeeded	Succeeded	472451324	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:05:56 2013	143
22	NfsDirectoryReduceTask	Succeeded	Succeeded	472451186	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:05:47 2013	134
23	NfsDirectoryReduceTask	Succeeded	Succeeded	472451186	Tue Jun 18 08:03:33 2013	Tue Jun 18 08:05:47 2013	134

Job Counters

Name	Value
MapVDiskOplogMap	764
FgHostVDiskTaskCount	1
FgDeleteToRemoveOplogMapEntryTaskCount	0
NumHostVDiskTasks	1
FgAddNfsInodeContainerIdTaskCount	0
NumNfsInodesUpdatedWithContainerId	0
FgDeleteNfsInodesTaskCount	0
NumNfsInodesDeleted	0
NumNfsVDisksProcessed	879
NfsReduceChildLinkCount	5853
NfsReduceParentLinkCount	5859
NfsReduceAttributeCount	5859
NfsReduceVDiskCount	879
FgFixNfsInodeLinksTaskCount	0
FgFixNfsLinkAcrossContainersTaskCount	0
FgFixNfsVDiskTaskCount	0
FgDeleteNfsDirectoryCount	0
BgFixExtentGroupTaskCount	0
BgMergeExtentGroupsTaskCount	0
BgCompressExtentsTaskCount	0
BgDeduplicateExtentTaskCount	0
BgMigrateExtentsTaskCount	0
BgCopyBlockmapMetadataTaskCount	0
BgUpdateRefcountsTaskCount	0
InternalError	0

Name	Id	Value
NumNfsDirectoryInodes	1993	0
NumNfsDirectoryInodes	1994	0
NumNfsDirectoryInodes	287698	3
NumNfsDirectoryInodes	336998919	3
NumNfsDirectoryInodes	1995	0
NumNfsDirectoryInodes	287721	1
NumNfsDirectoryInodes	1996	0
NumNfsDirectoryInodes	1933058	44
NumNfsDirectoryInodes	1933059	261
NumNfsDirectoryInodes	413365	0
NumNfsDirectoryInodes	323487	3

Scripts to check Network Stats in a Nutanix Cluster.

Nutanix cluster captures sysstats every often so you can use it graph , using our Nagios tool and run scripts against it

If there is any network latency and unreachable, you use the following script:

Here is the script that checks the ping_hosts.INFO

for i in `svmips` ; do (echo ; echo "SVM: $i" ; ssh $i cat data/logs/sysstats/ping_hosts.INFO | egrep -v "IP : time" | \
awk '/^#TIMESTAMP/ || $3>13.00 || $3=unreachable' | egrep -B1 " ms|unreachable" | egrep -v "\-\-" ); done

This will print if there is any unreachable or ping response taking more than 13 ms.

Here is another script that prints network utilization of above 1.2Gbps ( you can use Nagios to graph but
it does not combine both Rx and Tx Bps

Here is the modification of above script to check Average BW during certain time: - 6pm to 12 midnight.

for i in `svmips`; do (echo CVM:$i; ssh $i cat data/logs/sysstats/sar.INFO |egrep "eth0"| awk '/^#TIMESTAMP/ || \
$6 > 30000 || $7 > 30000' | egrep -B1 " eth0" | awk '{print $1,$2,$6,$7,($6+$7)/1024}');done |\
egrep "^06|^07|^08|^09|^10|^11"|grep PM|awk '{sum+=$5} END { print "Average = ",sum/NR}'

Or find the total number of times,network utilization crossed 2G between certain time

for i in `svmips`; do (echo CVM:$i; ssh $i cd data/logs/sysstats;cat sar.INFO |egrep "eth0"| awk '/^#TIMESTAMP/ || \
$6 > 30000 || $7 > 30000' | egrep -B1 " eth0" | awk '{print $1,$2,$6,$7,($6+$7)/1024}'|awk '$5 > 200');done|\
grep -v CVM|wc-l

Used this script to verify if the customer network usage dropped to 1G(between 2pm to 3pm)

for i in `svmips`; do (echo CVM:$i; ssh $i cat data/logs/sysstats/sar.INFO |egrep "eth0"| awk '/^#TIMESTAMP/ || \
$6 > 50000 || $7 > 50000' | egrep -B1 " eth0" | awk '{print $1,$2,$6,$7,($6+$7)/1024}');done | egrep "^02"|grep PM

Tuesday, June 11, 2013

Standby or unused Uplink is used after rebooting a ESXi 5.0 Update 1 host

Versions Affected

ESXi 5.0; ESXi 5.0 Update 1

Description

Symptom:
Diagnostics.py sequential write performance is poor

and esxtop with n switch shows that 1Gbps network is used instead of

10 Gbps.

Solution

It is due to vmware issues explained on these KBs on ESXi 5.0 update 1:
kb2008144

kb2030006
Workaround I: Remove 1Gbps from the vswitch configuration (validated)

esxcfg-nics -l - to find one Gig link ids ( eg, vmnic2 and vmnic3)
esxcfg-vswitch -l - to find the vswitch portgroups that use these links

esxcfg-vswitch -U vmnic2 vSwitch0

Workaround II:
To work around this issue, try setting the NIC Failback option to yes on

vswitch as well port group level.

Tags	Networking; VMware; Troubleshooting

Access Nutanix NFS from a different NFS client

Nutanix NFS can be exported to a non-nutanix NFS client on different subnet.

1. Whitelist NFS datastore onNutanix

ncli> cluster add-to-nfs-whitelist ip-subnet-masks=10.1.59.210/255.255.255.255

where 10.1.59.210 is non-Nutanix NFS client.

2. Verify that NFS datastore exported correctly - run this command on Nutanix Controller VM

showmount -e
Export list for TEST-13SM35190018-1-CVM:
/TEST-CTR1 10.3.177.28,10.3.177.27,10.3.177.26,10.3.177.25,10.1.59.210/255.255.255.255,192.168.5.0/255.255.255.128

3. Nutanix Centos is stig compliant, we have iptables to prevent accessing Nutanix CVM from another subnet. So here are the iptable rules to allow NFS access. Run these commands on Controller VM ( this is needed only if Nutanix CVM and NFS client are in
different subnets)
Open Port mapper:
for i in `svmips`; do ssh $i "sudo iptables -t filter -A WORLDLIST -p tcp -m tcp --dport 111 -j ACCEPT"; done
Open NFS/Mountd port:
for i in `svmips`; do ssh $i "sudo iptables -t filter -A WORLDLIST -p tcp -m tcp --dport 2049 -j ACCEPT"; done
Save the rules:

sudo iptables-save
/etc/init.d/iptables save

4. Mount it on remote .210 client (NFS client)

10.1.59.210:~$ sudo mount 10.3.177.29:/TEST-CTR1 /mnt
esxi: esxcfg-nas -a -o 10.3.1.177.29 -s /TEST-CTR1 NTNX-Datastore

5. This KB might be useful as well

http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=1007352

Centos Guest VM Hanging at eth0 every alternate Boot on ESXi 5.0

Description

Symptom:
Every alternate reboot on Centos VM hangs on eth0.

Troubleshooting:
- add set -x /etc/sysconfig/network-scripts/ifup-eth to find exactly where it is hanging.
- in this case it hang at arping trying to find the duplicate IP.
if ! /sbin/arping -q -c 2 -w 3 -D -I ${REALDEVICE} ${ipaddr[$idx]}

Solution

Root Cause:
Arping Uses real time instead of relative time to wait for 3 seconds ,

so if real time goes back by an hour during this 3 seconds,

it will wait for 1 hour 3 seconds instead of 3 seconds. So the

root cause was time difference between Centos VM and ESXi.

Workaround:

- adding 2 seconds so there is no race condition between time changes.
or
- make sure ESXi time and Centos VM time have correct time ( in one

customer case, they had wrong time set on Centos VM
and it was off by 2 hours, even if NTP is defined in Centos VM,

the time difference was too large for NTP ) - Most preferable.
or
- if Centos VM has to have different time than ESXi,then remove time sync

via vmware tools.

vmware KB

Tags	Troubleshooting