::: motto 吴军
所谓的经验,不是简单的将上一次成功的过程复制一遍,而是在暂时看不到前途的时候,知道该坚持还是退回来。
:::
本文是一份 Lotus 新手运维手册,会持续更新,老司机请不要在此停留。
常用环境变量
Lotus 数据目录: LOTUS_PATH
1 | export LOTUS_PATH=/gamma/lotus/data |
Miner 数据目录:LOTUS_STORAGE_PATH
1 | export LOTUS_STORAGE_PATH=/gamma/lotus-storage-miner/data |
IPFS 网关地址: IPFS_GATEWAY
, 用于下载复制证明参数加速
1 | export IPFS_GATEWAY=https://proof-parameters.s3.cn-south-1.jdcloud-oss.com/ipfs/ |
临时文件夹路径: TMPDIR
1 | export TMPDIR=/cache/tmp |
proof 证明参数路径: FIL_PROOFS_PARAMETER_CACHE
1 | export FIL_PROOFS_PARAMETER_CACHE=/gamma/filecoin-proof-parameters |
PreCommit1 proof parents 缓存路径(可以减少 56G 内存)
1 | export FIL_PROOFS_PARENT_CACHE=/gamma/filecoin-parents |
最大化内存参数: FIL_PROOFS_MAXIMIZE_CACHING
1 | export FIL_PROOFS_MAXIMIZE_CACHING=1 |
使用 GPU 进行 Precommit2 加速: FIL_PROOFS_USE_GPU_COLUMN_BUILDER
1 | export FIL_PROOFS_USE_GPU_COLUMN_BUILDER=1 |
::: tip 提示:
启用 PreCommit1 SDR 多核加速(为每个 PC1 任务绑定共享一组 L3 缓存的一组 CPU),能大大提高 PC1 的密封效率,
我本人使用 3970x 实测结果为 2h17min,并行三个扇区。不过目前官方提示该项加速还不是很稳定。
我本人测试的结果也是这样,依赖于绑核的稳定性,有的时候会绑错,尤其是对于多路 CPU。
:::
1 | FIL_PROOFS_USE_MULTICORE_SDR=1 |
设置 Rust 日志等级:
1 | # optional: Trace,Info,Warn,Debug,Error |
开启详细的报错日志追踪:
1 | RUST_BACKTRACE=1 |
启用源码编译底层库:
1 | export FFI_BUILD_FROM_SOURCE=1 |
启动小扇区支持:(一般用于本地测试网络)
1 | export FIL_USE_SMALL_SECTORS=true |
设置自定义 GPU 参数:
1 | export BELLMAN_CUSTOM_GPU="GeForce RTX 2070 SUPER:2560" |
lotus daemon 操作
1. 查看节点信息
1 | # 查看本节点所监听的地址: |
手动连接其他节点, 这个在你同步的时候发现自动同步失败,无法获取可用节点的时候特别有用:
1 | # usage |
这个在你同步的时候无法正常同步链上数据时候特别有用, 这时可以试下在启动 daemon 的时候禁用自动连接 peers ,然后手动连接到一个正常节点,例如:
1 | lotus daemon --bootstrap=false |
<PEER_ADDR>
可以是任意一个能够正常同步数据的节点地址。
2. 查看链同步状态
1 | lotus sync status |
如果出现 Error
则说明链同步有问题,如果状态是 completed
,则说明链同步已经完成,可以进行其他操作了。
如果同步出错的话,你可以手动强制将你的本地链头区块指向某个高度:
1 | # usage |
3. 修改 mpool 配置
1 | # usage |
这个配置非常有用,你可以用来做一些高级的操作。比如,如果你想设置你的节点为某个钱包发送的交易优先打包,你可以这样设置:
1 | # usage |
4. 疏通消息,加快上链
你可以使用下面的命令自动计算并增加 gas 费用:
1 | # usage |
::: warning 注意:
这个命令最好手动调用,如果自动调用的话,最后的结果可能让你支付超高额度的 Gas 费用,有矿工为此付出了惨烈的代价,支付了一笔 700 多 FIL 的手续费。
:::
大多数情况下我们都是手动梳通消息:
1 | lotus mpool replace --gas-feecap=<GFC> --gas-premium=<GP> --gas-limit=<GL> <CID> |
具体操作如下:
首先在区块浏览器找到当前最新的一个区块的
ProveSector
类型的消息(或者跟你要梳通的消息的同类型的消息),记录他们的Gas Fee Cap($gasFeeCap)
和Gas Used($gasUsed)
。找到当前的要替换消息的
Gas Premium
($oldGasPremium)。计算上 replace 消息中的变量的值并替换:
1
2
3
4GFC=$gasFeeCap
GP=$oldGasPremium * 1.252
GL=$gasUsed * 1.1
# CID 表示要替换的消息的 cid。
链快照操作
1. 导出当前链快照
通常如果你不是做钱包或者交易所的话,你并不需要全节点,你可以直接从官方提供的快照来同步,或者从其他节点导出快照,再导入到当前 daemon. 这样可以节省不少同步的时间。
可以使用以下方式创建完整的 CAR 快照:
1 | # usage |
通过上面的命令你可以导出一个完整的 lotus chain 快照。不过这个快照比较大,可能超过 100 GB。
所以更常用的方式是使用下面的命令导出一个阉割版的快照, 就是只导出最新的区块,跳过以前的旧消息。
1 | # usage |
--recent-stateroots
参数指定要导出的状态根数。 --skip-old-msgs
参数表示只导出那些 stateroots 直接引用的区块。
2. 导入快照
在首次启动 daemon 的时候执行导入快照。
1 | # Without verification |
如果你希望在快照导入之后就立即退出守护进程,(例如在docker环境中很有用),请在命令中添加 --halt-after-import
标志:
1 | lotus daemon --import-snapshot=<filename> --halt-after-import=true |
3. 压缩区块数据
随着你的节点同步的区块越来越多,占用的磁盘空间也越来越大,而磁盘存的越满,访问的速度就会越慢,最关键是你可能压根不想要这么多区块数据,99% 的 Miner 的需求都是一样的:在保持链同步正常的情况下,区块数据越精简越好,不想多存一个区块。
如果你也是这么想的,那么定期去压缩一下区块数据可能是你的一个刚需。
停止 Lotus 守护进程:
1
lotus daemon stop
删除
$LOTUS_PATH
路径中datastore/chain/
文件夹的内容:1
2# <LOTUS_PATH> 替换为你的 $LOTUS_PATH 变量内容,默认值为 `~/.lotus`
rm -rf <LOTUS_PATH>/datastore/chain/*使用最小快照启动守护进程:
1
2
3
4
5# 下载最小区块快照
wget https://fil-chain-snapshots-fallback.s3.amazonaws.com/mainnet/minimal_finality_stateroots_latest.car -O lotus_chain_minimal.car
# 或者在本地导出最小区块快照
lotus chain export --skip-old-msgs=true --recent-stateroots=900 lotus_chain_minimal.car
lotus daemon --import-snapshot=lotus_chain_minimal.car
钱包私钥的备份和删除
导出/导入钱包私钥到文件
1
2
3
4# usage
lotus wallet export <address> > <file>
# e.g
lotus wallet export f3xxx > wallet.key导出之后我们需要再导入刚刚导出的私钥,确保备份的私钥能正确导入:
{3} 1
2
3lotus wallet import wallet.key
# 如果提示 key already exists 则表示备份的私钥是有效的
ERROR: saving to keystore: checking key before put 'wallet-f3rf5kmk2xenqukta4jkuk3xn5tbwrrylstd7inuzu6hhwtang6jk3edkxqzokbqs7wojbz23pkdadkg5wzmbq': key already exists::: danger 警告
不要把钱包私钥通过任何形式的网络传输,包括但不限于微信,Telegram, 邮箱等方式。建议直接用 U 盘拷贝多份存放在不同的地方。
:::删除钱包私钥,切记删除私钥之后还要删除文件!!!
1
2
3
4
5
6
7# usage
lotus wallet delete <address>
# e.g
lotus wallet delete f3xxxx
# 删除钱包之后记得还要把钱包文件删除,文件在 LOTUS_PATH 目录下的 keystore 文件夹里面
# 所有被删除的钱包地址,都是以 ORZGC43 开头的文件,你把这些文件全删了就 OK 了
rm -rf $LOTUS_PATH/keystore/ORZGC43*::: danger 警告
wallet delete
命令并不会删除私钥文件,所以切记在使用命令删除私钥之后还需要手动删除私钥文件,否则一旦文件被盗,对方可以通过私钥文件恢复私钥!!!
:::
手动下载 proof 参数
1 | # 首先记得开启京东云的代理 |
lotus-miner 操作
查看矿工当前信息,包括算算力,山区密封情况
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23lotus-storage-miner info
Miner: t0109653
Sector Size: 32 GiB
Byte Power: 1.812 TiB / 4.888 PiB (0.0362%)
Actual Power: 1.81 Ti / 4.73 Pi (0.0374%)
Committed: 1.844 TiB
Proving: 1.812 TiB (32 GiB Faulty, 1.69%)
Expected block win rate: 6.4627/day (every 3h42m48s)
Miner Balance: 128.044817705754006786
PreCommit: 0
Locked: 128.043278061722026245
Available: 0.001539644031980541
Worker Balance: 49.947643260499744805
Market (Escrow): 0.000000000000004064
Market (Locked): 0.000000000000004064
Sectors:
Total: 72
Proving: 58
PreCommit1: 12
PreCommit2: 1
SealPreCommit1Failed: 1这是我们自己测试矿工的
info
,目前已经跑了 2 天了。这里大概解释一下各项数据的意思:- Byte Power: 已完成 Proving 的算力
- Actual Power: 实际有效算力
- Committed: 已完成 Commiting 的算力
- 32 GiB Faulty: 被标记为 Faulty 扇区总大小,也就是无效算力。
- Expected block win rate: 预期竞争出块胜出的概率,
6.4627/day
标识平均每天可以出 6 个块。 - Miner Balance: 当前挖矿收益(广大矿工最关注的)
- Locked: 挖矿收益锁仓的份额(前期的收益几乎全部锁仓了)
其他都是大家一眼都能看懂的,这里就不解释了。
质押扇区
1
2# 质押一个由随机数据填充的扇区(垃圾数据)
lotus-miner sectors pledge查看扇区状态
1
2
3
4
5
6
7
8# 列举所有扇区信息:
lotus-miner sectors list
# 查看某个扇区的当前状态
lotus-miner sectors status <sector_id>
# e.g
lotus-miner sectors status 1
# 查看 sector 详细日志
lotus-miner sectors status --log 1修改扇区的状态
1
2
3
4# usage
lotus-miner sectors update-state --really-do-it=true <sector_id> <state>
# e.g
lotus-miner sectors update-state --really-do-it=true 0 FailedUnrecoverable::: danger 警告:
update-state 需要谨慎操作,因为操作不当可能会发生一些难以预料的奇怪的错误。
:::删除扇区
1
2
3
4# usage
lotus-miner sectors remove --really-do-it=true <sector_id>
# e.g
lotus-miner sectors remove --really-do-it=true 1::: danger 警告:
扇区一旦删除将不可恢复,请谨慎操作,以免误删。
:::设置订单价格:
1
2
3
4# usage
lotus-miner deals set-ask --price=<val> --max-piece-size=<val>
# e.g
lotus-miner deals set-ask --price='1000000' --max-piece-size=34359738368查看 Worker 列表
1
lotus-miner sealing workers
查看当前 miner 任务调度列表
1
lotus-miner sealing jobs
如果你发现一个任务长时间没有完成(也许是 worker 掉线了),你可以使用下面的命令取消任务:
1
2# 终止指定的任务(通常用来处理长时间没有响应的任务)
lotus-miner sealing abort <job-id>增加存储路径
1
2
3
4
5
6
7# 设置数据存储路径,该路径用来存储最终密封好的数据
# 执行该命令可能需要一点时间等待
lotus-miner storage attach --store --init /path/to/persistent_storage
# 设置密封扇区的存储路径,密封完成之后该路径下的数据会被自动清空,相当于临时目录
# 执行该命令可能需要一点时间等待
lotus-miner storage attach --seal --init /path/to/fast_cache以上两个命令都是在启动了 miner 之后才可以执行,是一种动态添加存储路径的方式,非常灵活。
你还可以在命令中添加权重 –weight=10,默认权重是 10。 执行该命令后,可通过以下命令查看存储列表:1
lotus-miner storage list
lotus-worker 操作
启动 Worker 命令:
1 | # 启动 worker |
启动 worker 需要注意以下几点:
- 需要给 worker 指定一个在局域网可以访问的 IP 地址以及一个本机未被使用的端口。
- precommit1、precommit2 和 commit 默认是启用的,如果想要禁用,可以设置为 false
- 需要注意机器的内存与功能的划分,比如:
- 如果你打算让当前 Worker 参与 P1,则至少需要 128GB 内存。
- 如果你打算让当前 Worker 参与 P2,则至少需要 64GB 内存。
- 如果你打算让当前 Worker 参与 C2,则至少需要 192GB 内存。
订单操作
导入数据
1
2
3
4
5# usage
lotus client import <file>
# e.g
lotus client import hello.txt
Import 23, Root bafk2bzacebuc55ftl4c2m6h2ng3zx4eo6svtaivkl66xxopfermkhl3dwnypk发送订单
1
2
3
4
5
6# usage
lotus client deal <dataCid> <minerID> <price> <duration>
# e.g
lotus client deal bafk2bzacebuc55ftl4c2m6h2ng3zx4eo6svtaivkl66xxopfermkhl3dwnypk f09675 0.0000000005 518400
# 成功之后会返回一个消息回执,类似下面这样:
bafyreigw63qjia7dulwcn6d6fhlobhiewlvd4fsnpmbmdhvjszhzbeewjm矿工的信息可以通过下面的命令查询到:
1
2
3
4# usage
lotus client query-ask <minerId>
# e.g
lotus client query-ask f09675输出信息:
1
2
3
4Ask: f09675
Price per GiB: 0.0000000005 FIL
Verified Price per GiB: 0.00000000005 FIL
Max Piece size: 32 GiB<duration>
是指订单的有效期,单位是区块高度,也就是说多少个区块以后该订单失效。当前 duration 的最小值 51840,也就是说你最少要存半年。查看订单状态,需要你提交订单时返回的交易回执
1
2
3
4# usage
lotus client get-deal <CID>
# e.g
gamma_lotus client get-deal bafyreigw63qjia7dulwcn6d6fhlobhiewlvd4fsnpmbmdhvjszhzbeewjm输出结果类似:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20{
"DealInfo: ": {
"ProposalCid": {
"/": "bafyreigw63qjia7dulwcn6d6fhlobhiewlvd4fsnpmbmdhvjszhzbeewjm"
},
"State": 26,
"Message": "unexpected deal status while waiting for data request: 11 (StorageDealFailing). Provider message: deal rejected: false\n",
"Provider": "f09675",
"DataRef": null,
"PieceCID": {
"/": "baga6ea4seaqgriqpswklnzyxxpnirxj37otzgfgpcwpksi2a3ttglxqap5tbsby"
},
"Size": 16256,
"PricePerEpoch": "500000000",
"Duration": 522292,
"DealID": 0,
"CreationTime": "2020-10-21T12:32:52.702939009+08:00",
"Verified": false
}
}因为我当前这个矿工是拒绝接收非官方机器人以外的订单,所以你看到订单的状态是
rejected
被拒绝了。列出当前节点所有订单
1
lotus client list-deals
手动终止 Faulty 的扇区
你可能会遇到这种情况,有些错误扇区可能由于文件损坏了,一直恢复不了,结果在区块浏览器老是显示有几个错误扇区,这个时候你们老板说这样业务数据不好看,影响销售,让你把这几个错误扇区 抹掉
。
编译
lotus-shed
工具1
2cd <lotus-code-path>
make lotus-shed终止扇区
先估算一下终止扇区需要支付多少币,然后确保你
Owner
钱包余额要大于这个值。1
2
3
4
5
6export LOTUS_PATH=<lotus-path>
export LOTUS_MINER_PATH=<lotus-miner-path>
# usage
./lotus-shed sectors termination-estimate <Sector-IDS> # 可传入多个扇区 ID
# e.g
./lotus-shed sectors termination-estimate 1 2 3然后再执行终止扇区操作:
1
2
3
4
5
6export LOTUS_PATH=<lotus-path>
export LOTUS_MINER_PATH=<lotus-miner-path>
# usage
./lotus-shed sectors terminate --really-do-it <Sector-IDS> # 可传入多个扇区 ID
# e.g
./lotus-shed sectors terminate --really-do-it 1 2 3
设置时区
1 | # 设置时区 |
RAID 操作
创建 RAID0 磁盘阵列
1
2
3mdadm -Cv /dev/md0 -a yes -n {num} -l 0 /dev/sda /dev/sdb /dev/sdc ...
# {num} 是磁盘数量
mdadm -Ds >> /etc/mdadm/mdadm.conf销毁 RAID0 阵列
1
2
3mdadm -S /dev/md0
# 清楚超级块信息
mdadm --zero-superblock /dev/sda
LVM 操作
扩展 vg 大小
1
2
3
4# 直接扩展到指定的大小
lvextend -L 1785G /dev/ubuntu-vg/ubuntu-lv
# 增加容量
lvextend -L +10G /dev/ubuntu-vg/ubuntu-lv扩展文件系统大小
1
resize2fs /dev/ubuntu-vg/ubuntu-lv
删除 LVM
1
lvremove <lvm-name>
强制删除 LVM,有时候删除的时候提示
Logical volume XXX is used by another device.
,此时可以使用dmsetup
命令来强制删除LVM
分区1
2
3
4
5
6
7# 列出 LVM 分区
dmsetup ls
# 强制删除指定的分区
dmsetup remove /dev/xxx
lvremove -f /dev/xxx
# 删除所有的 LVM
dmsetup ls |awk -F ' ' '{print $1}' |xargs dmsetup remove
开启 CPU 性能模式
1 | # 查看当前cpu的状态: |
创建 swap 分区
1 | # 创建 swap 文件 |
临时修改某个进程的 max open files 参数
对于已经启动的 Miner 进程,如果发现在做时空证明的时候报 too many open files
错误,而此时如果你又不想重启 Miner 进程,可以使用下面方法动态配置。
1 | prlimit --pid <pid> --nofile=1048576:1048576 |
磁盘检测工具
可以检测磁盘型号,通电时间(新盘还是二手盘),以及坏道数据量等。
1 | apt-get install smartmontools -y |
关闭系统软件更新
1 | sed -i 's/^[^\/].*distro_id*/\/\/&/g' /etc/apt/apt.conf.d/50unattended-upgrades |
原语云 lotus 运维
我们对 Lotus 调度层代码(Golang)和底层(Rust)都进行了一些优化,可以大大提升算力机的封装效率, 提升 Miner 的稳定性和挖矿产出。
详情请阅读 原语云 Lotus 代码优化
华丽分界线, 以下操作只有使用原语云维护的 lotus 系列软件才支持
动态设置 Miner 任务调度算法
应用场景:默认所有的任务调度算法都是使用 Smart
智能调度策略,该策略会根据你 Worker 的最大任务数,以及你当前运行的任务数,以及 Prepare 任务数,assign 任务数等参数算出当前所有任务中最适合接这个任务的 Worker。
但是有些时候你可能需要临时切换到其他算法,比如你所有算力机器的性能都差不多的话,你可以会更倾向于使用轮询调度算法(round_robin
)。
下面命令把 PC1 的调度算法设置为轮询调度策略:
1 | # 获取当前所有任务调度算法 |
设置 Worker 运行参数
设置某台 Worker 任务数量,如把某台 Worker PC1 任务的并行数调整为 10:
1
2
3
4# usage
yy_lotus-miner sealing worker set --key=MaxPreCommit1Num --val=10 --wid=<Worker-ID>
# e.g
yy_lotus-miner sealing worker set --key=MaxPreCommit1Num --val=10 --wid=23592e59-5524-4fa8-b494-8f76e6d9a9bc设置某台机器暂停接新的任务,并把手头上的任务先做完:
1
yy_lotus-miner sealing worker set --key=status --val=pause --wid=<Worker-ID>
设置某台暂停的机器重新接任务:
1
yy_lotus-miner sealing worker set --key=status --val=running --wid=<Worker-ID>
故障机器下架维护,不再给它调度任务,也不再给他发心跳:
1
yy_lotus-miner sealing worker set --key=status --val=exit --wid=<Worker-ID>
::: tip
以下是证明 Worker 参数设置操作
:::使用方法:
1
yy_lotus-miner proving worker set --wid=<Worker-ID> --key=<key> --val=<value>
关闭某个证明 Worker 的时空证明计算功能
1
yy_lotus-miner proving worker set --wid=<Worker-ID> --key=WindowWorker --val=false
设置某个证明 Worker 在进行时空证明计算的时候,一次最多批量计算的 Partition 数量。假如你有 15PiB 的算力,
那么每个 Deadline 应该有 5 个 Partition,此时你一台证明 Worker 可能不足以在规定的时间内完成所有 Partition 的时空证明计算,
这时你可以准备两台证明 Worker,每台计算 3 个 Partition 的时空证明。1
yy_lotus-miner proving worker set --wid=<Worker-ID> --key=BatchPartitions --val=3
设置存储运行参数
在 v1.14.1 版本之前,如果你想要修改存储设备的属性,需要修改对应存储目录的 sectorstore.json
文件,然后要重启 Miner 才能生效。
在 v1.14.1 版本之后,我们新增了 yy_lotus-miner storage set
命令行工具,允许你动态设置某个存储设备的参数而不需要重启 Miner,实时生效。
比如,你的某个存储设备已经快存满了,你想把该存储设为只读,你可以通过执行下面的命令实现:
1 | # usage |
动态配置 Worker 运行状态
设置某台机器暂停接新的任务,并把手头上的任务先做完:
1
lotus-miner worker set --key=status --val=pause --wid=<Worker-ID>
设置某台暂停的机器重新接任务:
1
lotus-miner worker set --key=status --val=running --wid=<Worker-ID>
故障机器下架维护,不再给它调度任务,也不再给他发心跳:
1
lotus-miner worker set --key=status --val=exit --wid=<Worker-ID>
手动声明扇区
以下场景可能需要手动声明扇区位置:
- 部分 FinalizeFailed 的扇区。
- FinalizeSector 成功了,但是
yy_lotus-miner proving check
又提示can not cache/sealed path
,导致时空证明过不了,掉算力。
此时我们可以手动完成 FinalizeSector 过程:
首先找到扇区文件在哪个机器上(假设扇区 ID 为 100, Miner ID 为 f01000):
1
yy_lotus-miner storage find 100
如果找不到的话,可以通过 【任务面板】 批量推送脚本到所有的
Worker
执行:1
2ls -ld /yuanyu/lotus-p1-worker/data/cache/s-t01000-100
ls -ld /yuanyu/lotus-p1-worker/data/sealed/s-t01000-100手动拷贝扇区到你的扇区存盘路径,假设为
/data01
,扇区所在 Worker 机器 IP 为 192.168.1.1001
2scp -r root@192.168.1.100:/yuanyu/lotus-p1-worker/data/cache/s-t01000-100 /data01/cache
scp -r root@192.168.1.100:/yuanyu/lotus-p1-worker/data/sealed/s-t01000-100 /data01/sealed手动申明扇区,假设
/data01/sectorstore.json
文件对应的 Storage ID 为:e0d9481a-3d85-4464-8f0d-2af9a5c755d1
1
2
3
4# 声明 cache 文件
yy_lotus-miner storage declare-sector --really-do-it=true --type=cache 100 e0d9481a-3d85-4464-8f0d-2af9a5c755d1
# 声明 sealed 文件
yy_lotus-miner storage declare-sector --really-do-it=true --type=sealed 100 e0d9481a-3d85-4464-8f0d-2af9a5c755d1同时,你需要删除错误的 storage 声明(如果有的话)。
1
2
3yy_lotus-miner storage drop-sector --really-do-it=true --type=cache <SectorNumber> <Storage-ID>
# 如果你想删除当前扇区在所有设备上的存储索引的话,你可以使用 --auto 参数
yy_lotus-miner storage drop-sector --really-do-it=true --type=cache --auto=true <SectorNumber>
重新初始化矿工
如果你不小心手贱删除了 lotus-miner
的 datastore
文件夹,又无法恢复的话,那么大概率你的 Miner 是无法启动了,此时你需要重新初始化 Miner 。具体操作步骤如下:
- 重新声明 Miner PeerID,并生成 Miner 的初始化目录和文件。如果你当初创建 Miner 之后有备份
$LOTUS_MINER_PATH
(默认 .lotusminer) 目录,那么你可以直接跳过此步骤。
假设你的 Owner 钱包地址为f0xxxx
, Miner ID 为f01000
:1
yy_lotus-miner init --owner=f0xxxx --actor=f01000
- 按照你原来 Miner 配置重新修改配置文件 (
config.toml
,storage.json
等),并启动 Miner。 - 找到你的所有 Proving 扇区的最大扇区编号,这里假设为 9999,将当前 Miner 的
Next Sector ID
设置为 9999,这样继续做 AP 的时候扇区 ID 就会从 10000 开始,而不是从 0 开始。1
yy_lotus-miner sectors counter set --really-do-it=true 9999
时空证明异常排查
集群掉算力的排查流程如下:
检查 Miner GPU,网络是否工作正常。
检查 daemon 的同步是否正常。
检查网络挂载存储(NFS,Ceph等)能否正常访问,这里注意,是要 “能正常访问文件” 而不是挂载正常就行了。
检查 Miner 的日志,寻找最近一次 “computing window post” 和 “Submitted window post” 日志,前者是时空证明有没有做完以及做完的时间,时间大于 1600 秒的话通常都是有问题的,后者是看时空证明提交是否提交成功,如不成功爆什么错误。
检查一下是哪个 Partition 掉算力。
1
yy_lotus-miner proving deadlines
然后 check 一下当前序号的 partition ,一下扇区文件是否能找到:
1
yy_lotus-miner proving check --only-bad 12
如果返回为空的话,那说明你的扇区文件都是存在的,只是在做时空证明的时候由于某些原因(比如网络中断)没有完成正常读取,这种扇区等下此时时空证明自然会恢复的。
如果下次还是没有恢复的话,那就可能是扇区文件被损坏了,如果数量比较少(几个)的话,建议你直接terminate
扇区算了,多的话,就要想办法修复数据了。
爆块证明异常排查
首先声明一下,我们这里说的集群爆块是否有异常,本质上是在说这个集群有没有丢快, 也就是说选中你出块了,但是有个各种原因你没有再规定的时间内正确提交 WinningPost, 导致这个丢失了,被别人抢走了。至于为什么没有选中你,这个不在我们的讨论范围之内。
爆块流程
我们需要先了解一下一轮成功的爆块要经过哪些环节(整个出块的时间只有 30 秒):
- 网络节点通过链上选举选中你作为下一个区块的生产者,这一步没有操作的空间,只能听天由命,唯一增加选中概率的办法就是增加算力。
- 选举完成并将结果同步到你的节点,这个时间通常为 6 秒,如果你同步延时,花了十几二十秒,那么丢快的概率将大大提升。
- 开始计算 WinningPost,这个时间通常在1-5秒,如果此时存在 GPU 资源竞争的话,通常都超过 30 秒了,没戏了。
- 将 WinningPost 结果上链,如果此时你的节点同步不正常的话,这将是致命的问题。
排查流程
查找爆块的
Warmup
日志。Miner
在启动时候会做一次”热身 WinningPoSt”,也就是测试下 Miner 的 WinningPoSt 功能是否正常。
你需要检查一下热身的结果:1
2
3grep 'winning PoSt warmup successful' /yuanyu/lotus-miner/log/error.log
# 输出应该类似这样:
winning PoSt warmup successful {"took": 3.475028433}一般来说,winning PoSt 的时间不超过 10s。
通常 Miner 会持续输出
completed mineOne
的日志,每隔 30 秒输出一次。如果某条completed mineOne
日志中出现了,"isWinner": true
这样的日志的话,那么通常就是你获得了一次爆块的机会。还有几个参数需要留意一下:
参数名 说明 baseDeltaSeconds: 执行 mineOne
的时间与MiningBase
的TipSet
时间差,通常这个值是 6s。nullRounds: mineOne 轮空的次数,通常为 0,如果链同步滞后的话,这个值就会大于 0。 lateStart: mineOne 是否启动延时了,正常情况下为 false,抛开轮空的因素,如果 baseDeltaSeconds
大于 6s 的话,lateStart
就会变成 true。如果
lateStart
为 true 的话, mineOne 这个函数就会打印警告日志,你需要关注一天当中警告日志的条数,通常 20 条以内的话,属于比较正常的水平,如果太多的话就需要重点排查一下原因。1
2
3
4# 统计警告日志条数,<date> 表示日期
grep 'mineOne' error.log |grep 'WARN' |grep <date> |wc -l
# e.g 统计 2022-02-15 警报日志条数
grep 'mineOne' error.log |grep 'WARN' |grep '2022-02-15' |wc -l如果你在日志中看到类似
CAUTION: block production took longer than the block delay
或者failed to create block
的日志,那么很遗憾,你丢了一个块,如果有很多这种日志的话,那么情况就比较糟糕了,你应该做点什么来杜绝这种现象发生。