一. Glass 语音助手介绍

1.1 概述

Glass 语音助手基于Rokid Ai SDK 开发,拥有:

  1. 语音激活和声音数据处理;
  2. 中英文离线语音指令设置、识别、处理;
  3. 客户端解决方案专用模型配置;
  4. 针对第三方App无侵入式的语音控制;

1.2 对外支持说明

Glass 语音助手作为独立的系统App内置到Glass系统中,暂不支持用户直接修改源码。但为了支持用户在自己的App中使用语音功能,对外提供:

  1. 对外提供语音指令SDK以支持用户精准使用语音离线指令。
  2. 对外提供百灵鸟服务,实现针对第三方App无代码侵入式的语音指令控制。

二. Glass语音助手使用说明

2.1 语音指令SDK使用

如果系统内其他的Android apk想要精准使用离线语音指令,需要此应用apk和语音助手进行交互。Rokid提供了相应的语音指令SDK,具体使用方式请参考离线指令SDK使用文档。 同时提供离线指令SDK使用示例Demo:

下载地址

2.2 百灵鸟无侵入式语音指令控制服务说明

系统内置的语音助手软件中,包含了百灵鸟独立的服务进程,能够为第三方App提供在不接入语音指令SDK的前提下,依然能够使用简单语音指令控制功能,完善此App在眼镜上的使用体验,完善眼镜的全语音控制能力。

百灵鸟服务能够根据当前App运行界面内容,自动生成相应的简单语音指令,经过筛选过滤,设置到语音助手主进程中。

用户在当前App运行界面说出相应语音指令,识别结果会返回到百灵鸟服务中,然后根据相应规则做具体指令功能实现处理。

2.2.1、 自动指令生成规则

  1. “打开第N个” 指令类型

    当前UI界面中带有点击功能并正在展示的View,即该View的clickable属性为true,会被装入预生成指令集合。在指令生成阶段会将所有预生成指令集合的指令按照数字排序,生成“打开第N个”指令。

    eg:当前页面有5个Button view;

    ​ 中文环境:“打开第一个”、“打开第五个”等;

    ​ 英文环境:“Open one”、 “Open five” 等;

    指令触发效果为:生成该指令的view触发自己的点击(click)功能;

  2. “选择**”指令类型:

    当前UI界面中带有点击功能并正在展示的TextView,会被根据当前的Text内容生成相对应的“选择**”指令。

    eg:当前页面有Text内容为“上一页”的可点击TextView,Text内容为“开始更新”的Button;

    ​ 中文环境:“选择上一页”、“选择开始更新”等

    ​ 英文环境:“Select last page”、 “Select start update” 等

    指令触发效果为:生成该指令的view触发自己的点击(click)功能;

  3. “向上、下、左、右滑”指令类型

    当前UI界面中如果存在ScrollView、ListView、RecyclerView,并且其内存在可滑动区间。会生成“向上滑”、“向下滑”、“向左滑”、“向右滑”四个指令。

    指令触发效果为:当前拥有焦点的ScrollView、ListView、RecyclerView向指令所述方向滑动固定距离,如果当前焦点view不能滑动,则选择第一个能滑动的view进行滑动;

2.2.2、 指令UI标志

语音助手百灵鸟服务会在可工作界面上层提供指令UI标志。

  1. “打开第N个” 指令类型

    在生成该指令的对应View的左上角会出现1、2、3等对应数字圆底标志;

  2. 通用标志:

    如果百灵鸟服务支持当前界面,在当前界面的右下角,会出现“显示帮助/Show Help”标志;

2.2.3、 百灵鸟全局指令

在第三方App界面,用户除了系统全部指令可用外,如果百灵鸟服务支持当前界面,还会生成百灵鸟服务专用的全局指令:

  • 中文:“显示提示”,英文:“Show Tips”
    • 指令意义: 用来展示指令UI提示标志
    • 触发效果:展示指令UI提示标志
  • 中文:“关闭提示”,英文:“Close Tips”
    • 指令意义: 用来关闭指令UI提示标志
    • 触发效果:关闭指令UI提示标志
  • 中文:“控制向左”,英文:“Navigate Left”
    • 指令意义: 遥控左键即KeyEvent.KEYCODE_DPAD_LEFT会触发一次
    • 触发效果:当前focus左移
  • 中文:“控制向上”,英文:“Navigate Top”
    • 指令意义: 遥控上键即KeyEvent.KEYCODE_DPAD_UP会触发一次
    • 触发效果:当前focus上移
  • 中文:“控制向右”,英文:“Navigate Right”
    • 指令意义: 遥控右键即KeyEvent.KEYCODE_DPAD_RIGHT会触发一次
    • 触发效果:当前focus右移
  • 中文:“控制向下”,英文:“Navigate Down”
    • 指令意义: 遥控下键即KeyEvent.KEYCODE_DPAD_DOWN会触发一次
    • 触发效果:当前focus下移
  • 中文:“控制点击”,英文:“Navigate Click”
    • 指令意义: 遥控OK键即KeyEvent.KEYCODE_DPAD_CENTER会触发一次
    • 触发效果:当前focus的View被点击
  • 中文:“控制菜单”,英文:“Navigate Menu”
    • 指令意义: 遥控菜单键即KeyEvent.KEYCODE_MENU会触发一次
    • 触发效果:当前界面菜单键被触发

2.2.4、 第三方App开发指南

如果想要语音助手百灵鸟服务完美支持自己开发的App界面:

  1. 那尽量保持想要生成控制指令的View的clickable属性为true;

  2. View的点击效果尽量通过onClick方法触发,而不是通过onKeyDown来触发;

  3. 想要生成控制指令的Text相关View,Text中文内容尽量大于2个字,小于8个字,英文要少于4个单词,不要中英文混合;

  4. 如果能够生成指令的View在当前场景已经隐藏,那尽量使用View.Gone值来隐藏,不要使用层次覆盖方式;

  5. 想要使用滑动指令的页面或列表中,加载更多功能推荐使用滑动到底来触发,不要使用Key事件,最后排的ItemView被选中方式来触发;

2.2.5、 后续功能

后续百灵鸟服务会支持想要生成语音指令的View通过xml属性配置来和语音助手交互,以便生成更精确的指令内容。

2.3 关闭全部语音指令说明

某些情况下,App为了更好地沉浸式体验,类似3D放映、3D游戏等,需要在当前App关闭、清除所有语音指令,去除语音标志。要实现上述功能,需要用户集成语音插件,并做一下功能组合调用。

具体使用方式请参考 语音交互 -> 使用说明( 离线指令SDK使用文档 )中的关闭全部语音指令,或者离线指令SDK使用Demo中的NoAllInstructLifeAct、NoAllInstructBaseExtendAct。

2.4 在线语音功能说明

语音助手通过对接Rokid云平台,实现在线语音识别服务,为开发者提供语音ASR识别、TTS在线语音合成功能。

具体使用方式请参考 语音交互 -> 在线语音( 在线语音使用文档 )中的关闭全部语音指令,或者语音指令SDK使用Demo中SpeechTestAct。

results matching ""

    No results matching ""