Software para comunicação por voz no ROS

Quando aplicado à robotica a interacção verbal pode ser observada  pelo menos em processos distintos, apresentados aqui num crescendo de dificuldade de implementação.

  • Transcrição de texto para voz, com implementações de alta precisão em português disponiveis;
  • Transcrição de voz para texto, com implementação existente em português
  • Intrepretação, intencionalidade e diálogos

Para cada uma destas funcionalidades existem vários pacotes do ros disponiveis.

A implementação de cada um destes processos pode ser local, com todo o processamento a ser efectuado localmente, ou remoto (na cloud), pelo recurso a serviços com os do google cloud ou da amazon web services.

Para um breve resumo sobre os serviços remotos disponiveis consultar a página: Serviços remotos para ROS robots.

Devido a qualidade dos resultados obtidos, será dado enfase a pacotes que recorram a serviços remotos.

Links a incluir:

https://github.com/cogrob/gcloud_speech

https://github.com/UbiquityRobotics/speech_commands

https://github.com/Barista-Bot/voice-control

http://wiki.ros.org/speech_recog_uc

Texto para voz no ROS

A transcrição de texto para voz (text to speech) pode ser efectuada com os seguintes pacotes do ROS:

  • http://wiki.ros.org/sound_play (local, má qualidade da verbalização, usa o festival)
  • http://wiki.ros.org/speech_database (google, boa qualidade, português)
  • https://github.com/ScazLab/ros_speech2text
  • https://github.com/CMU-TBD/lab_ros_speech_to_text (deprecated)
  • https://github.com/SUCCESS-MURI/success_google_stt
  • https://code.google.com/archive/p/ros-pocketsphinx-speech-recognition-tutorial/wikis/Tutorial.wiki
  • http://wiki.ros.org/tts

Voz para texto no ROS

A transcrição de voz para texto pode ser efectuada com os seguintes pacotes do ROS:

  • https://wiki.ros.org/dialogflow_ros
  • https://github.com/tue-robotics/dialogflow_ros
  • https://github.com/DynoRobotics/dialogflow_ros
  • http://wiki.ros.org/gspeech

 

Intrepretação, intencionalidade e diálogos no ROS

 

Experiências de instalaçao e exploraçao de pacotes de voz no ROS

ROS sound_play

Ver: ROS sound_play

ROS dialogflow_ros

Ver: ROS dialogflow_ros

ROS speech_database

Ver: ROS speech_database

ROS gpeech

Ver: ROS gpeech

https://github.com/ScazLab/ros_speech2text

usa o google

https://github.com/SUCCESS-MURI/success_google_stt

usa o google

http://wiki.ros.org/tts

usa o Amazon Polly cloud service