International Conference on Multimedia Retrieval (2021)

Content

Proceedings of the 4th Annual on Lifelog Search Challenge, LSC@ICMR 2021, Taipei, Taiwan, 21 August 2021 18 papers
ICMR '21: International Conference on Multimedia Retrieval, Taipei, Taiwan, August 21-24, 2021 97 papers

Workshops

MMPT@ICMR2021: Proceedings of the 2021 Workshop on Multi-Modal Pre-Training for Multimedia Understanding, Taipei, Taiwan, August 21, 2021 9 papers
MMArt-ACM '21: Proceedings of the 2021 International Joint Workshop on Multimedia Artworks Analysis and Attractiveness Computing in Multimedia 2021, Taipei, Taiwan, August 21, 2021 5 papers
ICDAR@ICMR 2021: Proceedings of the 2021 Workshop on Intelligent Cross-Data Analysis and Retrieval, Taipei, Taiwan, 21 August 2021 15 papers

MMPT@ICMR2021: Proceedings of the 2021 Workshop on Multi-Modal Pre-Training for Multimedia Understanding, Taipei, Taiwan, August 21, 2021

doi dblp
MMPT@ICMR2021: Proceedings of the 2021 Workshop on Multi-Modal Pre-Training for Multimedia Understanding, Taipei, Taiwan, August 21, 2021

doi dblp
Cross-modal Pretraining and Matching for Video Understanding
Limin Wang

doi dblp
WenLan: Efficient Large-Scale Multi-Modal Pre-Training on Real World Data
Ruihua Song

doi dblp
Be Specific, Be Clear: Bridging Machine and Human Captions by Scene-Guided Transformer
Yupan Huang | Zhaoyang Zeng | Yutong Lu

doi dblp
Language-Conditioned Region Proposal and Retrieval Network for Referring Expression Comprehension
Yanwei Xie | Daqing Liu | Xuejin Chen | Zheng-Jun Zha

doi dblp
Style-Guided Image-to-Image Translation for Multiple Domains
Tingting Li | Huan Zhao | Song Wang | Jing Huang

doi dblp
A Fair and Comprehensive Comparison of Multimodal Tweet Sentiment Analysis Methods
Gullal S. Cheema | Sherzod Hakimov | Eric Müller-Budack | Ralph Ewerth

doi dblp
Unsupervised Training Data Generation of Handwritten Formulas using Generative Adversarial Networks with Self-Attention
Matthias Springstein | Eric Müller-Budack | Ralph Ewerth

MMArt-ACM '21: Proceedings of the 2021 International Joint Workshop on Multimedia Artworks Analysis and Attractiveness Computing in Multimedia 2021, Taipei, Taiwan, August 21, 2021

doi dblp
MMArt-ACM '21: Proceedings of the 2021 International Joint Workshop on Multimedia Artworks Analysis and Attractiveness Computing in Multimedia 2021, Taipei, Taiwan, August 21, 2021

doi dblp
Automatic Music Composition with Transformers
Yi-Hsuan Yang

doi dblp
Color-Grayscale-Pair Image Sentiment Dataset and Its Application to Sentiment-Driven Image Color Conversion
Atsushi Takada | Xueting Wang | Toshihiko Yamasaki

doi dblp
Ketchup GAN: A New Dataset for Realistic Synthesis of Letters on Food
Gibran Benitez-Garcia | Keiji Yanai

doi dblp
Estimating Groups of Featured Characters in Comics with Sequence of Characters' Appearance
Kodai Imaizumi | Ryosuke Yamanishi | Yoko Nishihara | Takahiro Ozawa

ICDAR@ICMR 2021: Proceedings of the 2021 Workshop on Intelligent Cross-Data Analysis and Retrieval, Taipei, Taiwan, 21 August 2021

doi dblp
ICDAR@ICMR 2021: Proceedings of the 2021 Workshop on Intelligent Cross-Data Analysis and Retrieval, Taipei, Taiwan, 21 August 2021

doi dblp
Discovering Knowledge Hidden in Raster Images using RasterMiner
R. Uday Kiran

doi dblp
ST-HOI: A Spatial-Temporal Baseline for Human-Object Interaction Detection in Videos
Meng-Jiun Chiou | Chun-Yu Liao | Li-Wei Wang | Roger Zimmermann | Jiashi Feng

doi dblp
Temperature Forecasting using Tower Networks
Siri S. Eide | Michael A. Riegler | Hugo Lewi Hammer | John Bjørnar Bremnes

doi dblp
Scattering Transform Based Image Clustering using Projection onto Orthogonal Complement
Angel Villar-Corrales | Veniamin I. Morgenshtern

doi dblp
Pyramidal Segmentation of Medical Images using Adversarial Training
Espen Naess | Vajira Thambawita | Steven Alexander Hicks | Michael A. Riegler | Pål Halvorsen

doi dblp
Two-Faced Humans on Twitter and Facebook: Harvesting Social Multimedia for Human Personality Profiling
Qi Yang | Aleksandr Farseev | Andrey Filchenkov

doi dblp
Cross-Modal Deep Neural Networks based Smartphone Authentication for Intelligent Things System
Tran Anh Khoa | Dinh Nguyen The Truong | Duc Ngoc Minh Dang

doi dblp
Models to Predict Sleeping Quality from Activities and Environment: Current Status, Challenges and Opportunities
Thi Phuoc Van Nguyen | Do Van Nguyen | Koji Zettsu

doi dblp
Investigation on Privacy-Preserving Techniques For Personal Data
Rafik Hamza | Koji Zettsu

doi dblp
Session details: Keynote & Invited Talks
Minh-Son Dao

doi dblp
Session details: Session 1: Full Papers
Cathal Gurrin

doi dblp
Session details: Session 2: Short Papers
Thanh-Binh Nguyen

Proceedings of the 4th Annual on Lifelog Search Challenge, LSC@ICMR 2021, Taipei, Taiwan, 21 August 2021

doi dblp
Proceedings of the 4th Annual on Lifelog Search Challenge, LSC@ICMR 2021, Taipei, Taiwan, 21 August 2021

doi dblp
Lifelogging as a Memory Prosthetic
Alan F. Smeaton

doi dblp
Myscéal 2.0: A Revised Experimental Interactive Lifelog Retrieval System for LSC'21
Ly-Duyen Tran | Manh-Duy Nguyen | Nguyen Thanh Binh | Hyowon Lee | Cathal Gurrin

doi dblp
lifeXplore at the Lifelog Search Challenge 2021
Andreas Leibetseder | Klaus Schoeffmann

doi dblp
ViRMA: Virtual Reality Multimedia Analytics at LSC 2021
Aaron Duane | Björn Þór Jónsson

doi dblp
LifeConcept: An Interactive Approach for Multimodal Lifelog Retrieval through Concept Recommendation
Wei-Hong Ang | An-Zi Yen | Tai-Te Chu | Hen-Hsen Huang | Hsin-Hsi Chen

doi dblp
Memento: A Prototype Lifelog Search Engine for LSC'21
Naushad Alam | Yvette Graham | Cathal Gurrin

doi dblp
PhotoCube at the Lifelog Search Challenge 2021
Jihye Shin | Alexandra Waldau | Aaron Duane | Björn Þór Jónsson

doi dblp
Voxento 2.0: A Prototype Voice-controlled Interactive Search Engine for Lifelogs
Ahmed Alateeq | Mark Roantree | Cathal Gurrin

doi dblp
Enhanced SOMHunter for Known-item Search in Lifelog Data
Jakub Lokoc | Frantisek Mejzlík | Patrik Veselý | Tomás Soucek

doi dblp
LifeMon: A MongoDB-Based Lifelog Retrieval Prototype
Alexander Christian Faisst | Björn Þór Jónsson

doi dblp
XQC at the Lifelog Search Challenge 2021: Interactive Learning on a Mobile Device
Emil Knudsen | Thomas Holstein Qvortrup | Omar Shahbaz Khan | Björn Þór Jónsson

ICMR '21: International Conference on Multimedia Retrieval, Taipei, Taiwan, August 21-24, 2021

doi dblp
ICMR '21: International Conference on Multimedia Retrieval, Taipei, Taiwan, August 21-24, 2021

doi dblp
Combining Adversarial and Reinforcement Learning for Video Thumbnail Selection
Evlampios E. Apostolidis | Eleni Adamantidou | Vasileios Mezaris | Ioannis Patras

doi dblp
Efficient Indexing of 3D Human Motions
Petra Budíková | Jan Sedmidubský | Pavel Zezula

doi dblp
Global Relation-Aware Attention Network for Image-Text Retrieval
Jie Cao | Shengsheng Qian | Huaiwen Zhang | Quan Fang | Changsheng Xu

doi dblp
MS-SincResNet: Joint Learning of 1D and 2D Kernels Using Multi-scale SincNet and ResNet for Music Genre Classification
Pei-Chun Chang | Yong-Sheng Chen | Chang-Hsing Lee

doi dblp
MLFont: Few-Shot Chinese Font Generation via Deep Meta-Learning
Xu Chen | Lei Wu | Minggang He | Lei Meng | Xiangxu Meng

doi dblp
Facial Structure Guided GAN for Identity-preserved Face Image De-occlusion
Yiu-Ming Cheung | Mengke Li | Rong Zou

doi dblp
Dense Scale Network for Crowd Counting
Feng Dai | Hao Liu | Yike Ma | Xi Zhang | Qiang Zhao

doi dblp
Leveraging Two Types of Global Graph for Sequential Fashion Recommendation
Yujuan Ding | Yunshan Ma | Wai Keung Wong | Tat-Seng Chua

doi dblp
HSGMP: Heterogeneous Scene Graph Message Passing for Cross-modal Retrieval
Yu Duan | Yun Xiong | Yao Zhang | Yuwei Fu | Yangyong Zhu

doi dblp
Can Action be Imitated? Learn to Reconstruct and Transfer Human Dynamics from Videos
Yuqian Fu | Yanwei Fu | Yu-Gang Jiang

doi dblp
RGB-D Scene Recognition based on Object-Scene Relation and Semantics-Preserving Attention
Yuhui Guo | Xun Liang

doi dblp
HPOF: 3D Human Pose Recovery from Monocular Video with Optical Flow
Bin Ji | Chen Yang | Shunyu Yao | Ye Pan

doi dblp
Leveraging EfficientNet and Contrastive Learning for Accurate Global-scale Location Estimation
Giorgos Kordopatis-Zilos | Panagiotis Galopoulos | Symeon Papadopoulos | Ioannis Kompatsiaris

doi dblp
Cross-Modal Image-Recipe Retrieval via Intra- and Inter-Modality Hybrid Fusion
Jiao Li | Jialiang Sun | Xing Xu | Wei Yu | Fumin Shen

doi dblp
Unsupervised Deep Cross-Modal Hashing by Knowledge Distillation for Large-scale Cross-modal Retrieval
Mingyong Li | Hongya Wang

doi dblp
A Unified-Model via Block Coordinate Descent for Learning the Importance of Filter
Qinghua Li | Xue Zhang | Cuiping Li | Hong Chen

doi dblp
Local-enhanced Interaction for Temporal Moment Localization
Guoqiang Liang | Shiyu Ji | Yanning Zhang

doi dblp
Reading Scene Text by Fusing Visual Attention with Semantic Representations
Zhiguang Liu | Liangwei Wang | Jian Qiao

doi dblp
Generative Adversarial Networks with Bi-directional Normalization for Semantic Image Synthesis
Jia Long | Hongtao Lu

doi dblp
Image-to-Image Transfer Makes Chaos to Order
Sanbi Luo | Tao Guo

doi dblp
Nested Dense Attention Network for Single Image Super-Resolution
Cheng Qiu | Yirong Yao | Yuntao Du

doi dblp
Efficient Nearest Neighbor Search by Removing Anti-hub
Kimihiro Tanaka | Yusuke Matsui | Shin'ichi Satoh

doi dblp
A Denoising Convolutional Neural Network for Self-Supervised Rank Effectiveness Estimation on Image Retrieval
Lucas Pascotti Valem | Daniel Carlos Guimarães Pedronette

doi dblp
Know Yourself and Know Others: Efficient Common Representation Learning for Few-shot Cross-modal Retrieval
Shaoying Wang | Hanjiang Lai | Zhenyu Shi

doi dblp
Neural Symbolic Representation Learning for Image Captioning
Xiaomei Wang | Lin Ma | Yanwei Fu | Xiangyang Xue

doi dblp
G-CAM: Graph Convolution Network Based Class Activation Mapping for Multi-label Image Recognition
Yangtao Wang | Yanzhao Xie | Yu Liu | Lisheng Fan

doi dblp
NASTER: Non-local Attentional Scene Text Recognizer
Lei Wu | Xueliang Liu | Yanbin Hao | Yunjie Ma | Richang Hong

doi dblp
Few-Shot Action Localization without Knowing Boundaries
Ting-Ting Xie | Christos Tzelepis | Fan Fu | Ioannis Patras

doi dblp
Aligning Visual Prototypes with BERT Embeddings for Few-Shot Learning
Kun Yan | Zied Bouraoui | Ping Wang | Shoaib Jameel | Steven Schockaert

doi dblp
TEACH: Attention-Aware Deep Cross-Modal Hashing
Hong-Lei Yao | Yu-Wei Zhan | Zhen-Duo Chen | Xin Luo | Xin-Shun Xu

doi dblp
Scene Text Recognition with Cascade Attention Network
Min Zhang | Meng Ma | Ping Wang

doi dblp
Multi-Attention Audio-Visual Fusion Network for Audio Spatialization
Wen Zhang | Jie Shao

doi dblp
Multi-Initialization Graph Meta-Learning for Node Classification
Feng Zhao | Donglin Wang | Xintao Xiang

doi dblp
Question-Guided Semantic Dual-Graph Visual Reasoning with Novel Answers
Xinzhe Zhou | Yadong Mu

doi dblp
Joint Hand-Object Pose Estimation with Differentiably-Learned Physical Contact Point Analysis
Nan Zhuang | Yadong Mu

doi dblp
HINFShot: A Challenge Dataset for Few-Shot Node Classification in Heterogeneous Information Network
Zifeng Zhuang | Xintao Xiang | Siteng Huang | Donglin Wang

doi dblp
Learning to Select: A Fully Attentive Approach for Novel Object Captioning
Marco Cagrandi | Marcella Cornia | Matteo Stefanini | Lorenzo Baraldi | Rita Cucchiara

doi dblp
Semi-supervised Many-to-many Music Timbre Transfer
Yu-Chen Chang | Wen-Cheng Chen | Min-Chun Hu

doi dblp
Text-Enhanced Attribute-Based Attention for Generalized Zero-Shot Fine-Grained Image Classification
Yan-He Chen | Mei-Chen Yeh

doi dblp
Cross-Modal Self-Attention with Multi-Task Pre-Training for Medical Visual Question Answering
Haifan Gong | Guanqi Chen | Sishuo Liu | Yizhou Yu | Guanbin Li

doi dblp
Body Shape Calculator: Understanding the Type of Body Shapes from Anthropometric Measurements
Shintami Chusnul Hidayati | Yeni Anistyasari

doi dblp
Unsupervised Video Summarization via Multi-source Features
Hussain Kanafani | Junaid Ahmed Ghauri | Sherzod Hakimov | Ralph Ewerth

doi dblp
Evaluating Contrastive Models for Instance-based Image Retrieval
Tarun Krishna | Kevin McGuinness | Noel E. O'Connor

doi dblp
AWFA-LPD: Adaptive Weight Feature Aggregation for Multi-frame License Plate Detection
Xiaocheng Lu | Yuan Yuan | Qi Wang

doi dblp
NMS-Loss: Learning with Non-Maximum Suppression for Crowded Pedestrian Detection
Zekun Luo | Zheng Fang | Sixiao Zheng | Yabiao Wang | Yanwei Fu

doi dblp
Weakly Supervised Sketch Based Person Search
Lan Yan | Wenbo Zheng | Fei-Yue Wang | Chao Gou

doi dblp
Personal Knowledge Base Construction from Multimodal Data
An-Zi Yen | Chia-Chung Chang | Hen-Hsen Huang | Hsin-Hsi Chen

doi dblp
2.5D Pose Guided Human Image Generation
Kang Yuan | Sheng Li

doi dblp
Ten Questions in Lifelog Mining and Information Recall
An-Zi Yen | Hen-Hsen Huang | Hsin-Hsi Chen

doi dblp
Bag of Tricks for Building an Accurate and Slim Object Detector for Embedded Applications
Yongkun Du | Zhineng Chen | Caiyan Jia | Xuanya Li | Yu-Gang Jiang

doi dblp
Object Detection on Embedded Systems for Traffic in Asian Countries
Bao-Hong Lai | Hsun-Ping Hsieh

doi dblp
Squeeze-and-Excitation network-Based Radar Object Detection With Weighted Location Fusion
Pengliang Sun | Xuetong Niu | Pengfei Sun | Kele Xu

doi dblp
Embedded YOLO: Faster and Lighter Object Detection
Wen-Kai Wu | Chien-Yu Chen | Jiann-Shu Lee

doi dblp
Scene-aware Learning Network for Radar Object Detection
Zangwei Zheng | Xiangyu Yue | Kurt Keutzer | Alberto L. Sangiovanni-Vincentelli

doi dblp
GPT2MVS: Generative Pre-trained Transformer-2 for Multi-modal Video Summarization
Jia-Hong Huang | Luka Murn | Marta Mrak | Marcel Worring

doi dblp
Impact of Interaction Strategies on User Relevance Feedback
Omar Shahbaz Khan | Björn Þór Jónsson | Jan Zahálka | Stevan Rudinac | Marcel Worring

doi dblp
Automatic Baseball Pitch Overlay
Ting-Hsuan Chou | Wei-Ta Chu

doi dblp
Video Action Retrieval Using Action Recognition Model
Yuko Iinuma | Shin'ichi Satoh

doi dblp
MeTILDA: Platform for Melodic Transcription in Language Documentation and Application
Mitchell Lee | Praveena Avula | Min Chen

doi dblp
IR Questioner: QA-based Interactive Retrieval System
Rintaro Yanagi | Ren Togo | Takahiro Ogawa | Miki Haseyama

doi dblp
A Beneficial Dual Transformation Approach for Deep Learning Networks Used in Steel Surface Defect Detection
Fityanul Akhyar | Chih-Yang Lin | Gugan S. Kathiresan

doi dblp
Discrete Tchebichef Transform for Versatile Video Coding
Ka-Hou Chan | Sio Kei Im

doi dblp
Fire Detection using Transformer Network
Mohammad Shahid | Kai-Lung Hua

doi dblp
Look Back Again: Dual Parallel Attention Network for Accurate and Robust Scene Text Recognition
Zilong Fu | Hongtao Xie | Guoqing Jin | Junbo Guo

doi dblp
Contextualized Keyword Representations for Multi-modal Retinal Image Captioning
Jia-Hong Huang | Ting-Wei Wu | Marcel Worring

doi dblp
MSAV: An Unified Framework for Multi-view Subspace Analysis with View Consistence
Huibing Wang | Guangqi Jiang | Jinjia Peng | Xianping Fu

doi dblp
A Tensor Sparse Representation-Based CBMIR System for Computer-Aided Diagnosis of Focal Liver Lesions and its Pilot Trial
Jian Wang | Xian-Hua Han | Lanfen Lin | Hongjie Hu | Yen-Wei Chen

doi dblp
Human Pose Estimation based on Attention Multi-resolution Network
Congcong Zhang | Ning He | Qixiang Sun | Xiaojie Yin | Ke Lu

doi dblp
MMArt-ACM'21: International Joint Workshop on Multimedia Artworks Analysis and Attractiveness Computing in Multimedia 2021
Min-Chun Hu | Ichiro Ide | Kensuke Tobitani

doi dblp
CEA'21: The 13th Workshop on Multimedia for Cooking and Eating Activities
Yoko Yamakata | Atsushi Hashimoto