publications | Soichiro Nishimori

2026

arXiv

Mahjax: A GPU-Accelerated Mahjong Simulator for Reinforcement Learning in JAX

Soichiro Nishimori, Shinri Okano , Keigo Habara , and 3 more authors

arXiv preprint arXiv:2605.20577, 2026

arXiv PDF Code
ICML

Emergence of Exploration in Policy Gradient Reinforcement Learning via Retrying

Soichiro Nishimori, Paavo Parmas , Sotetsu Koyamada , and 4 more authors

International Conference on Machine Learning, 2026

arXiv PDF Code
TMLR

On Symmetric Losses for Policy Optimization with Noisy Preferences

Soichiro Nishimori, Yu-Jie Zhang , Thanawat Lodkaew , and 1 more author

Transactions on Machine Learning Research, 2026

PDF Code
arXiv

Mitigating Reward Hacking in RLHF via Advantage Sign Robustness

Shinnosuke Ono , Johannes Ackermann , Soichiro Nishimori, and 2 more authors

arXiv preprint arXiv:2604.02986, 2026

arXiv PDF
arXiv

Finite-Time Regret Analysis of Retry-Aware Bandits

Bingkui Tong , Junpei Komiyama , Soichiro Nishimori, and 1 more author

arXiv preprint arXiv:2605.20854, 2026

arXiv PDF
arXiv

On Advantage Estimates for Max@K Policy Gradients

Shota Takashiro* , Soichiro Nishimori*, Paavo Parmas* , and 6 more authors

arXiv preprint arXiv:2606.06080, 2026

* Equal contribution

arXiv PDF
arXiv

OrderGrad: Optimizing Beyond the Mean with Order-Statistic Policy Gradient Estimation

Paavo Parmas , Yongmin Kim , Kohsei Matsutani , and 5 more authors

arXiv preprint arXiv:2606.06096, 2026

arXiv PDF Code
arXiv

Retry Policy Gradients in Continuous Action Spaces

Soichiro Nishimori, and Paavo Parmas

arXiv preprint arXiv:2606.05888, 2026

arXiv PDF Code

2025

RLC

Recursive Reward Aggregation

Yuting Tang , Yivan Zhang , Johannes Ackermann , and 4 more authors

Reinforcement Learning Conference, 2025

arXiv PDF
RLC

Offline Reinforcement Learning with Domain-Unlabeled Data

Soichiro Nishimori, Xin-Qiang Cai , Johannes Ackermann , and 1 more author

Reinforcement Learning Conference, 2025

arXiv PDF Code

2024

arXiv

A Policy Gradient Primal-Dual Algorithm for Constrained MDPs with Uniform PAC Guarantees

Toshinori Kitamura , Tadashi Kozuno , Masahiro Kato , and 6 more authors

Reinforcement Learning Conference Workshop, 2024

arXiv
RLC

A Batch Sequential Halving Algorithm without Performance Degradation

Sotetsu Koyamada , Soichiro Nishimori, and Shin Ishii

Reinforcement Learning Conference, 2024

arXiv
github

JAX-CORL: A single-file repository for offline reinforcement learning

Soichiro Nishimori

github, 2024

Code

2023

NeurIPS

Pgx: Hardware-accelerated parallel game simulators for reinforcement learning

Sotetsu Koyamada , Shinri Okano , Soichiro Nishimori, and 4 more authors

Advances in Neural Information Processing Systems, 2023

arXiv Code
arXiv

End-to-End Policy Gradient Method for POMDPs and Explainable Agents

Soichiro Nishimori, Sotetsu Koyamada , and Shin Ishii

arXiv preprint, 2023

2022

IEEE

Mjx: A framework for Mahjong AI research

Sotetsu Koyamada , Keigo Habara , Nao Goto , and 3 more authors

In , 2022

PDF